GuidoTournois/chunking.py

## chunking.py
import pandas
from sklearn.linear_model import LogisticRegression
datafile = "data.csv"
chunksize = 100000
models = []
for chunk in pd.read_csv(datafile, chunksize=chunksize):
    chunk = pre_process_and_feature_engineer(chunk)
    # A function to clean my data and create my features
    model = LogisticRegression()
    model.fit(chunk[features], chunk['label'])
    models.append(model)
df = pd.read_csv("data_to_score.csv")
df = pre_process_and_feature_engineer(df)
predictions = mean([model.predict(df[features]) for model in models], axis=0)
	import pandas
	from sklearn.linear_model import LogisticRegression
	datafile = "data.csv"
	chunksize = 100000
	models = []
	for chunk in pd.read_csv(datafile, chunksize=chunksize):
	chunk = pre_process_and_feature_engineer(chunk)
	# A function to clean my data and create my features
	model = LogisticRegression()
	model.fit(chunk[features], chunk['label'])
	models.append(model)
	df = pd.read_csv("data_to_score.csv")
	df = pre_process_and_feature_engineer(df)
	predictions = mean([model.predict(df[features]) for model in models], axis=0)