Mohamed Gaber MoGaber

## gist:c8745f35984e4dd60b33c2dcebbbac84
shap.summary_plot(shap_values, x_test)

## gist:fc6c9307db6868a05d3da5283aa79706
shap.initjs()
shap.force_plot(explainer.expected_value, shap_values[1,:], x_test.iloc[20,:])

## gist:8f1b430fa7b64c6985c5f1e0448cde15
model_dataset = pd.merge(full_data,professionals_dataset,how='left',  on=["professional_id" ])

## gist:d5f82cd0dd7ea207fb13de6d805362aa
explainer = shap.LinearExplainer(LR, x_train, feature_perturbation="interventional")
shap_values = explainer.shap_values(x_test)
shap.summary_plot(shap_values, x_train, plot_type="bar")

## gist:52996608d434b44579bd06df31947d71
x_train, x_test, y_train, y_test = train_test_split(resampled_data, target, test_size=0.2, random_state=42)
LR = LogisticRegression(max_iter = 10000)
LR.fit(x_train, y_train)
LR.score(x_test, y_test)

## gist:e1b5215b2b312c8ed255b036bc2e5c9b
positive = model_dataset[ model_dataset["q_answered?"] != 0]
negative = model_dataset[ model_dataset["q_answered?"] == 0]
negative_sample = negative.sample(5000)
resampled_data = pd.concat([positive,negative_sample ])

## gist:6b5e99684ef04ebb1c57d7d7294e3a5e
model_dataset["num_schools"]  =model_dataset["num_schools"].fillna(0)
model_dataset["num_groups"] = model_dataset["num_groups"].fillna(0)

## gist:56ebd9c24ae48ab2d768f8c83d869303
model_dataset["following_tags"]= model_dataset["following_tags"].fillna("Na")
model_dataset["prev_q_tags"]= model_dataset["prev_q_tags"].fillna("Na")
model_dataset["q_tags"]= model_dataset["q_tags"].fillna("Na")

## gist:925159035f666f75b1b29bd39121bdfd
# creating a data for all the professionals
professionals_dataset = pd.DataFrame(columns = ["professional_id"])
professionals_dataset["professional_id"] = professionals["professionals_id"]

## gist:4e1397e8fd09a899e53ff5f53207c006
print("Email was sent at: ",full_data.loc[33299]["emails_date_sent"])
print("Answer was added at: ",full_data.loc[33299]["answers_date_added"])
	shap.initjs()
	shap.force_plot(explainer.expected_value, shap_values[1,:], x_test.iloc[20,:])
	explainer = shap.LinearExplainer(LR, x_train, feature_perturbation="interventional")
	shap_values = explainer.shap_values(x_test)
	shap.summary_plot(shap_values, x_train, plot_type="bar")
	x_train, x_test, y_train, y_test = train_test_split(resampled_data, target, test_size=0.2, random_state=42)
	LR = LogisticRegression(max_iter = 10000)
	LR.fit(x_train, y_train)
	LR.score(x_test, y_test)
	positive = model_dataset[ model_dataset["q_answered?"] != 0]
	negative = model_dataset[ model_dataset["q_answered?"] == 0]
	negative_sample = negative.sample(5000)
	resampled_data = pd.concat([positive,negative_sample ])
	model_dataset["num_schools"] =model_dataset["num_schools"].fillna(0)
	model_dataset["num_groups"] = model_dataset["num_groups"].fillna(0)
	model_dataset["following_tags"]= model_dataset["following_tags"].fillna("Na")
	model_dataset["prev_q_tags"]= model_dataset["prev_q_tags"].fillna("Na")
	model_dataset["q_tags"]= model_dataset["q_tags"].fillna("Na")
	# creating a data for all the professionals
	professionals_dataset = pd.DataFrame(columns = ["professional_id"])
	professionals_dataset["professional_id"] = professionals["professionals_id"]
	print("Email was sent at: ",full_data.loc[33299]["emails_date_sent"])
	print("Answer was added at: ",full_data.loc[33299]["answers_date_added"])