DipenChawla/classifiers.py

## classifiers.py
X_train, X_test, y_train, y_test,indices_train, indices_test = train_test_split(df_final, df_final_labels,reviews.index, test_size=0.2, random_state=42)
from sklearn.model_selection import cross_val_score

#Classifier 1 - Linear  SVM with OnevsRest
from sklearn.svm import LinearSVC
svc = LinearSVC(dual=False, multi_class='ovr', class_weight='balanced')
scores = cross_val_score(svc, X_train, y_train, scoring='f1_weighted', n_jobs=-1, cv=10)
print('Cross-validation f1 score {0:.2f}, std {1:.2f}.'.format(np.mean(scores), np.std(scores) * 100))
svc.fit(X_train, y_train)
pred = svc.predict(X_test)

#Classifier 2 - Logistic regression
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(C=30.0, solver='newton-cg', class_weight='balanced',
                         multi_class='multinomial', n_jobs=-1, random_state=42)
scores = cross_val_score(clf, X_train, y_train, scoring='f1_weighted', n_jobs=-1, cv=10)
print('Cross-validation f1 score {0:.2f}, std {1:.2f}.'.format(np.mean(scores), np.std(scores) * 100))
clf.fit(X_train, y_train)
pred = clf.predict(X_test)

#Classifier 3 - Random forest
from sklearn.ensemble import RandomForestClassifier
random =  RandomForestClassifier(n_estimators=1000, random_state=0)
scores = cross_val_score(random, X_train, y_train, scoring='f1_weighted', n_jobs=-1, cv=10)
print('Cross-validation f1 score {0:.2f}, std {1:.2f}.'.format(np.mean(scores), np.std(scores) * 100))
random.fit(X_train, y_train)
pred = random.predict(X_test)

#Classifier 4 - Bagging Meta-Estimator with Logistic Regressor
from sklearn.ensemble import BaggingClassifier
bagging = BaggingClassifier(clf)
scores = cross_val_score(bagging, X_train, y_train, scoring='f1_weighted', n_jobs=-1, cv=10)
print('Cross-validation f1 score {0:.2f}, std {1:.2f}.'.format(np.mean(scores), np.std(scores) * 100))
bagging.fit(X_train, y_train)
pred = bagging.predict(X_test)
	X_train, X_test, y_train, y_test,indices_train, indices_test = train_test_split(df_final, df_final_labels,reviews.index, test_size=0.2, random_state=42)
	from sklearn.model_selection import cross_val_score

	#Classifier 1 - Linear SVM with OnevsRest
	from sklearn.svm import LinearSVC
	svc = LinearSVC(dual=False, multi_class='ovr', class_weight='balanced')
	scores = cross_val_score(svc, X_train, y_train, scoring='f1_weighted', n_jobs=-1, cv=10)
	print('Cross-validation f1 score {0:.2f}, std {1:.2f}.'.format(np.mean(scores), np.std(scores) * 100))
	svc.fit(X_train, y_train)
	pred = svc.predict(X_test)

	#Classifier 2 - Logistic regression
	from sklearn.linear_model import LogisticRegression
	clf = LogisticRegression(C=30.0, solver='newton-cg', class_weight='balanced',
	multi_class='multinomial', n_jobs=-1, random_state=42)
	scores = cross_val_score(clf, X_train, y_train, scoring='f1_weighted', n_jobs=-1, cv=10)
	print('Cross-validation f1 score {0:.2f}, std {1:.2f}.'.format(np.mean(scores), np.std(scores) * 100))
	clf.fit(X_train, y_train)
	pred = clf.predict(X_test)

	#Classifier 3 - Random forest
	from sklearn.ensemble import RandomForestClassifier
	random = RandomForestClassifier(n_estimators=1000, random_state=0)
	scores = cross_val_score(random, X_train, y_train, scoring='f1_weighted', n_jobs=-1, cv=10)
	print('Cross-validation f1 score {0:.2f}, std {1:.2f}.'.format(np.mean(scores), np.std(scores) * 100))
	random.fit(X_train, y_train)
	pred = random.predict(X_test)

	#Classifier 4 - Bagging Meta-Estimator with Logistic Regressor
	from sklearn.ensemble import BaggingClassifier
	bagging = BaggingClassifier(clf)
	scores = cross_val_score(bagging, X_train, y_train, scoring='f1_weighted', n_jobs=-1, cv=10)
	print('Cross-validation f1 score {0:.2f}, std {1:.2f}.'.format(np.mean(scores), np.std(scores) * 100))
	bagging.fit(X_train, y_train)
	pred = bagging.predict(X_test)