untodesu/sus.html

## sus.html
<p style="code { white-space: pre; }">
<code white-space="pre">
SELECT COUNT(*) FROM pulsar_stars <br>
WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br>
^^^^^ R=79<br>
SELECT AVG(MIP) FROM pulsar_stars <br>
WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br>
^^^^^ R=84.5427964154411764705882352941176470588<br>
SELECT * FROM pulsar_stars <br>
WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br><br>

import numpy as np<br>
import pandas as pd<br>
from pandas import Series, DataFrame<br>
from sklearn.preprocessing import MinMaxScaler<br>

data = pd.read_csv('report.csv', usecols=['MIP','STDIP','EKIP','SIP','MC','STDC','EKC','SC'])<br>
data = MinMaxScaler().fit_transform(data)<br>
avr = data.mean(axis = 0)<br>
print("T2:", avr[0])<br>

from sklearn.linear_model import LogisticRegression<br>
y = pd.read_csv('report.csv', usecols = ['TARGET'])<br>
reg = LogisticRegression(random_state = 2019, solver='lbfgs').fit(data, y.values.ravel())<br>
print("T3: ([[not, is]]):", reg.predict_proba([[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]]))<br><br>

from sklearn.neighbors import KNeighborsClassifier<br>
D_MANH=1<br>
D_EUCL=2<br>
D_NEIG=136<br>
neigh = KNeighborsClassifier(n_neighbors = D_NEIG, p = D_MANH)<br>
neigh.fit(data, y.values.ravel())<br>
Star = [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]<br>
print("T4:", neigh.kneighbors([Star])[0][0][0])<br><br><br>


import pandas as pd<br>
import numpy as np<br>
import matplotlib.pyplot as plt<br>
import mnist<br>
from sklearn.model_selection import train_test_split<br>
from sklearn.metrics import confusion_matrix<br>
from sklearn.decomposition import PCA<br>
from sklearn.multiclass import OneVsRestClassifier<br>
from sklearn.ensemble import RandomForestClassifier<br>
%matplotlib inline<br>
D_WIDTH=28<br>
D_MINDISP=0.83<br>
X_train = mnist.train_images()<br>
y_train = mnist.train_labels()<br>
dim = D_WIDTH*D_WIDTH<br>
X_train = X_train.reshape(len(X_train), dim)<br>
ev_ = D_MINDISP<br>
M = 0<br>
pca = PCA(n_components=70, svd_solver='full')<br>
pca.fit(X_train)<br>
explained_variance = np.round(np.cumsum(pca.explained_variance_ratio_),3)<br>
for i, ev in enumerate(explained_variance):<br>
    if ev > ev_:<br>
        M = i + 1<br>
        break<br>
plt.plot(np.arange(70), explained_variance)<br>
plt.plot([0, 70], [0.84, 0.84]);<br>
print("T1: M =", M)<br><br>

D_TS=0.3<br>
D_RS=126<br>
pca = PCA(n_components = M, svd_solver = 'full')<br>
pca.fit(X_train)<br>
X_test_transformed = pca.transform(X_train)<br>
X_train, X_test, y_train, y_test = train_test_split(X_test_transformed, y_train, test_size = D_TS, random_state = D_RS)<br>
print("T2:", sum([i[0] for i in X_train]) / len(X_train))<br><br>

D_CRIT='gini'<br>
D_MSLF=10<br>
D_MXDP=20<br>
D_ESTS=10<br>
D_RSTT=126<br>
D_XYOF=5<br>
rfc = RandomForestClassifier(criterion=D_CRIT, min_samples_leaf=D_MSLF, max_depth=D_MXDP, n_estimators=D_ESTS, random_state=D_RSTT)<br>
clf = OneVsRestClassifier(rfc).fit(X_train, y_train)<br>
y_pred = clf.predict(X_test)<br>
CM = confusion_matrix(y_test, y_pred)<br>
print("T3:", CM[D_XYOF][D_XYOF])<br><br>

D_TARGETVAL=4<br>
D_TARGETFILE=20<br>
data = pd.read_csv('pred_for_task.csv', index_col='FileName')<br>
X_test = data.drop('Label', axis=1)<br>
X_test = pca.transform(X_test)<br>
y_test = data['Label']<br>
y_pred = clf.predict(X_test)<br>
print("T4:", clf.predict_proba([X_test[D_TARGETFILE-1]])[0][D_TARGETVAL])<br>
</code>
  </p>
	<p style="code { white-space: pre; }">
	<code white-space="pre">
	SELECT COUNT(*) FROM pulsar_stars <br>
	WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
	(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br>
	^^^^^ R=79<br>
	SELECT AVG(MIP) FROM pulsar_stars <br>
	WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
	(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br>
	^^^^^ R=84.5427964154411764705882352941176470588<br>
	SELECT * FROM pulsar_stars <br>
	WHERE (TARGET = 0 AND MIP BETWEEN 83 AND 84) OR <br>
	(TARGET = 1 AND MIP BETWEEN 83 AND 89)<br><br>

	import numpy as np<br>
	import pandas as pd<br>
	from pandas import Series, DataFrame<br>
	from sklearn.preprocessing import MinMaxScaler<br>

	data = pd.read_csv('report.csv', usecols=['MIP','STDIP','EKIP','SIP','MC','STDC','EKC','SC'])<br>
	data = MinMaxScaler().fit_transform(data)<br>
	avr = data.mean(axis = 0)<br>
	print("T2:", avr[0])<br>

	from sklearn.linear_model import LogisticRegression<br>
	y = pd.read_csv('report.csv', usecols = ['TARGET'])<br>
	reg = LogisticRegression(random_state = 2019, solver='lbfgs').fit(data, y.values.ravel())<br>
	print("T3: ([[not, is]]):", reg.predict_proba([[0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]]))<br><br>

	from sklearn.neighbors import KNeighborsClassifier<br>
	D_MANH=1<br>
	D_EUCL=2<br>
	D_NEIG=136<br>
	neigh = KNeighborsClassifier(n_neighbors = D_NEIG, p = D_MANH)<br>
	neigh.fit(data, y.values.ravel())<br>
	Star = [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]<br>
	print("T4:", neigh.kneighbors([Star])[0][0][0])<br><br><br>


	import pandas as pd<br>
	import numpy as np<br>
	import matplotlib.pyplot as plt<br>
	import mnist<br>
	from sklearn.model_selection import train_test_split<br>
	from sklearn.metrics import confusion_matrix<br>
	from sklearn.decomposition import PCA<br>
	from sklearn.multiclass import OneVsRestClassifier<br>
	from sklearn.ensemble import RandomForestClassifier<br>
	%matplotlib inline<br>
	D_WIDTH=28<br>
	D_MINDISP=0.83<br>
	X_train = mnist.train_images()<br>
	y_train = mnist.train_labels()<br>
	dim = D_WIDTH*D_WIDTH<br>
	X_train = X_train.reshape(len(X_train), dim)<br>
	ev_ = D_MINDISP<br>
	M = 0<br>
	pca = PCA(n_components=70, svd_solver='full')<br>
	pca.fit(X_train)<br>
	explained_variance = np.round(np.cumsum(pca.explained_variance_ratio_),3)<br>
	for i, ev in enumerate(explained_variance):<br>
	if ev > ev_:<br>
	M = i + 1<br>
	break<br>
	plt.plot(np.arange(70), explained_variance)<br>
	plt.plot([0, 70], [0.84, 0.84]);<br>
	print("T1: M =", M)<br><br>

	D_TS=0.3<br>
	D_RS=126<br>
	pca = PCA(n_components = M, svd_solver = 'full')<br>
	pca.fit(X_train)<br>
	X_test_transformed = pca.transform(X_train)<br>
	X_train, X_test, y_train, y_test = train_test_split(X_test_transformed, y_train, test_size = D_TS, random_state = D_RS)<br>
	print("T2:", sum([i[0] for i in X_train]) / len(X_train))<br><br>

	D_CRIT='gini'<br>
	D_MSLF=10<br>
	D_MXDP=20<br>
	D_ESTS=10<br>
	D_RSTT=126<br>
	D_XYOF=5<br>
	rfc = RandomForestClassifier(criterion=D_CRIT, min_samples_leaf=D_MSLF, max_depth=D_MXDP, n_estimators=D_ESTS, random_state=D_RSTT)<br>
	clf = OneVsRestClassifier(rfc).fit(X_train, y_train)<br>
	y_pred = clf.predict(X_test)<br>
	CM = confusion_matrix(y_test, y_pred)<br>
	print("T3:", CM[D_XYOF][D_XYOF])<br><br>

	D_TARGETVAL=4<br>
	D_TARGETFILE=20<br>
	data = pd.read_csv('pred_for_task.csv', index_col='FileName')<br>
	X_test = data.drop('Label', axis=1)<br>
	X_test = pca.transform(X_test)<br>
	y_test = data['Label']<br>
	y_pred = clf.predict(X_test)<br>
	print("T4:", clf.predict_proba([X_test[D_TARGETFILE-1]])[0][D_TARGETVAL])<br>
	</code>
	</p>