Hrithik Gupta sgsg704

## gist:316a5c33e4d070142c30e8701ddc4d5a
X=df1[['Temperature', 'Pressure', 'Humidity', 'Speed',
       'DayLengthinsec', 'time_in_sec', 'Temp_multiply_humid', 'Month',
       'wind_dir','Day_of_month']]
Y=df1.Radiation

X_train, X_test, Y_train, Y_test= train_test_split(X, Y, random_state= 0)
def model_score_error(model):
    prepared_model=model.fit(X_train, Y_train)
    x=prepared_model.score(X_test,Y_test)
    print('Score: ',x)

## gist:9dbbe5a23d21d0f2588327cbc5dd8ed6
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.linear_model import ElasticNet, Lasso, BayesianRidge, LassoLarsIC
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import RobustScaler
from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin, clone
from sklearn.model_selection import KFold, cross_val_score, train_test_split
from sklearn.metrics import mean_squared_error

## gist:5bbf64fdd59f67cb6ce0b2c7fe2dc823
fig, ax = plt.subplots()
ax.scatter(x = df1['Speed'], y = df1['Radiation'])
plt.ylabel('Radiation', fontsize=13)
plt.xlabel('Speed', fontsize=13)
plt.show()

## gist:91e724d2e2da24436c94bf942ac0cc13
df1 = df1.drop(df1[(df1['Radiation']>1400)].index)

df1 = df1.drop(df1[(df1['wind_dir']>8000)].index)

fig, ax = plt.subplots()
ax.scatter(x = df1['DayLengthinsec'], y = df1['Radiation'])
plt.ylabel('Radiation', fontsize=13)
plt.xlabel('DayLengthinsec', fontsize=13)
plt.show()

## gist:cca9dcc8faa8f8e1deebdc1ce0b7a0e6
fig, ax = plt.subplots()
ax.scatter(x = df1['DayLengthinsec'], y = df1['Radiation'])
plt.ylabel('Radiation', fontsize=13)
plt.xlabel('DayLengthinsec', fontsize=13)
plt.show()

## gist:af70aeef1b4021f6acd897935f946b79
df1.hist(figsize=(10,10))
plt.show()

## gist:9b2d923e9bd543cd2dfc3eb6e9e1781e
#We drop the following columns
df1 = df1.drop(['Time'], axis=1)


from sklearn.model_selection import train_test_split
X=df1[['Temperature', 'Pressure', 'Humidity', 'Speed',
     'DayLengthinsec', 'time_in_sec', 'Temp_multiply_humid', 'Month',
       'wind_dir','Day_of_month']]


## gist:9d84974a58a504a53994641adc8f501e
Temp_multiply_humid=df1.Humidity *df1.Temperature
df1['Temp_multiply_humid']=Temp_multiply_humid

df1['Month']=[d.split('/')[0] for d in df1.Data]
df1['Day_of_month']=[d.split('/')[1] for d in df1.Data]


df1['wind_dir'] = df1['WindDirection(Degrees)']
#We drop the following columns
df1 = df1.drop(['UNIXTime','Data','TimeSunRise','TimeSunSet','WindDirection(Degrees)'], axis=1)

## gist:c416848fbd795ec06d8722390db697fe
model=smf.ols('Radiation ~ Temperature+ Humidity +Humidity*Temperature', df1)
Fitting_results=model.fit()
print(Fitting_results.summary().tables[1])

## gist:f0197ffa66f66fb794f4095e69cb775d
# graph is plotted between time and radiation
# it comes out as perfectly skewed

plt.scatter(df1.time_in_sec,df1.Radiation,color='blue')
plt.xlabel("time_in_sec")
plt.ylabel("Radiation")
plt.title("Graph")
plt.show()
	X=df1[['Temperature', 'Pressure', 'Humidity', 'Speed',
	'DayLengthinsec', 'time_in_sec', 'Temp_multiply_humid', 'Month',
	'wind_dir','Day_of_month']]
	Y=df1.Radiation

	X_train, X_test, Y_train, Y_test= train_test_split(X, Y, random_state= 0)
	def model_score_error(model):
	prepared_model=model.fit(X_train, Y_train)
	x=prepared_model.score(X_test,Y_test)
	print('Score: ',x)
	from sklearn.ensemble import RandomForestRegressor
	from sklearn.tree import DecisionTreeRegressor
	from sklearn.neural_network import MLPRegressor
	from sklearn.linear_model import ElasticNet, Lasso, BayesianRidge, LassoLarsIC
	from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
	from sklearn.pipeline import make_pipeline
	from sklearn.preprocessing import RobustScaler
	from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin, clone
	from sklearn.model_selection import KFold, cross_val_score, train_test_split
	from sklearn.metrics import mean_squared_error
	fig, ax = plt.subplots()
	ax.scatter(x = df1['Speed'], y = df1['Radiation'])
	plt.ylabel('Radiation', fontsize=13)
	plt.xlabel('Speed', fontsize=13)
	plt.show()
	df1 = df1.drop(df1[(df1['Radiation']>1400)].index)

	df1 = df1.drop(df1[(df1['wind_dir']>8000)].index)

	fig, ax = plt.subplots()
	ax.scatter(x = df1['DayLengthinsec'], y = df1['Radiation'])
	plt.ylabel('Radiation', fontsize=13)
	plt.xlabel('DayLengthinsec', fontsize=13)
	plt.show()
	#We drop the following columns
	df1 = df1.drop(['Time'], axis=1)


	from sklearn.model_selection import train_test_split
	X=df1[['Temperature', 'Pressure', 'Humidity', 'Speed',
	'DayLengthinsec', 'time_in_sec', 'Temp_multiply_humid', 'Month',
	'wind_dir','Day_of_month']]
	Temp_multiply_humid=df1.Humidity *df1.Temperature
	df1['Temp_multiply_humid']=Temp_multiply_humid

	df1['Month']=[d.split('/')[0] for d in df1.Data]
	df1['Day_of_month']=[d.split('/')[1] for d in df1.Data]


	df1['wind_dir'] = df1['WindDirection(Degrees)']
	#We drop the following columns
	df1 = df1.drop(['UNIXTime','Data','TimeSunRise','TimeSunSet','WindDirection(Degrees)'], axis=1)
	model=smf.ols('Radiation ~ Temperature+ Humidity +Humidity*Temperature', df1)
	Fitting_results=model.fit()
	print(Fitting_results.summary().tables[1])
	# graph is plotted between time and radiation
	# it comes out as perfectly skewed

	plt.scatter(df1.time_in_sec,df1.Radiation,color='blue')
	plt.xlabel("time_in_sec")
	plt.ylabel("Radiation")
	plt.title("Graph")
	plt.show()