Prateek Joshi prateekjoshi565

## split_data_elmo.py
from sklearn.model_selection import train_test_split

xtrain, xvalid, ytrain, yvalid = train_test_split(elmo_train_new,
                                                  train['label'],
                                                  random_state=42,
                                                  test_size=0.2)

## train_model_elmo.py
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score

lreg = LogisticRegression()
lreg.fit(xtrain, ytrain)

## create_submission.py
# prepare submission dataframe
sub = pd.DataFrame({'id':test['id'], 'label':preds_test})

# write predictions to a CSV file
sub.to_csv("sub_lreg.csv", index=False)

## text_normalization_elmo.py
# import spaCy's language model
nlp = spacy.load('en', disable=['parser', 'ner'])

# function to lemmatize text
def lemmatization(texts):
    output = []
    for i in texts:
        s = [token.lemma_ for token in nlp(i)]
        output.append(' '.join(s))
    return output

## genre_import_libraries.py
import pandas as pd
import numpy as np
import json
import nltk
import re
import csv
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm
from sklearn.feature_extraction.text import TfidfVectorizer

## genre_open_data.py
plots = []

with open("plot_summaries.txt", 'r') as f:
       reader = csv.reader(f, dialect='excel-tab')
       for row in tqdm(reader):
            plots.append(row)

## genre_split_id_plot.py
movie_id = []
plot = []

# extract movie Ids and plot summaries
for i in tqdm(plots):
  movie_id.append(i[0])
  plot.append(i[1])

# create dataframe
movies = pd.DataFrame({'movie_id': movie_id, 'plot': plot})

## genre_merge_data_labels.py
# change datatype of 'movie_id'
meta['movie_id'] = meta['movie_id'].astype(str)

# merge meta with movies
movies = pd.merge(movies, meta[['movie_id', 'movie_name', 'genre']], on = 'movie_id')

movies.head()

## genre_extract_genres.py
# an empty list
genres = []

# extract genres
for i in movies['genre']:
  genres.append(list(json.loads(i).values()))

# add to 'movies' dataframe
movies['genre_new'] = genres

## genre_frequencies.py
all_genres = nltk.FreqDist(all_genres)

# create dataframe
all_genres_df = pd.DataFrame({'Genre': list(all_genres.keys()),
                              'Count': list(all_genres.values())})
	from sklearn.model_selection import train_test_split

	xtrain, xvalid, ytrain, yvalid = train_test_split(elmo_train_new,
	train['label'],
	random_state=42,
	test_size=0.2)
	from sklearn.linear_model import LogisticRegression
	from sklearn.metrics import f1_score

	lreg = LogisticRegression()
	lreg.fit(xtrain, ytrain)
	# prepare submission dataframe
	sub = pd.DataFrame({'id':test['id'], 'label':preds_test})

	# write predictions to a CSV file
	sub.to_csv("sub_lreg.csv", index=False)
	# import spaCy's language model
	nlp = spacy.load('en', disable=['parser', 'ner'])

	# function to lemmatize text
	def lemmatization(texts):
	output = []
	for i in texts:
	s = [token.lemma_ for token in nlp(i)]
	output.append(' '.join(s))
	return output
	import pandas as pd
	import numpy as np
	import json
	import nltk
	import re
	import csv
	import matplotlib.pyplot as plt
	import seaborn as sns
	from tqdm import tqdm
	from sklearn.feature_extraction.text import TfidfVectorizer
	plots = []

	with open("plot_summaries.txt", 'r') as f:
	reader = csv.reader(f, dialect='excel-tab')
	for row in tqdm(reader):
	plots.append(row)
	movie_id = []
	plot = []

	# extract movie Ids and plot summaries
	for i in tqdm(plots):
	movie_id.append(i[0])
	plot.append(i[1])

	# create dataframe
	movies = pd.DataFrame({'movie_id': movie_id, 'plot': plot})
	# change datatype of 'movie_id'
	meta['movie_id'] = meta['movie_id'].astype(str)

	# merge meta with movies
	movies = pd.merge(movies, meta[['movie_id', 'movie_name', 'genre']], on = 'movie_id')

	movies.head()
	# an empty list
	genres = []

	# extract genres
	for i in movies['genre']:
	genres.append(list(json.loads(i).values()))

	# add to 'movies' dataframe
	movies['genre_new'] = genres
	all_genres = nltk.FreqDist(all_genres)

	# create dataframe
	all_genres_df = pd.DataFrame({'Genre': list(all_genres.keys()),
	'Count': list(all_genres.values())})