Aravind Pai aravindpai

## append.py
data['cleaned_summary'] = data['cleaned_summary'].apply(lambda x : '_START_ '+ x + ' _END_')

## display.py
for i in range(5):
    print("Review:",data['cleaned_text'][i])
    print("Summary:",data['cleaned_summary'][i])
    print("\n")

## distribution.py
import matplotlib.pyplot as plt
text_word_count = []
summary_word_count = []

# populate the lists with sentence lengths
for i in data['cleaned_text']:
      text_word_count.append(len(i.split()))

for i in data['cleaned_summary']:
      summary_word_count.append(len(i.split()))

## maxlen.py
max_len_text=80
max_len_summary=10

## split.py
from sklearn.model_selection import train_test_split
x_tr,x_val,y_tr,y_val=train_test_split(data['cleaned_text'],data['cleaned_summary'],test_size=0.1,random_state=0,shuffle=True)

## texttokenizer.py
#prepare a tokenizer for reviews on training data
x_tokenizer = Tokenizer()
x_tokenizer.fit_on_texts(list(x_tr))

#convert text sequences into integer sequences
x_tr    =   x_tokenizer.texts_to_sequences(x_tr)
x_val   =   x_tokenizer.texts_to_sequences(x_val)

#padding zero upto maximum length
x_tr    =   pad_sequences(x_tr,  maxlen=max_len_text, padding='post')

## summarytokenizer.py
#preparing a tokenizer for summary on training data
y_tokenizer = Tokenizer()
y_tokenizer.fit_on_texts(list(y_tr))

#convert summary sequences into integer sequences
y_tr    =   y_tokenizer.texts_to_sequences(y_tr)
y_val   =   y_tokenizer.texts_to_sequences(y_val)

#padding zero upto maximum length
y_tr    =   pad_sequences(y_tr, maxlen=max_len_summary, padding='post')

## model.py
from keras import backend as K
K.clear_session()
latent_dim = 500

# Encoder
encoder_inputs = Input(shape=(max_len_text,))
enc_emb = Embedding(x_voc_size, latent_dim,trainable=True)(encoder_inputs)

#LSTM 1
encoder_lstm1 = LSTM(latent_dim,return_sequences=True,return_state=True)

## metrics.py
model.compile(optimizer='rmsprop', loss='sparse_categorical_crossentropy')

## callback.py
es = EarlyStopping(monitor='val_loss', mode='min', verbose=1)
	for i in range(5):
	print("Review:",data['cleaned_text'][i])
	print("Summary:",data['cleaned_summary'][i])
	print("\n")
	import matplotlib.pyplot as plt
	text_word_count = []
	summary_word_count = []

	# populate the lists with sentence lengths
	for i in data['cleaned_text']:
	text_word_count.append(len(i.split()))

	for i in data['cleaned_summary']:
	summary_word_count.append(len(i.split()))
	from sklearn.model_selection import train_test_split
	x_tr,x_val,y_tr,y_val=train_test_split(data['cleaned_text'],data['cleaned_summary'],test_size=0.1,random_state=0,shuffle=True)
	#prepare a tokenizer for reviews on training data
	x_tokenizer = Tokenizer()
	x_tokenizer.fit_on_texts(list(x_tr))

	#convert text sequences into integer sequences
	x_tr = x_tokenizer.texts_to_sequences(x_tr)
	x_val = x_tokenizer.texts_to_sequences(x_val)

	#padding zero upto maximum length
	x_tr = pad_sequences(x_tr, maxlen=max_len_text, padding='post')
	#preparing a tokenizer for summary on training data
	y_tokenizer = Tokenizer()
	y_tokenizer.fit_on_texts(list(y_tr))

	#convert summary sequences into integer sequences
	y_tr = y_tokenizer.texts_to_sequences(y_tr)
	y_val = y_tokenizer.texts_to_sequences(y_val)

	#padding zero upto maximum length
	y_tr = pad_sequences(y_tr, maxlen=max_len_summary, padding='post')
	from keras import backend as K
	K.clear_session()
	latent_dim = 500

	# Encoder
	encoder_inputs = Input(shape=(max_len_text,))
	enc_emb = Embedding(x_voc_size, latent_dim,trainable=True)(encoder_inputs)

	#LSTM 1
	encoder_lstm1 = LSTM(latent_dim,return_sequences=True,return_state=True)