Let The Data Confess letthedataconfess

## Sentiment analysis: reading the data
import pandas as pd
df = pd.read_csv('./amazonreviews.tsv',sep='\t')
df.head()

## Sentiment_analysis: import libraries
#importing all the required libraries
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk import tokenize

## Sentiment analysis: Data Cleaning
!pip install contractions
import contractions

# Expanding contractions
def con(text):
  expand=contractions.fix(text)
  return expand

df.review=df.review.apply(con)

## Sentiment analysis: Data Cleaning
df.review=df.review.apply(lambda x: x.lower())

## Sentiment analysis: Data Cleaning
import string

def remove_punc(text):
    for i in string.punctuation:
        text=text.replace(i,' ')

    return text

df.review=df.review.apply(remove_punc)

## Tokenization
nltk.download('punkt')
df['review']=df.review.apply(word_tokenize)
df['review'][0]

## Lemmatization
nltk.download('wordnet')
lemmatizer=WordNetLemmatizer()
df['review']=df.review.apply(lambda x:[lemmatizer.lemmatize(word) for word in x])

## Lemmatization
df.review= df.review.astype(str)

## train-test split
x = df.iloc[:,1].values  # Features variable
y = df.iloc[:,0].values  # Target variable

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=0,test_size=0.2)

## Tf-df vectorization
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf=TfidfVectorizer()
x_train_tfidf = tfidf.fit_transform(x_train)
x_test_tfidf = tfidf.transform(x_test)
	import pandas as pd
	df = pd.read_csv('./amazonreviews.tsv',sep='\t')
	df.head()
	#importing all the required libraries
	import nltk
	from nltk.corpus import stopwords
	from nltk.tokenize import word_tokenize
	from nltk.stem import WordNetLemmatizer
	from nltk import tokenize
	!pip install contractions
	import contractions

	# Expanding contractions
	def con(text):
	expand=contractions.fix(text)
	return expand

	df.review=df.review.apply(con)
	import string

	def remove_punc(text):
	for i in string.punctuation:
	text=text.replace(i,' ')

	return text

	df.review=df.review.apply(remove_punc)
	nltk.download('punkt')
	df['review']=df.review.apply(word_tokenize)
	df['review'][0]
	nltk.download('wordnet')
	lemmatizer=WordNetLemmatizer()
	df['review']=df.review.apply(lambda x:[lemmatizer.lemmatize(word) for word in x])
	x = df.iloc[:,1].values # Features variable
	y = df.iloc[:,0].values # Target variable

	from sklearn.model_selection import train_test_split
	x_train,x_test,y_train,y_test = train_test_split(x,y,random_state=0,test_size=0.2)
	from sklearn.feature_extraction.text import TfidfVectorizer
	tfidf=TfidfVectorizer()
	x_train_tfidf = tfidf.fit_transform(x_train)
	x_test_tfidf = tfidf.transform(x_test)