KhyatiMahendru/LatentSemanticAnalysis.py

## LatentSemanticAnalysis.py
# create document term matrix for your data
# you can use TfidfVectorizer instead of CountVectorizer as well
from sklearn.feature_extraction.text import CountVectorizer
cvec = CountVectorizer()
docTermMat = cvec.fit_transform(data['text'].values)

# truncated SVD to preserve 20 topics
from sklearn.decomposition import TruncatedSVD
lsa = TruncatedSVD(n_components = 20, n_iter = 500)
lsa.fit(docTermMat)
	# create document term matrix for your data
	# you can use TfidfVectorizer instead of CountVectorizer as well
	from sklearn.feature_extraction.text import CountVectorizer
	cvec = CountVectorizer()
	docTermMat = cvec.fit_transform(data['text'].values)

	# truncated SVD to preserve 20 topics
	from sklearn.decomposition import TruncatedSVD
	lsa = TruncatedSVD(n_components = 20, n_iter = 500)
	lsa.fit(docTermMat)