florianherrengt/text_similarity.py

## text_similarity.py
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity


corpus = [
    'This is my first sentence',
    'This is my second sentence'
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(cosine_similarity(X.toarray())[0][1]) # 0.8

corpus = [
    'This is the same sentence',
    'This is the same sentence'
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(cosine_similarity(X.toarray())[0][1]) # 1.0

corpus = [
    'Two sentences',
    'that are not the same at all'
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(cosine_similarity(X.toarray())[0][1]) # 0.0
	from sklearn.feature_extraction.text import CountVectorizer
	from sklearn.metrics.pairwise import cosine_similarity


	corpus = [
	'This is my first sentence',
	'This is my second sentence'
	]

	vectorizer = CountVectorizer()
	X = vectorizer.fit_transform(corpus)
	print(cosine_similarity(X.toarray())[0][1]) # 0.8

	corpus = [
	'This is the same sentence',
	'This is the same sentence'
	]

	vectorizer = CountVectorizer()
	X = vectorizer.fit_transform(corpus)
	print(cosine_similarity(X.toarray())[0][1]) # 1.0

	corpus = [
	'Two sentences',
	'that are not the same at all'
	]

	vectorizer = CountVectorizer()
	X = vectorizer.fit_transform(corpus)
	print(cosine_similarity(X.toarray())[0][1]) # 0.0