4OH4/tfidf_adv.py

## tfidf_adv.py
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel
from nltk import word_tokenize
from nltk.stem import WordNetLemmatizer
import nltk
from nltk.corpus import stopwords

# Download stopwords list
nltk.download('punkt')
stop_words = set(stopwords.words('english'))

# Interface lemma tokenizer from nltk with sklearn
class LemmaTokenizer:
    ignore_tokens = [',', '.', ';', ':', '"', '``', "''", '`']
    def __init__(self):
        self.wnl = WordNetLemmatizer()
    def __call__(self, doc):
        return [self.wnl.lemmatize(t) for t in word_tokenize(doc) if t not in self.ignore_tokens]

# Lemmatize the stop words
tokenizer=LemmaTokenizer()
token_stop = tokenizer(' '.join(stop_words))

search_terms = 'red tomato'
documents = ['cars drive on the road', 'tomatoes are actually fruit']

# Create TF-idf model
vectorizer = TfidfVectorizer(stop_words=token_stop,
                              tokenizer=tokenizer)
doc_vectors = vectorizer.fit_transform([search_terms] + documents)

# Calculate similarity
cosine_similarities = linear_kernel(doc_vectors[0:1], doc_vectors).flatten()
document_scores = [item.item() for item in cosine_similarities[1:]]
# [0.0, 0.287]
	from sklearn.feature_extraction.text import TfidfVectorizer
	from sklearn.metrics.pairwise import linear_kernel
	from nltk import word_tokenize
	from nltk.stem import WordNetLemmatizer
	import nltk
	from nltk.corpus import stopwords

	# Download stopwords list
	nltk.download('punkt')
	stop_words = set(stopwords.words('english'))

	# Interface lemma tokenizer from nltk with sklearn
	class LemmaTokenizer:
	ignore_tokens = [',', '.', ';', ':', '"', '``', "''", '`']
	def __init__(self):
	self.wnl = WordNetLemmatizer()
	def __call__(self, doc):
	return [self.wnl.lemmatize(t) for t in word_tokenize(doc) if t not in self.ignore_tokens]

	# Lemmatize the stop words
	tokenizer=LemmaTokenizer()
	token_stop = tokenizer(' '.join(stop_words))

	search_terms = 'red tomato'
	documents = ['cars drive on the road', 'tomatoes are actually fruit']

	# Create TF-idf model
	vectorizer = TfidfVectorizer(stop_words=token_stop,
	tokenizer=tokenizer)
	doc_vectors = vectorizer.fit_transform([search_terms] + documents)

	# Calculate similarity
	cosine_similarities = linear_kernel(doc_vectors[0:1], doc_vectors).flatten()
	document_scores = [item.item() for item in cosine_similarities[1:]]
	# [0.0, 0.287]