MaxHalford/lemmatization.py

## lemmatization.py
import nltk
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer


def tokenize(text):
    text = ''.join([ch for ch in text if ch not in string.punctuation])
    tokens = nltk.word_tokenize(text)
    lemmatizer = WordNetLemmatizer()
    return [lemmatizer.lemmatize(token) for token in tokens]

vectorizer = CountVectorizer(tokenizer=tokenize, stop_words='english')
	import nltk
	from nltk.stem import WordNetLemmatizer
	from sklearn.feature_extraction.text import CountVectorizer


	def tokenize(text):
	text = ''.join([ch for ch in text if ch not in string.punctuation])
	tokens = nltk.word_tokenize(text)
	lemmatizer = WordNetLemmatizer()
	return [lemmatizer.lemmatize(token) for token in tokens]

	vectorizer = CountVectorizer(tokenizer=tokenize, stop_words='english')