yanshengjia/clean.py

## clean.py
import re
from nltk.corpus import stopwords
from nltk.stem.wordnet import WordNetLemmatizer

def clean(raw_str):
    en_stopwords = set(stopwords.words('english'))
    lemma = WordNetLemmatizer()
    lower_str = raw_str.lower()
    punc_free_str = ' '.join(re.findall(r'\w+', lower_str))
    stop_free_str = ' '.join([i for i in punc_free_str.split() if i not in en_stopwords])
    cleaned_str = ' '.join(lemma.lemmatize(word) for word in stop_free_str.split())
    return cleaned_str
	import re
	from nltk.corpus import stopwords
	from nltk.stem.wordnet import WordNetLemmatizer

	def clean(raw_str):
	en_stopwords = set(stopwords.words('english'))
	lemma = WordNetLemmatizer()
	lower_str = raw_str.lower()
	punc_free_str = ' '.join(re.findall(r'\w+', lower_str))
	stop_free_str = ' '.join([i for i in punc_free_str.split() if i not in en_stopwords])
	cleaned_str = ' '.join(lemma.lemmatize(word) for word in stop_free_str.split())
	return cleaned_str