ahmedshahriar/non_english_word_removal.py

## non_english_word_removal.py
"""
@ github.com/ahmedshahriar
This code will remove remove non-English words from text
"""
import nltk

# download nltk english corpus
nltk.download('wordnet')
wordnet = set(nltk.corpus.wordnet.words())


words = "love ে ী ে া ে ু ্ া োঁ ে"

words_cleaned = " ".join(w for w in nltk.wordpunct_tokenize(words) if w.lower() in wordnet )

print(words_cleaned)

# output 'love'
	"""
	@ github.com/ahmedshahriar
	This code will remove remove non-English words from text
	"""
	import nltk

	# download nltk english corpus
	nltk.download('wordnet')
	wordnet = set(nltk.corpus.wordnet.words())


	words = "love ে ী ে া ে ু ্ া োঁ ে"

	words_cleaned = " ".join(w for w in nltk.wordpunct_tokenize(words) if w.lower() in wordnet )

	print(words_cleaned)

	# output 'love'