morkapronczay/tokenize_text.py

## tokenize_text.py
from nltk.tokenize import RegexpTokenizer

# tokenized text - remove punctuation
tokenizer = RegexpTokenizer(r'\w+')
texts_split = {lan: {key: tokenizer.tokenize(text) for key, text in texts[lan].items()} for lan in languages}
	from nltk.tokenize import RegexpTokenizer

	# tokenized text - remove punctuation
	tokenizer = RegexpTokenizer(r'\w+')
	texts_split = {lan: {key: tokenizer.tokenize(text) for key, text in texts[lan].items()} for lan in languages}