Witty-Kitty/alp_data_prep.py

## alp_data_prep.py
import nltk
from nltk.tokenize import word_tokenize
from nltk.text import Text

# read in text data
file = open("crawl-for-parallel-corpora/DataSet/luganda.txt", "r")
raw = file.read()

# tokenize
tokens = word_tokenize(raw)

# remove punctuation, numbers and make everything lowercase
tokens = [word.lower() for word in tokens if word.isalpha()]

# write output to file
f = open("luganda", "w")
f.write(' '.join(tokens))
	import nltk
	from nltk.tokenize import word_tokenize
	from nltk.text import Text

	# read in text data
	file = open("crawl-for-parallel-corpora/DataSet/luganda.txt", "r")
	raw = file.read()

	# tokenize
	tokens = word_tokenize(raw)

	# remove punctuation, numbers and make everything lowercase
	tokens = [word.lower() for word in tokens if word.isalpha()]

	# write output to file
	f = open("luganda", "w")
	f.write(' '.join(tokens))