Anton Franzen antondevv

## clean.py
import string
import re

## punct.py
remove_punctuation = re.compile('[%s]' % re.escape(string.punctuation))
tokens = [remove_punctuation.sub('', w) for w in tokenized]

## nltk.py
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
tokens = [w for w in tokens if w not in stop_words]

## stemmer.py
from nltk.stem.porter import PorterStemmer

porter = PorterStemmer()
stemmed_words = [porter.stem(word) for word in tokens]

## counter.py
from collections import Counter
vocably = Counter()
vocably.update(stemmed_words)

## vector.py
indexing_words = {}
i = 0
for word in vocably:
    indexing_words[word] = i
    i +=1

vector = np.zeros(len(vocably))

for key, times in vocably.items():
    vector[indexing_words[key]] = times

## vocab.py
unique_words = list(set(stemmed_words))

## vector.py
vector = np.zeros(len(unique_words))

## bag_of_words.py
vector = np.zeros(len(unique_words))
for w in stemmed_words:
    for i, word in enumerate(unique_words):
        if w == word:
            vector[i] +=1

## final_code.py
import string
import re
from nltk.corpus import stopwords
from collections import Counter
from nltk.stem.porter import PorterStemmer
import numpy as np


text = 'What a beautiful day to be outside, incredibly beautiful day!'
text = text.lower()
	remove_punctuation = re.compile('[%s]' % re.escape(string.punctuation))
	tokens = [remove_punctuation.sub('', w) for w in tokenized]
	from nltk.corpus import stopwords
	stop_words = set(stopwords.words('english'))
	tokens = [w for w in tokens if w not in stop_words]
	from nltk.stem.porter import PorterStemmer

	porter = PorterStemmer()
	stemmed_words = [porter.stem(word) for word in tokens]
	from collections import Counter
	vocably = Counter()
	vocably.update(stemmed_words)
	indexing_words = {}
	i = 0
	for word in vocably:
	indexing_words[word] = i
	i +=1

	vector = np.zeros(len(vocably))

	for key, times in vocably.items():
	vector[indexing_words[key]] = times
	vector = np.zeros(len(unique_words))
	for w in stemmed_words:
	for i, word in enumerate(unique_words):
	if w == word:
	vector[i] +=1
	import string
	import re
	from nltk.corpus import stopwords
	from collections import Counter
	from nltk.stem.porter import PorterStemmer
	import numpy as np


	text = 'What a beautiful day to be outside, incredibly beautiful day!'
	text = text.lower()