TheDhejavu/process-content.py

## process-content.py
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer


class PlagiarismChecker:
    def prepare_content(self, content):
        # STOP WORDS
        stop_words = set(stopwords.words('english'))
        # TOKENIZE
        word_tokens = word_tokenize(content)
        filtered_content = []
        # STEMMING
        porter = PorterStemmer()
        for w in word_tokens:
            if w not in stop_words:
                w = w.lower()
                word = porter.stem(w)
                filtered_content.append(word)

        return filtered_content
	import nltk
	from nltk.corpus import stopwords
	from nltk.tokenize import word_tokenize
	from nltk.stem import PorterStemmer
	from nltk.stem import LancasterStemmer


	class PlagiarismChecker:
	def prepare_content(self, content):
	# STOP WORDS
	stop_words = set(stopwords.words('english'))
	# TOKENIZE
	word_tokens = word_tokenize(content)
	filtered_content = []
	# STEMMING
	porter = PorterStemmer()
	for w in word_tokens:
	if w not in stop_words:
	w = w.lower()
	word = porter.stem(w)
	filtered_content.append(word)

	return filtered_content