NielsMinssen/Tokenization et nettoyage.py Secret

## Tokenization et nettoyage.py
#Tokenization
words = word_tokenize(text,language="french",preserve_line=True)

#création d'une liste vide pour aceullir les mots sans ponctutation
words_no_punc = []

#Enlever la ponctuation :
for w in words:
    if w.isalpha():
        words_no_punc.append(w.lower())

#Supprimer les mots d'arrêts classiques en Français
stopwords = stopwords.words("french")

#Possibilité d'ajouter des mots d'arrêts suplémentaires
stopwords.append("monsieur")
stopwords.append("Monsieur")
stopwords.append("madame")
stopwords.append("Madame")
stopwords.append("mme")
stopwords.append("Mme")

#Liste vide pour stocker les mots nétoyés :
clean_words = []

#Remplissage de la liste avec les mots nétoyés
for w in words_no_punc:
    if w not in stopwords:
        clean_words.append(w)
	#Tokenization
	words = word_tokenize(text,language="french",preserve_line=True)

	#création d'une liste vide pour aceullir les mots sans ponctutation
	words_no_punc = []

	#Enlever la ponctuation :
	for w in words:
	if w.isalpha():
	words_no_punc.append(w.lower())

	#Supprimer les mots d'arrêts classiques en Français
	stopwords = stopwords.words("french")

	#Possibilité d'ajouter des mots d'arrêts suplémentaires
	stopwords.append("monsieur")
	stopwords.append("Monsieur")
	stopwords.append("madame")
	stopwords.append("Madame")
	stopwords.append("mme")
	stopwords.append("Mme")

	#Liste vide pour stocker les mots nétoyés :
	clean_words = []

	#Remplissage de la liste avec les mots nétoyés
	for w in words_no_punc:
	if w not in stopwords:
	clean_words.append(w)