Papaass/bag_of_words_fr.py

## bag_of_words_fr.py
import numpy as np
from nltk import word_tokenize

corpus = ["La vie est courte mais la vie peut paraître longue","La nuit est proche"]

#definir deux phrases du corpus
phrase_1 = "La vie est courte mais la vie peut paraître longue"
phrase_2 = "La nuit est proche"

# fonction retournant un vocabulaire
def vocabulary(corpus):
    voc = []
    for sentence in corpus:
        words = word_tokenize(sentence.lower())
        voc.extend(words)

    voc_clean= []
    for w in voc:
        if w not in voc_clean:
            voc_clean.append(w)
    return voc_clean


# fonction retournant un sac de mots
def bagofwords(sentence,corpus):
    vocab = vocabulary(corpus)
    sentence_words  = words = word_tokenize(sentence.lower())
    bag_of_words = np.zeros(len(vocab))
    for w_in_sentence in sentence_words :
        for i,w in enumerate(vocab) :
            if w == w_in_sentence :
                bag_of_words[i] += 1
    return bag_of_words

## phrase1.py
print(bagofwords(phrase_1,corpus))

## phrase_2.py
print(bagofwords(phrase_2,corpus))
	import numpy as np
	from nltk import word_tokenize

	corpus = ["La vie est courte mais la vie peut paraître longue","La nuit est proche"]

	#definir deux phrases du corpus
	phrase_1 = "La vie est courte mais la vie peut paraître longue"
	phrase_2 = "La nuit est proche"

	# fonction retournant un vocabulaire
	def vocabulary(corpus):
	voc = []
	for sentence in corpus:
	words = word_tokenize(sentence.lower())
	voc.extend(words)

	voc_clean= []
	for w in voc:
	if w not in voc_clean:
	voc_clean.append(w)
	return voc_clean


	# fonction retournant un sac de mots
	def bagofwords(sentence,corpus):
	vocab = vocabulary(corpus)
	sentence_words = words = word_tokenize(sentence.lower())
	bag_of_words = np.zeros(len(vocab))
	for w_in_sentence in sentence_words :
	for i,w in enumerate(vocab) :
	if w == w_in_sentence :
	bag_of_words[i] += 1
	return bag_of_words