maxbellec/word2vec_tf_idf_from_wikipeida.py

## word2vec_tf_idf_from_wikipeida.py
import multiprocessing
from gensim.corpora.wikicorpus import WikiCorpus
from gensim.models.word2vec import Word2Vec
from gensim.models import TfidfModel

# logging is important to get the state of the functions
import logging
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO)

wiki = WikiCorpus('data/enwiki-20170101-pages-articles-multistream.xml.bz2', lemmatize=False)
tfidf = TfidfModel(wiki)
# save for persistence
wiki.save('wiki.corpus)
tfidf.save('wiki.tfidf.model')

# word2vec
class MySentences(object):
    def __iter__(self):
        for text in wiki.get_texts():
            yield [word.decode() for word in text]
sentences = MySentences()
params = {'size': 300, 'window': 10, 'min_count': 40,
          'workers': max(1, multiprocessing.cpu_count() - 1), 'sample': 1e-3,}
word2vec = Word2Vec(sentences, **params)
word2vec.save('wiki.word2vec.model')
	import multiprocessing
	from gensim.corpora.wikicorpus import WikiCorpus
	from gensim.models.word2vec import Word2Vec
	from gensim.models import TfidfModel

	# logging is important to get the state of the functions
	import logging
	logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
	logging.root.setLevel(level=logging.INFO)

	wiki = WikiCorpus('data/enwiki-20170101-pages-articles-multistream.xml.bz2', lemmatize=False)
	tfidf = TfidfModel(wiki)
	# save for persistence
	wiki.save('wiki.corpus)
	tfidf.save('wiki.tfidf.model')

	# word2vec
	class MySentences(object):
	def __iter__(self):
	for text in wiki.get_texts():
	yield [word.decode() for word in text]
	sentences = MySentences()
	params = {'size': 300, 'window': 10, 'min_count': 40,
	'workers': max(1, multiprocessing.cpu_count() - 1), 'sample': 1e-3,}
	word2vec = Word2Vec(sentences, **params)
	word2vec.save('wiki.word2vec.model')