ikatsov/customer2vec-model-training.py

## customer2vec-model-training.py
from gensim.models.doc2vec import TaggedDocument

EMBEDDING_DIM = 200    # dimensionality of user representation

class TaggedDocumentIterator(object):
    def __iter__(self):
        for row in self.df.itertuples():
            yield TaggedDocument(
                     words=dict(row._asdict())['all_orders'].split(),
                     tags=[dict(row._asdict())['user_id']])

it = TaggedDocumentIterator(orders_by_uid)

doc_model = gensim.models.Doc2Vec(vector_size=EMBEDDING_DIM,
                                  window=5,
                                  min_count=10,
                                  workers=mp.cpu_count(),
                                  alpha=0.055,
                                  min_alpha=0.055,
                                  epochs=120)

train_corpus = list(it)

doc_model.build_vocab(train_corpus)

for epoch in range(10):
    doc_model.alpha -= 0.005                    # decrease the learning rate
    doc_model.min_alpha = doc_model.alpha
    doc_model.train(train_corpus,
                    total_examples=doc_model.corpus_count,
                    epochs=doc_model.iter)
	from gensim.models.doc2vec import TaggedDocument

	EMBEDDING_DIM = 200 # dimensionality of user representation

	class TaggedDocumentIterator(object):
	def __iter__(self):
	for row in self.df.itertuples():
	yield TaggedDocument(
	words=dict(row._asdict())['all_orders'].split(),
	tags=[dict(row._asdict())['user_id']])

	it = TaggedDocumentIterator(orders_by_uid)

	doc_model = gensim.models.Doc2Vec(vector_size=EMBEDDING_DIM,
	window=5,
	min_count=10,
	workers=mp.cpu_count(),
	alpha=0.055,
	min_alpha=0.055,
	epochs=120)

	train_corpus = list(it)

	doc_model.build_vocab(train_corpus)

	for epoch in range(10):
	doc_model.alpha -= 0.005 # decrease the learning rate
	doc_model.min_alpha = doc_model.alpha
	doc_model.train(train_corpus,
	total_examples=doc_model.corpus_count,
	epochs=doc_model.iter)