zygm0nt/run_word2vec.py

## run_word2vec.py
class X:
  def read_all_sessions(self):
        all_sessions = []

        for file_path in tqdm(
                iterable=[os.path.join(self.input()[0].path, f_name) for f_name in
                          os.listdir(self.input()[0].path)],
                mininterval=1.0, desc='Loading sessions'):
            with gzip.open(file_path) as stream:
                for l in stream:
                    all_sessions.append(l.split())

        return all_sessions

  def run(self):
        if not os.path.exists(self.work_dir()):
            os.makedirs(self.work_dir())

        model = Word2Vec(sentences=self.read_all_sessions(), size=self.vector_size, window=self.window_size,
                         min_count=self.min_count, workers=self.parallelism, sg=self.skip_gram, iter=self.epoch_num)

        logger.info('Writing item vectors to {}'.format(self.output().path))

        with open(self.output().path, 'w') as f:
            for w in model.wv.vocab:
                f.write('{} {}\n'.format(w, ' '.join((str(v) for v in model.wv[w]))))
	class X:
	def read_all_sessions(self):
	all_sessions = []

	for file_path in tqdm(
	iterable=[os.path.join(self.input()[0].path, f_name) for f_name in
	os.listdir(self.input()[0].path)],
	mininterval=1.0, desc='Loading sessions'):
	with gzip.open(file_path) as stream:
	for l in stream:
	all_sessions.append(l.split())

	return all_sessions

	def run(self):
	if not os.path.exists(self.work_dir()):
	os.makedirs(self.work_dir())

	model = Word2Vec(sentences=self.read_all_sessions(), size=self.vector_size, window=self.window_size,
	min_count=self.min_count, workers=self.parallelism, sg=self.skip_gram, iter=self.epoch_num)

	logger.info('Writing item vectors to {}'.format(self.output().path))

	with open(self.output().path, 'w') as f:
	for w in model.wv.vocab:
	f.write('{} {}\n'.format(w, ' '.join((str(v) for v in model.wv[w]))))