MCardus/doc2vec_training.txt

## doc2vec_training.txt
  def trainModel(inputPath: String) = {
    log.info("Training model from data in path: " + inputPath)
    val file: File = new File(inputPath)
    val iter = new BasicLineIterator(file)
    val cache  = new AbstractCache[VocabWord]
    val tokenizer = new DefaultTokenizerFactory
    tokenizer.setTokenPreProcessor(new CommonPreprocessor)

    try {
      _paragraphVectors = new ParagraphVectors.Builder().minWordFrequency(1).iterations(5).epochs(1).layerSize(100).learningRate(0.025).windowSize(5).iterate(iter).trainWordVectors(false).vocabCache(cache).tokenizerFactory(tokenizer).sampling(0).build
      paragraphVectors.fit()
      log.info("Model correctly trained")
    }

    catch {
      case e: Exception => log.error("Model could not be trained. Trace: " + e.getMessage)
    }
  }
	def trainModel(inputPath: String) = {
	log.info("Training model from data in path: " + inputPath)
	val file: File = new File(inputPath)
	val iter = new BasicLineIterator(file)
	val cache = new AbstractCache[VocabWord]
	val tokenizer = new DefaultTokenizerFactory
	tokenizer.setTokenPreProcessor(new CommonPreprocessor)

	try {
	_paragraphVectors = new ParagraphVectors.Builder().minWordFrequency(1).iterations(5).epochs(1).layerSize(100).learningRate(0.025).windowSize(5).iterate(iter).trainWordVectors(false).vocabCache(cache).tokenizerFactory(tokenizer).sampling(0).build
	paragraphVectors.fit()
	log.info("Model correctly trained")
	}

	catch {
	case e: Exception => log.error("Model could not be trained. Trace: " + e.getMessage)
	}
	}