Krzysztof Ropiak krro

## gist:4df57fffb2a53fac7772
import org.apache.spark.mllib.regression.{ RidgeRegressionWithSGD, LabeledPoint }
import org.apache.spark.{ SparkConf, SparkContext }
import org.apache.spark.mllib.linalg.Vectors
import scala.io.Source

object Main extends App {
  val sparkConfig = new SparkConf().setAppName("quotes").setMaster("local")
  val sparkContext = new SparkContext(sparkConfig)

  val quotesFileLines = Source.fromFile("...your...path...").getLines.toList

## Main.scala
import org.apache.spark.mllib.regression.{ RidgeRegressionWithSGD, LabeledPoint }
import org.apache.spark.{ SparkConf, SparkContext }
import org.apache.spark.mllib.linalg.Vectors
import scala.io.Source

object Main extends App {
  val sparkConfig = new SparkConf().setAppName("quotes").setMaster("local")
  val sparkContext = new SparkContext(sparkConfig)

  val quotesFileLines = Source.fromFile("...your...path...").getLines.toList

## imports.scala
import org.apache.spark.mllib.regression.{ RidgeRegressionWithSGD, LabeledPoint }
import org.apache.spark.{ SparkConf, SparkContext }
import org.apache.spark.mllib.linalg.Vectors
import scala.io.Source

## context.scala
val sparkConfig = new SparkConf().setAppName("quotes").setMaster("local")
val sparkContext = new SparkContext(sparkConfig)

## readingFile.scala
val quotesFileLines = Source.fromFile("...your...path...").getLines.toList

## prices.scala
val prices = quotesFileLines.map { _.split(",").toList(5).toDouble }

## growths.scala
val growths = prices.drop(1).zip(prices.dropRight(1)).map {
  case (current, previous) => 100.0 * (current - previous) / previous
}

## labeledPoints.scala
val probesNumber = 20
val labeledPoints = for(i <- probesNumber until growths.size) yield {
  LabeledPoint(growths(i), Vectors.dense(growths.slice(i - probesNumber, i).toArray))
}

## rdd.scala
val labeledPointsRDD = sparkContext.parallelize(labeledPoints)

## split.scala
val Array(trainingData, testData) = labeledPointsRDD.randomSplit(Array(0.7, 0.3))
	import org.apache.spark.mllib.regression.{ RidgeRegressionWithSGD, LabeledPoint }
	import org.apache.spark.{ SparkConf, SparkContext }
	import org.apache.spark.mllib.linalg.Vectors
	import scala.io.Source

	object Main extends App {
	val sparkConfig = new SparkConf().setAppName("quotes").setMaster("local")
	val sparkContext = new SparkContext(sparkConfig)

	val quotesFileLines = Source.fromFile("...your...path...").getLines.toList
	val growths = prices.drop(1).zip(prices.dropRight(1)).map {
	case (current, previous) => 100.0 * (current - previous) / previous
	}
	val probesNumber = 20
	val labeledPoints = for(i <- probesNumber until growths.size) yield {
	LabeledPoint(growths(i), Vectors.dense(growths.slice(i - probesNumber, i).toArray))
	}