Kirill Pavlov pavlov99

## blog-lookup-table-6-team-lookup-table.scala
val teams = sqlContext.table("lookup_example_nhl")
  .withColumn("short_name",
    when(
      locate("New York", $"team") === 1,
      regexp_extract($"team", "\\w+$", 0)
    ).when(
      (locate("Devils", $"team") > 0) ||
      (locate("Kings", $"team") > 0) ||
      (locate("Sharks", $"team") > 0) ||
      (locate("Blues", $"team") > 0),

## blog-lookup-table-5-external-table-fix.hive
CREATE VIEW IF NOT EXISTS lookup_example_nhl
AS
SELECT *
FROM lookup_example_nhl_ext
WHERE team != 'Team';

## blog-lookup-table-4-external-table.scala
sqlContext.table("lookup_example_nhl_ext").limit(2).show()

+-------------+--------+------------------+
|         team|division|        conference|
+-------------+--------+------------------+
|         Team|Division|        Conference|
|Boston Bruins|Atlantic|Eastern Conference|
+-------------+--------+------------------+

## blog-lookup-table-3-example-query.hive
select * from lookup_example_nhl_ext limit 5;
OK
Boston Bruins Atlantic  Eastern Conference
Buffalo Sabres Atlantic Eastern Conference
Detroit Red Wings   Atlantic    Eastern Conference
Florida Panthers    Atlantic    Eastern Conference
Montreal Canadiens  Atlantic    Eastern Conference
Time taken: 0.1 seconds, Fetched: 5 row(s)

## blog-lookup-table-2-external-table.hive
CREATE EXTERNAL TABLE IF NOT EXISTS lookup_example_nhl_ext(
    team String,
    division String,
    conference String)
  COMMENT 'NHL teams'
  ROW FORMAT DELIMITED
  FIELDS TERMINATED BY ','
  LINES TERMINATED BY '\n'
  STORED AS TEXTFILE
  LOCATION 'hdfs:///user/<user>/lookup-example/nhl-lookup'

## blog-lookup-table-1-schedule.scala
val schedule = sqlContext.read
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load("lookup-example/san-jose-schedule-2016-2017.csv")
  .select(
    to_date(
      unix_timestamp($"START_DATE", "MM/dd/yyyy").cast("timestamp")
    ) as "date",
    when(

## 1-schedule.scala
val schedule = sqlContext.read
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load("lookup-example/san-jose-schedule-2016-2017.csv")
  .select(
    to_date(
      unix_timestamp($"START_DATE", "MM/dd/yyyy").cast("timestamp")
    ) as "date",
    when(

## combinations.scala
def combine[T](s: Seq[T]): Seq[Seq[T]] =
  for {
    len <- 1 to s.length
    combinations <- s combinations len
  } yield combinations

println(combine(List('a', 'b', 'c')))

## 0-apache-spark-presentation.md

      
              6 files
            
          
              0 forks
            
          
              0 comments
            
          
              1 star
            
          
                pavlov99
                / 0-apache-spark-presentation.md
            
            
              Last active
              May 13, 2016 03:38
            
              
                Apache Spark in data science presentation
              
          
    This gist consists of Spark presentation examples.

  
## gist:369492916e44ddb1de06
df1.unionAll(df2.select(fd1.columns.map(df1(_)): _*))
	val teams = sqlContext.table("lookup_example_nhl")
	.withColumn("short_name",
	when(
	locate("New York", $"team") === 1,
	regexp_extract($"team", "\\w+$", 0)
	).when(
	(locate("Devils", $"team") > 0) \|\|
	(locate("Kings", $"team") > 0) \|\|
	(locate("Sharks", $"team") > 0) \|\|
	(locate("Blues", $"team") > 0),
	CREATE VIEW IF NOT EXISTS lookup_example_nhl
	AS
	SELECT *
	FROM lookup_example_nhl_ext
	WHERE team != 'Team';
	sqlContext.table("lookup_example_nhl_ext").limit(2).show()

	+-------------+--------+------------------+
	\| team\|division\| conference\|
	+-------------+--------+------------------+
	\| Team\|Division\| Conference\|
	\|Boston Bruins\|Atlantic\|Eastern Conference\|
	+-------------+--------+------------------+
	select * from lookup_example_nhl_ext limit 5;
	OK
	Boston Bruins Atlantic Eastern Conference
	Buffalo Sabres Atlantic Eastern Conference
	Detroit Red Wings Atlantic Eastern Conference
	Florida Panthers Atlantic Eastern Conference
	Montreal Canadiens Atlantic Eastern Conference
	Time taken: 0.1 seconds, Fetched: 5 row(s)
	CREATE EXTERNAL TABLE IF NOT EXISTS lookup_example_nhl_ext(
	team String,
	division String,
	conference String)
	COMMENT 'NHL teams'
	ROW FORMAT DELIMITED
	FIELDS TERMINATED BY ','
	LINES TERMINATED BY '\n'
	STORED AS TEXTFILE
	LOCATION 'hdfs:///user/<user>/lookup-example/nhl-lookup'
	val schedule = sqlContext.read
	.format("com.databricks.spark.csv")
	.option("header", "true")
	.option("inferSchema", "true")
	.load("lookup-example/san-jose-schedule-2016-2017.csv")
	.select(
	to_date(
	unix_timestamp($"START_DATE", "MM/dd/yyyy").cast("timestamp")
	) as "date",
	when(
	def combine[T](s: Seq[T]): Seq[Seq[T]] =
	for {
	len <- 1 to s.length
	combinations <- s combinations len
	} yield combinations

	println(combine(List('a', 'b', 'c')))