Matthew Powers MrPowers

## spark_dataframe_to_csv.sc
tx_cities.coalesce(1).write
.format("com.databricks.spark.csv")
.option("header", "true")
.save(System.getProperty("user.home") + "/Desktop/texas_cities")

## spark_dataframe.sc
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.load(System.getProperty("user.home") + "/Desktop/cities.csv")

## spark_dataframe_multiple_files.sc
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.load(System.getProperty("user.home") + "/Desktop/people/*.csv")

## spark_dataframe_multiple_gzipped_files.sc
  val df = sqlContext.read
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .option("inferSchema", "true")
  .load(System.getProperty("user.home") + "/Desktop/people/*.gz")

## spark_s3_files.sc
val df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.load("s3n://some_bucket/data/states/*.csv")

## spark_aws_credentials.sc
val accessKeyId = System.getenv("AWS_ACCESS_KEY_ID")
val secretAccessKey = System.getenv("AWS_SECRET_ACCESS_KEY")
sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", accessKeyId)
sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", secretAccessKey)

## spark_write_to_aws.sc
df.coalesce(1).write
.format("com.databricks.spark.csv")
.option("header", "true")
.save("s3n://some_bucket/data/states/all_states/")

## programming_websites.csv

          
            website_url
            website_type
            main_language

            
              news.ycombinator.com
              aggregator

            
              mungingdata.com
              blog
              spark

            
              m.signalvnoise.com
              blog
              rails

            
              pgexercises.com
              train
              postgres

            
              codequizzes.com
              train
              ruby

## person_data.csv

          
            person_name
            person_country

            
              a
              China

            
              b
              China

            
              c
              China

            
              d
              China

            
              e
              China

            
              f
              China

            
              g
              China

            
              h
              China

            
              i
              China

## delta_rs_spark_interop.py
import pathlib

import shutil
import deltalake as dl
import pandas as pd
import pyarrow.dataset as ds
from pyspark.sql import SparkSession
from delta import *
import chispa
	tx_cities.coalesce(1).write
	.format("com.databricks.spark.csv")
	.option("header", "true")
	.save(System.getProperty("user.home") + "/Desktop/texas_cities")
	val df = sqlContext.read
	.format("com.databricks.spark.csv")
	.option("header", "true")
	.option("inferSchema", "true")
	.load(System.getProperty("user.home") + "/Desktop/cities.csv")
	val accessKeyId = System.getenv("AWS_ACCESS_KEY_ID")
	val secretAccessKey = System.getenv("AWS_SECRET_ACCESS_KEY")
	sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", accessKeyId)
	sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", secretAccessKey)
	df.coalesce(1).write
	.format("com.databricks.spark.csv")
	.option("header", "true")
	.save("s3n://some_bucket/data/states/all_states/")
website_url	website_type	main_language
news.ycombinator.com	aggregator
mungingdata.com	blog	spark
m.signalvnoise.com	blog	rails
pgexercises.com	train	postgres
codequizzes.com	train	ruby
	person_name	person_country
	a	China
	b	China
	c	China
	d	China
	e	China
	f	China
	g	China
	h	China
	i	China
	import pathlib

	import shutil
	import deltalake as dl
	import pandas as pd
	import pyarrow.dataset as ds
	from pyspark.sql import SparkSession
	from delta import *
	import chispa