spaceshipoperator/pyspark_interactive_with_datastax_connector.py

## pyspark_interactive_with_datastax_connector.py
## invoking pyspark as follows: ##
# /path/to/spark-1.2.0-bin-hadoop2.4/bin/pyspark --jars /path/to/spark-1.2.0-bin-hadoop2.4/jars/spark-cassandra-connector-assembly-1.2.0-SNAPSHOT.jar
# first, stop the spark context launched by pyspark to avoid the conflict
sc.stop()

from py4j.java_gateway import java_import
from pyspark import SparkConf

conf = (SparkConf()
         .setMaster("local")
         .setAppName("pyspark_cassandra")
         .set("spark.cassandra.connection.host", "127.0.0.1"))

spark_context = SparkContext(conf = conf)

java_import(spark_context._gateway.jvm, "com.datastax.spark.connector._")
java_import(spark_context._gateway.jvm, "com.datastax.spark.SparkContext")
java_import(spark_context._gateway.jvm, "com.datastax.spark.SparkContext._")
java_import(spark_context._gateway.jvm, "com.datastax.spark.SparkConf")

rdd = spark_context.cassandraTable("spark_test", "test")
## results in ##
# Traceback (most recent call last):
#  File "<stdin>", line 1, in <module>
#AttributeError: 'SparkContext' object has no attribute 'cassandraTable'
	## invoking pyspark as follows: ##
	# /path/to/spark-1.2.0-bin-hadoop2.4/bin/pyspark --jars /path/to/spark-1.2.0-bin-hadoop2.4/jars/spark-cassandra-connector-assembly-1.2.0-SNAPSHOT.jar
	# first, stop the spark context launched by pyspark to avoid the conflict
	sc.stop()

	from py4j.java_gateway import java_import
	from pyspark import SparkConf

	conf = (SparkConf()
	.setMaster("local")
	.setAppName("pyspark_cassandra")
	.set("spark.cassandra.connection.host", "127.0.0.1"))

	spark_context = SparkContext(conf = conf)

	java_import(spark_context._gateway.jvm, "com.datastax.spark.connector._")
	java_import(spark_context._gateway.jvm, "com.datastax.spark.SparkContext")
	java_import(spark_context._gateway.jvm, "com.datastax.spark.SparkContext._")
	java_import(spark_context._gateway.jvm, "com.datastax.spark.SparkConf")

	rdd = spark_context.cassandraTable("spark_test", "test")
	## results in ##
	# Traceback (most recent call last):
	# File "<stdin>", line 1, in <module>
	#AttributeError: 'SparkContext' object has no attribute 'cassandraTable'