ravi-tejarockon/structured_wc_kafka.py

## structured_wc_kafka.py
# Running locations:
# Exeucing Command: bin\spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.11 <location_of_code>\structured_kafka_wc.py localhost:2181 <topic_name>
# Location to Execute: <location_of_spark_bin>
# https://github.com/apache/spark/blob/v2.3.1/examples/src/main/python/sql/streaming/structured_kafka_wordcount.py


from __future__ import print_function

import sys
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.1 pyspark-shell'
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split

if __name__ == "__main__":
    if len(sys.argv) != 4:
        print("""
        Usage: structured_kafka_wordcount.py <bootstrap-servers> <subscribe-type> <topics>
        """, file=sys.stderr)
        exit(-1)

    bootstrapServers = sys.argv[1]
    subscribeType = sys.argv[2]
    topics = sys.argv[3]

    spark = SparkSession\
        .builder\
        .appName("StructuredKafkaWordCount")\
        .getOrCreate()

    # Create DataSet representing the stream of input lines from kafka
    lines = spark\
        .readStream\
        .format("kafka")\
        .option("kafka.bootstrap.servers", bootstrapServers)\
        .option(subscribeType, topics)\
        .load()\
        .selectExpr("CAST(value AS STRING)")

    # Split the lines into words
    words = lines.select(
        # explode turns each item in an array into a separate row
        explode(
            split(lines.value, ' ')
        ).alias('word')
    )

    # Generate running word count
    wordCounts = words.groupBy('word').count()

    # Start running the query that prints the running counts to the console
    query = wordCounts\
        .writeStream\
        .outputMode('complete')\
        .format('console')\
        .start()

    query.awaitTermination()
	# Running locations:
	# Exeucing Command: bin\spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_2.11 <location_of_code>\structured_kafka_wc.py localhost:2181 <topic_name>
	# Location to Execute: <location_of_spark_bin>
	# https://github.com/apache/spark/blob/v2.3.1/examples/src/main/python/sql/streaming/structured_kafka_wordcount.py


	from __future__ import print_function

	import sys
	import os
	os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.1 pyspark-shell'
	from pyspark.sql import SparkSession
	from pyspark.sql.functions import explode
	from pyspark.sql.functions import split

	if __name__ == "__main__":
	if len(sys.argv) != 4:
	print("""
	Usage: structured_kafka_wordcount.py <bootstrap-servers> <subscribe-type> <topics>
	""", file=sys.stderr)
	exit(-1)

	bootstrapServers = sys.argv[1]
	subscribeType = sys.argv[2]
	topics = sys.argv[3]

	spark = SparkSession\
	.builder\
	.appName("StructuredKafkaWordCount")\
	.getOrCreate()

	# Create DataSet representing the stream of input lines from kafka
	lines = spark\
	.readStream\
	.format("kafka")\
	.option("kafka.bootstrap.servers", bootstrapServers)\
	.option(subscribeType, topics)\
	.load()\
	.selectExpr("CAST(value AS STRING)")

	# Split the lines into words
	words = lines.select(
	# explode turns each item in an array into a separate row
	explode(
	split(lines.value, ' ')
	).alias('word')
	)

	# Generate running word count
	wordCounts = words.groupBy('word').count()

	# Start running the query that prints the running counts to the console
	query = wordCounts\
	.writeStream\
	.outputMode('complete')\
	.format('console')\
	.start()

	query.awaitTermination()