fonylew/kafka_direct_consumer.py

## kafka_direct_consumer.py
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
if __name__ == "__main__":
    sc = SparkContext(appName="PythonStreamingDirectKafkaWordCount")
    sc.setLogLevel("ERROR")
    ssc = StreamingContext(sc, 2)
    brokers, topic = sys.argv[1:]
    kvs = KafkaUtils.createDirectStream(ssc, [topic],{"metadata.broker.list": brokers})
    lines = kvs.map(lambda x: x[1].encode('utf-8'))
#    counts = lines.flatMap(lambda line: line.split(" ")) \
#                  .map(lambda word: (word, 1)) \
#                  .reduceByKey(lambda a, b: a+b)
    lines.pprint()
    ssc.start()
    ssc.awaitTermination()
#   ssc.awaitTerminationOrTimeout(60)
    ssc.stop()
	import sys
	from pyspark import SparkContext
	from pyspark.streaming import StreamingContext
	from pyspark.streaming.kafka import KafkaUtils
	if __name__ == "__main__":
	sc = SparkContext(appName="PythonStreamingDirectKafkaWordCount")
	sc.setLogLevel("ERROR")
	ssc = StreamingContext(sc, 2)
	brokers, topic = sys.argv[1:]
	kvs = KafkaUtils.createDirectStream(ssc, [topic],{"metadata.broker.list": brokers})
	lines = kvs.map(lambda x: x[1].encode('utf-8'))
	# counts = lines.flatMap(lambda line: line.split(" ")) \
	# .map(lambda word: (word, 1)) \
	# .reduceByKey(lambda a, b: a+b)
	lines.pprint()
	ssc.start()
	ssc.awaitTermination()
	# ssc.awaitTerminationOrTimeout(60)
	ssc.stop()