boneill42/dump.py

## dump.py
from __future__ import print_function
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kinesis import KinesisUtils, InitialPositionInStream
import sys

def foo(line):
  print(line)
  return line.split(" ")

def printRecord(rdd):
    print("========================================================")
    print("Starting new RDD")
    print("========================================================")
    rdd.foreach(lambda record: print(record.encode('utf8')))

if __name__ == "__main__":
    reload(sys)
    sys.setdefaultencoding('utf-8')

    if len(sys.argv) != 5:
        print( "Usage: dump.py <app-name> <stream-name> <endpoint-url> <region-name>", file=sys.stderr)
        sys.exit(-1)

    sc = SparkContext(appName="PythonStreamingKinesisWordCountAsl")
    ssc = StreamingContext(sc, 10)
    appName, streamName, endpointUrl, regionName = sys.argv[1:]
    dstream = KinesisUtils.createStream(
        ssc, appName, streamName, endpointUrl, regionName, InitialPositionInStream.TRIM_HORIZON, 10)
    dstream.foreachRDD(printRecord)
    ssc.start()
    ssc.awaitTermination()
	from __future__ import print_function
	import sys
	from pyspark import SparkContext
	from pyspark.streaming import StreamingContext
	from pyspark.streaming.kinesis import KinesisUtils, InitialPositionInStream
	import sys

	def foo(line):
	print(line)
	return line.split(" ")

	def printRecord(rdd):
	print("========================================================")
	print("Starting new RDD")
	print("========================================================")
	rdd.foreach(lambda record: print(record.encode('utf8')))

	if __name__ == "__main__":
	reload(sys)
	sys.setdefaultencoding('utf-8')

	if len(sys.argv) != 5:
	print( "Usage: dump.py <app-name> <stream-name> <endpoint-url> <region-name>", file=sys.stderr)
	sys.exit(-1)

	sc = SparkContext(appName="PythonStreamingKinesisWordCountAsl")
	ssc = StreamingContext(sc, 10)
	appName, streamName, endpointUrl, regionName = sys.argv[1:]
	dstream = KinesisUtils.createStream(
	ssc, appName, streamName, endpointUrl, regionName, InitialPositionInStream.TRIM_HORIZON, 10)
	dstream.foreachRDD(printRecord)
	ssc.start()
	ssc.awaitTermination()