mizvol/jsonTags.py

## jsonTags.py
topicIndices = ldaModel.describeTopics(maxTermsPerTopic=5)
vocablist = vectorizer.vocabulary

topicsRDD = sc.parallelize(topicIndices)
termsRDD = topicsRDD.map(lambda topic: (zip(itemgetter(*topic[0])(vocablist), topic[1])))

indexedTermsRDD = termsRDD.zipWithIndex()
termsRDD = indexedTermsRDD.flatMap(lambda term: [(t[0], t[1], term[1]) for t in term[0]])
termDF = termsRDD.toDF(['term', 'probability', 'topicId'])

#transform Spark Data Frame to JSON in order to pass the data into D3JS
rawJson = termDF.toJSON().collect()
	topicIndices = ldaModel.describeTopics(maxTermsPerTopic=5)
	vocablist = vectorizer.vocabulary

	topicsRDD = sc.parallelize(topicIndices)
	termsRDD = topicsRDD.map(lambda topic: (zip(itemgetter(*topic[0])(vocablist), topic[1])))

	indexedTermsRDD = termsRDD.zipWithIndex()
	termsRDD = indexedTermsRDD.flatMap(lambda term: [(t[0], t[1], term[1]) for t in term[0]])
	termDF = termsRDD.toDF(['term', 'probability', 'topicId'])

	#transform Spark Data Frame to JSON in order to pass the data into D3JS
	rawJson = termDF.toJSON().collect()