Sachin Thirumala stdatalabs

## gist:cb57f4d7cfd8ac5bf89476d28bb64e6e
0x8e8CF9467c121897F86BccB0C6Cfb165AAA7482A

## customRecordReader.java
import java.io.IOException;
import java.io.InputStream;

import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;

## CustomTextInputFormat.java
import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileSplit;
import org.apache.hadoop.mapred.InputSplit;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.RecordReader;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;

## Hive customInputFormat - pom.xml
		<dependency>
			<groupId>org.apache.hive</groupId>
			<artifactId>hive-exec</artifactId>
			<version>0.11.0</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.1</version>
		</dependency>

## JsonWordSplitterBolt.java
import backtype.storm.task.OutputCollector;
import backtype.storm.task.TopologyContext;
import backtype.storm.topology.OutputFieldsDeclarer;
import backtype.storm.topology.base.BaseRichBolt;
import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Tuple;
import backtype.storm.tuple.Values;
import twitter4j.Status;

import java.util.Map;

## TwitterSampleSpout.java
import java.util.Map;
import java.util.concurrent.LinkedBlockingQueue;

import twitter4j.FilterQuery;
import twitter4j.StallWarning;
import twitter4j.Status;
import twitter4j.StatusDeletionNotice;
import twitter4j.StatusListener;

import twitter4j.TwitterStream;

## TwitterWordCountTopology.java
import java.util.*;

import com.stdatalabs.Storm.IgnoreWordsBolt;
import com.stdatalabs.Storm.TwitterSampleSpout;
import com.stdatalabs.Storm.WordCounterBolt;
import com.stdatalabs.Storm.JsonWordSplitterBolt;

import backtype.storm.tuple.Fields;
import backtype.storm.tuple.Values;
import backtype.storm.Config;

## dbms_crypto_UDF.scala
import org.apache.spark.{SparkConf, SparkContext}
 import org.apache.spark.sql._
 import org.apache.spark.sql.hive.HiveContext
 val hiveContext = new HiveContext(sc)
 import hiveContext.implicits._
 import hiveContext.sql
 import sqlContext.implicits._
 import java.security.MessageDigest

/**

## KafkaSparkPopularHashTags.scala
import java.util.HashMap

import org.apache.kafka.clients.producer.{ KafkaProducer, ProducerConfig, ProducerRecord }
import org.apache.spark.SparkConf
import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka._
import org.apache.spark.streaming.{ Seconds, StreamingContext }
import org.apache.spark.SparkContext._
import org.apache.spark.streaming.twitter._
import org.apache.spark.SparkConf

## Kafka - pom.xml
 <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka_2.10 -->
           <dependency>
                <groupId>org.apache.kafka</groupId>
                <artifactId>kafka_2.10</artifactId>
                <version>0.8.2.1</version>
           </dependency>
           <!-- https://mvnrepository.com/artifact/org.twitter4j/twitter4j-core -->
           <dependency>
                <groupId>org.twitter4j</groupId>
                <artifactId>twitter4j-core</artifactId>
	import java.io.IOException;
	import java.io.InputStream;

	import org.apache.commons.logging.Log;
	import org.apache.commons.logging.LogFactory;
	import org.apache.hadoop.conf.Configuration;
	import org.apache.hadoop.fs.FSDataInputStream;
	import org.apache.hadoop.fs.FileSystem;
	import org.apache.hadoop.fs.Path;
	import org.apache.hadoop.io.LongWritable;
	import java.io.IOException;

	import org.apache.hadoop.io.LongWritable;
	import org.apache.hadoop.io.Text;
	import org.apache.hadoop.mapred.FileSplit;
	import org.apache.hadoop.mapred.InputSplit;
	import org.apache.hadoop.mapred.JobConf;
	import org.apache.hadoop.mapred.RecordReader;
	import org.apache.hadoop.mapred.Reporter;
	import org.apache.hadoop.mapred.TextInputFormat;
	<dependency>
	<groupId>org.apache.hive</groupId>
	<artifactId>hive-exec</artifactId>
	<version>0.11.0</version>
	</dependency>
	<dependency>
	<groupId>org.apache.hadoop</groupId>
	<artifactId>hadoop-common</artifactId>
	<version>2.7.1</version>
	</dependency>
	import backtype.storm.task.OutputCollector;
	import backtype.storm.task.TopologyContext;
	import backtype.storm.topology.OutputFieldsDeclarer;
	import backtype.storm.topology.base.BaseRichBolt;
	import backtype.storm.tuple.Fields;
	import backtype.storm.tuple.Tuple;
	import backtype.storm.tuple.Values;
	import twitter4j.Status;

	import java.util.Map;
	import java.util.Map;
	import java.util.concurrent.LinkedBlockingQueue;

	import twitter4j.FilterQuery;
	import twitter4j.StallWarning;
	import twitter4j.Status;
	import twitter4j.StatusDeletionNotice;
	import twitter4j.StatusListener;

	import twitter4j.TwitterStream;
	import java.util.*;

	import com.stdatalabs.Storm.IgnoreWordsBolt;
	import com.stdatalabs.Storm.TwitterSampleSpout;
	import com.stdatalabs.Storm.WordCounterBolt;
	import com.stdatalabs.Storm.JsonWordSplitterBolt;

	import backtype.storm.tuple.Fields;
	import backtype.storm.tuple.Values;
	import backtype.storm.Config;
	import org.apache.spark.{SparkConf, SparkContext}
	import org.apache.spark.sql._
	import org.apache.spark.sql.hive.HiveContext
	val hiveContext = new HiveContext(sc)
	import hiveContext.implicits._
	import hiveContext.sql
	import sqlContext.implicits._
	import java.security.MessageDigest

	/**
	import java.util.HashMap

	import org.apache.kafka.clients.producer.{ KafkaProducer, ProducerConfig, ProducerRecord }
	import org.apache.spark.SparkConf
	import org.apache.spark.streaming._
	import org.apache.spark.streaming.kafka._
	import org.apache.spark.streaming.{ Seconds, StreamingContext }
	import org.apache.spark.SparkContext._
	import org.apache.spark.streaming.twitter._
	import org.apache.spark.SparkConf
	<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka_2.10 -->
	<dependency>
	<groupId>org.apache.kafka</groupId>
	<artifactId>kafka_2.10</artifactId>
	<version>0.8.2.1</version>
	</dependency>
	<!-- https://mvnrepository.com/artifact/org.twitter4j/twitter4j-core -->
	<dependency>
	<groupId>org.twitter4j</groupId>
	<artifactId>twitter4j-core</artifactId>