Umberto Griffo umbertogriffo

## TwitterSentimentAnalysisAndN-gramWithHadoopAndHiveSQL.md

      
              1 file
            
          
              6 forks
            
          
              0 comments
            
          
              8 stars
            
          
                umbertogriffo
                / TwitterSentimentAnalysisAndN-gramWithHadoopAndHiveSQL.md
            
            
              Last active
              May 11, 2021 13:22
            
              
                Step by step Tutorial on Twitter Sentiment Analysis and n-gram with Hadoop and Hive SQL
              
          
    PREREQUISITES

* Download JSON Serde at:
* http://files.cloudera.com/samples/hive-serdes-1.0-SNAPSHOT.jar
* and to renominate it as hive-serdes-1.0.jar


Add Jar to HIVE_AUX_JARS_PATH of HiveServer2:

Copy the JAR files to the host on which HiveServer2 is running. Save the JARs to any directory you choose, and make a note of the path (create directory in /usr/share/).


## broadcast_join_medium_size.scala
import org.apache.spark.sql.functions._

val mediumDf = Seq((0, "zero"), (4, "one")).toDF("id", "value")
val largeDf = Seq((0, "zero"), (2, "two"), (3, "three"), (4, "four"), (5, "five")).toDF("id", "value")

mediumDf.show()
largeDf.show()

/*
+---+-----+

## DataFrameSuite.scala
package test.com.idlike.junit.df

import breeze.numerics.abs
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.functions.col
import org.apache.spark.sql.{Column, DataFrame, Row}

/**
  * Created by Umberto on 06/02/2017.
  */

## RddAPI.scala
/*
This is a collections of examples about Apache Spark's RDD Api. These examples aim to help me test the RDD functionality.

References:

http://spark.apache.org/docs/latest/programming-guide.html
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
*/
object RddAPI {

## Winner.java
package knowledgebase.java.stream;

import java.time.Duration;
import java.util.*;

import static java.util.stream.Collectors.*;

/**
 * Created by Umberto on 15/02/2017.
 * https://dzone.com/articles/a-java-8-streams-cookbook

## falsehoods-programming-time-list.md

      
              1 file
            
          
              0 forks
            
          
              0 comments
            
          
              0 stars
            
          
                umbertogriffo
                / falsehoods-programming-time-list.md
            
            
              Created
              August 6, 2019 10:03
                — forked from timvisee/falsehoods-programming-time-list.md
            
              
                Falsehoods programmers believe about time, in a single list
              
          
    Falsehoods programmers believe about time

This is a compiled list of falsehoods programmers tend to believe about working with time.
Don't re-invent a date time library yourself.
If you think you understand everything about time, you're probably doing it wrong.
Falsehoods


There are always 24 hours in a day.
February is always 28 days long.
Any 24-hour period will always begin and end in the same day (or week, or month).


## Transpose.scala
  def transposeRowMatrix(m: RowMatrix): RowMatrix = {
    val transposedRowsRDD = m.rows.zipWithIndex.map{case (row, rowIndex) => rowToTransposedTriplet(row, rowIndex)}
      .flatMap(x => x) // now we have triplets (newRowIndex, (newColIndex, value))
      .groupByKey
      .sortByKey().map(_._2) // sort rows and remove row indexes
      .map(buildRow) // restore order of elements in each row and remove column indexes
    new RowMatrix(transposedRowsRDD)
  }

  def rowToTransposedTriplet(row: Vector, rowIndex: Long): Array[(Long, (Long, Double))] = {

## JavaRddAPI.java
package test.idlike.spark.datastructure;

import org.apache.commons.lang3.SystemUtils;
import org.apache.spark.api.java.JavaDoubleRDD;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

## HashMapUtils.java
import java.util.*;
import java.util.Map.Entry;
import java.util.stream.Collectors;

/**
 * Created by Umberto on 16/05/2017.
 */

public class HashMapUtils {

## TestPerformance.scala
import org.apache.commons.lang.SystemUtils
import org.apache.spark.mllib.random.RandomRDDs._
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

import scala.math.sqrt

/**
  * Created by Umberto on 08/02/2017.
  */
	import org.apache.spark.sql.functions._

	val mediumDf = Seq((0, "zero"), (4, "one")).toDF("id", "value")
	val largeDf = Seq((0, "zero"), (2, "two"), (3, "three"), (4, "four"), (5, "five")).toDF("id", "value")

	mediumDf.show()
	largeDf.show()

	/*
	+---+-----+
	package test.com.idlike.junit.df

	import breeze.numerics.abs
	import org.apache.spark.rdd.RDD
	import org.apache.spark.sql.functions.col
	import org.apache.spark.sql.{Column, DataFrame, Row}

	/**
	* Created by Umberto on 06/02/2017.
	*/
	/*
	This is a collections of examples about Apache Spark's RDD Api. These examples aim to help me test the RDD functionality.

	References:

	http://spark.apache.org/docs/latest/programming-guide.html
	http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html
	*/
	object RddAPI {
	package knowledgebase.java.stream;

	import java.time.Duration;
	import java.util.*;

	import static java.util.stream.Collectors.*;

	/**
	* Created by Umberto on 15/02/2017.
	* https://dzone.com/articles/a-java-8-streams-cookbook
	def transposeRowMatrix(m: RowMatrix): RowMatrix = {
	val transposedRowsRDD = m.rows.zipWithIndex.map{case (row, rowIndex) => rowToTransposedTriplet(row, rowIndex)}
	.flatMap(x => x) // now we have triplets (newRowIndex, (newColIndex, value))
	.groupByKey
	.sortByKey().map(_._2) // sort rows and remove row indexes
	.map(buildRow) // restore order of elements in each row and remove column indexes
	new RowMatrix(transposedRowsRDD)
	}

	def rowToTransposedTriplet(row: Vector, rowIndex: Long): Array[(Long, (Long, Double))] = {
	package test.idlike.spark.datastructure;

	import org.apache.commons.lang3.SystemUtils;
	import org.apache.spark.api.java.JavaDoubleRDD;
	import org.apache.spark.api.java.JavaPairRDD;
	import org.apache.spark.api.java.JavaRDD;
	import org.apache.spark.api.java.JavaSparkContext;
	import org.apache.spark.api.java.function.Function;
	import org.apache.spark.api.java.function.VoidFunction;
	import scala.Tuple2;
	import java.util.*;
	import java.util.Map.Entry;
	import java.util.stream.Collectors;

	/**
	* Created by Umberto on 16/05/2017.
	*/

	public class HashMapUtils {
	import org.apache.commons.lang.SystemUtils
	import org.apache.spark.mllib.random.RandomRDDs._
	import org.apache.spark.sql.SQLContext
	import org.apache.spark.{SparkConf, SparkContext}

	import scala.math.sqrt

	/**
	* Created by Umberto on 08/02/2017.
	*/