Tom Ron tomron

## welchtest.py
import pandas as pd
import numpy as np
from scipy import stats


input_file='advertisement_clicks.csv'

df = pd.read_csv(input_file)

a = df[df['advertisement_id']== 'A']['action'].tolist()

## welchtest.py
import pandas as pd
import numpy as np
from scipy import stats


input_file='advertisement_clicks.csv'

df = pd.read_csv(input_file)

a = df[df['advertisement_id']== 'A']['action'].tolist()

## MergeMapUDAF.java
package com.tomron;

import org.apache.spark.sql.Row;
import org.apache.spark.sql.expressions.MutableAggregationBuffer;
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

## MergeMapUDAF.java
package com.tomron;

import org.apache.spark.sql.Row;
import org.apache.spark.sql.expressions.MutableAggregationBuffer;
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;
import org.apache.spark.sql.types.DataType;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

## parquet_to_json.py
# impor spark, set spark context
from pyspark import SparkContext, SparkConf
from pyspark.sql.context import SQLContext
import sys
import os

if len(sys.argv) == 1:
    sys.stderr.write("Must enter input file to convert")
    sys.exit()
input_file = sys.argv[1]

## spark_aws_lambda.py
import sys
import time

import boto3

def lambda_handler(event, context):
    conn = boto3.client("emr")
    # chooses the first cluster which is Running or Waiting
    # possibly can also choose by name or already have the cluster id
    clusters = conn.list_clusters()

## spark_knn_approximation.py
from __future__ import print_function

import sys
from math import sqrt
import argparse
from collections import defaultdict
from random import randint

from pyspark import SparkContext
	import pandas as pd
	import numpy as np
	from scipy import stats


	input_file='advertisement_clicks.csv'

	df = pd.read_csv(input_file)

	a = df[df['advertisement_id']== 'A']['action'].tolist()
	package com.tomron;

	import org.apache.spark.sql.Row;
	import org.apache.spark.sql.expressions.MutableAggregationBuffer;
	import org.apache.spark.sql.expressions.UserDefinedAggregateFunction;
	import org.apache.spark.sql.types.DataType;
	import org.apache.spark.sql.types.DataTypes;
	import org.apache.spark.sql.types.StructField;
	import org.apache.spark.sql.types.StructType;
	# impor spark, set spark context
	from pyspark import SparkContext, SparkConf
	from pyspark.sql.context import SQLContext
	import sys
	import os

	if len(sys.argv) == 1:
	sys.stderr.write("Must enter input file to convert")
	sys.exit()
	input_file = sys.argv[1]
	import sys
	import time

	import boto3

	def lambda_handler(event, context):
	conn = boto3.client("emr")
	# chooses the first cluster which is Running or Waiting
	# possibly can also choose by name or already have the cluster id
	clusters = conn.list_clusters()
	from __future__ import print_function

	import sys
	from math import sqrt
	import argparse
	from collections import defaultdict
	from random import randint

	from pyspark import SparkContext