T Meyarivan meyarivan

## weblog_job.py
#!/usr/bin/env python

import sys, os
import codecs
import datetime

import mrjob.job
import mrjob.protocol
import simplejson as json
import math

## get_rawdata_sizes.py
#!/usr/bin/env python

import os, sys
import math
import happybase
import time
import simplejson as json
import struct
from datetime import datetime, timedelta

## summarize_activity.py
#!/usr/bin/python

import os
import sys
from datetime import date, timedelta, datetime
import simplejson as json


def parse(filex):
    data = json.loads(filex.read(), 'utf8')

## fetch_reports.pig
# pig -param orig=/user/bcolloran/data/fhrFullDump_2014-01-31/  -param fetchids=/tmp/sample_list.txt -param jointype=merge -param output=DEST_PATH fetch_reports.pig

register '/opt/cloudera/parcels/CDH/lib/pig/piggybank.jar';

fulldump = LOAD '$orig' USING org.apache.pig.piggybank.storage.SequenceFileLoader AS (key:chararray, value:chararray);
ids_to_fetch_raw = LOAD '$fetchids' USING PigStorage() AS (key:chararray, ign:chararray);

ids_to_fetch = ORDER ids_to_fetch_raw BY key;

common = JOIN fulldump by key, ids_to_fetch by key USING '$jointype';
	#!/usr/bin/env python

	import sys, os
	import codecs
	import datetime

	import mrjob.job
	import mrjob.protocol
	import simplejson as json
	import math
	#!/usr/bin/env python

	import os, sys
	import math
	import happybase
	import time
	import simplejson as json
	import struct
	from datetime import datetime, timedelta
	#!/usr/bin/python

	import os
	import sys
	from datetime import date, timedelta, datetime
	import simplejson as json


	def parse(filex):
	data = json.loads(filex.read(), 'utf8')
	# pig -param orig=/user/bcolloran/data/fhrFullDump_2014-01-31/ -param fetchids=/tmp/sample_list.txt -param jointype=merge -param output=DEST_PATH fetch_reports.pig

	register '/opt/cloudera/parcels/CDH/lib/pig/piggybank.jar';

	fulldump = LOAD '$orig' USING org.apache.pig.piggybank.storage.SequenceFileLoader AS (key:chararray, value:chararray);
	ids_to_fetch_raw = LOAD '$fetchids' USING PigStorage() AS (key:chararray, ign:chararray);

	ids_to_fetch = ORDER ids_to_fetch_raw BY key;

	common = JOIN fulldump by key, ids_to_fetch by key USING '$jointype';