zpconn/cluster.py

## cluster.py
def pairify(it):
  	it0, it1 = itertools.tee(it, 2)
	first = next(it0)
	return zip(itertools.chain([first, first], it0), it1)

def cluster(sequence, maxgap):
	batch = []
	for prev, val in pairify(sequence):
		if abs(val - prev) >= maxgap:
			yield batch
			batch = [val]
		else:
			batch.append(val)
	if batch:
		yield batch

if __name__ == '__main__':
	import sys
	import csv
	import itertools
	from collections import defaultdict

	gap = 0.05
	if len(sys.argv) == 2:
		gap = float(sys.argv[1])

	columns = defaultdict(list)
	with open('lists.csv', 'rU') as csvfile:
		reader = csv.DictReader(csvfile)
		for row in reader:
			for (k,v) in row.items():
				columns[k].append(v)
		for column in reader.fieldnames:
			data = map(float, filter(lambda v: v != "0.00" and v != '', columns[column]))
			print '%s: ' % column
			for group in cluster(data, maxgap=gap):
				print group
			print '\n\n'
	def pairify(it):
	it0, it1 = itertools.tee(it, 2)
	first = next(it0)
	return zip(itertools.chain([first, first], it0), it1)

	def cluster(sequence, maxgap):
	batch = []
	for prev, val in pairify(sequence):
	if abs(val - prev) >= maxgap:
	yield batch
	batch = [val]
	else:
	batch.append(val)
	if batch:
	yield batch

	if __name__ == '__main__':
	import sys
	import csv
	import itertools
	from collections import defaultdict

	gap = 0.05
	if len(sys.argv) == 2:
	gap = float(sys.argv[1])

	columns = defaultdict(list)
	with open('lists.csv', 'rU') as csvfile:
	reader = csv.DictReader(csvfile)
	for row in reader:
	for (k,v) in row.items():
	columns[k].append(v)
	for column in reader.fieldnames:
	data = map(float, filter(lambda v: v != "0.00" and v != '', columns[column]))
	print '%s: ' % column
	for group in cluster(data, maxgap=gap):
	print group
	print '\n\n'