tremby/duplicates.py

## duplicates.py
import random
from collections import Counter
from itertools import chain

POOL_SIZE = 100
PAGE_SIZE = 9
NUM_PAGES = 2

ITERATIONS = 10000

pool = set(range(POOL_SIZE))

dupe_counts = []

for i in xrange(ITERATIONS):
	pages = [random.sample(pool, PAGE_SIZE) for p in xrange(NUM_PAGES)]
	duplicates = [item for (item, count) in Counter(chain(*pages)).iteritems() if count > 1]
	dupe_counts.append(len(duplicates))

print("""
	Over {iterations} iterations
	getting {num_pages} pages, each of size {page_size},
	from a pool of {pool_size} entries,
	there were an average of {average} duplicates.
	""".format(
		iterations=ITERATIONS,
		num_pages=NUM_PAGES,
		page_size=PAGE_SIZE,
		pool_size=POOL_SIZE,
		average=sum(dupe_counts) / float(len(dupe_counts))
		))
	import random
	from collections import Counter
	from itertools import chain

	POOL_SIZE = 100
	PAGE_SIZE = 9
	NUM_PAGES = 2

	ITERATIONS = 10000

	pool = set(range(POOL_SIZE))

	dupe_counts = []

	for i in xrange(ITERATIONS):
	pages = [random.sample(pool, PAGE_SIZE) for p in xrange(NUM_PAGES)]
	duplicates = [item for (item, count) in Counter(chain(*pages)).iteritems() if count > 1]
	dupe_counts.append(len(duplicates))

	print("""
	Over {iterations} iterations
	getting {num_pages} pages, each of size {page_size},
	from a pool of {pool_size} entries,
	there were an average of {average} duplicates.
	""".format(
	iterations=ITERATIONS,
	num_pages=NUM_PAGES,
	page_size=PAGE_SIZE,
	pool_size=POOL_SIZE,
	average=sum(dupe_counts) / float(len(dupe_counts))
	))