dustinboswell/dedup_results.py

## dedup_results.py
seen_shingleprints = set()
for doc in search_results:
    if any(shingleprint in seen_shingleprints for shingleprint in doc.shingleprints):
        continue  # doc has at least 1 already-seen shingleprint, so skip it

    final_results.append(doc)
    seen_shingleprints.update(doc.shingleprints)
	seen_shingleprints = set()
	for doc in search_results:
	if any(shingleprint in seen_shingleprints for shingleprint in doc.shingleprints):
	continue # doc has at least 1 already-seen shingleprint, so skip it

	final_results.append(doc)
	seen_shingleprints.update(doc.shingleprints)