infomaven/README.md

## README.md

      
    Raw
  

              README.md
            
          
    CSV FILE DIFF SCRIPT

Uses standard Python3 modules
Finds diff between 2 CSV files & prints results to HTML
Finds and prints list of items found in both files
Does NOT find duplicates in same file

USAGE:

Download script file and sample CSVs to a directory on your computer
Run script with this command>>   python3 compare_csv_files.py


Script will generate html report in same directory


## a.csv

          
            victory
            solution
            court
            tin
            nearest
            couple

            
              plural
              comfortable
              grandfather
              came
              easily
              written

            
              tight
              column
              begun
              softly
              go
              plate

            
              sent
              too
              discover
              generally
              handsome
              habit

            
              actually
              car
              wore
              create
              soil
              pick

            
              independent
              warm
              party
              society
              chamber
              sweet

            
              tent
              flame
              liquid
              faster
              cowboy
              circle

            
              tent
              flame
              liquid
              faster
              cowboy
              circle

            
              tent
              flame
              liquid
              faster
              cowboy
              circle

## b.csv

          
            salt
            desert
            build
            win
            idea
            room

            
              major
              scared
              young
              though
              contain
              beside

            
              camera
              steel
              opportunity
              farm
              nodded
              right

            
              baseball
              clock
              asleep
              grandmother
              charge
              fish

            
              color
              frozen
              activity
              break
              stems
              sun

            
              sent
              likely
              held
              visit
              warn
              fresh

            
              since
              us
              stomach
              slide
              create
              opportunity

            
              body
              additional
              jar
              hang
              tone
              football

            
              still
              gentle
              brought
              atomic
              son
              silver

            
              jack
              birthday
              cast
              canal
              gravity
              with

            
              current
              strong
              rays
              drew
              beyond
              share

            
              actually
              car
              wore
              create
              soil
              pick

            
              independent
              warm
              party
              society
              chamber
              sweet

            
              tent
              flame
              liquid
              faster
              cowboy
              circle

## compare_csv_files.py
import csv
import sys, os, difflib, argparse
from datetime import datetime, timezone

def get_duplicates(list_a, list_b):
    dups = [item for item in list_a if item in list_b]
    return dups

def generate_duplicates_report(first_file, second_file):
    data1= []
    data2 = []
    with open(first_file, newline='') as csvfile:
        csv_reader1 = csv.reader(csvfile, delimiter=',')
        for row in csv_reader1:
            data1.append(tuple(row))

    with open(second_file, newline='') as csvfile:
        csv_reader2 = csv.reader(csvfile, delimiter=',')
        for row in csv_reader2:
            data2.append(tuple(row))
    shared = get_duplicates(data1, data2)
    print("Found in both files: ", shared)

def generate_diff_report(first_file, second_file):
    with open(first_file, newline='') as csvfile:
        rubric = csvfile.readlines()

    with open(second_file, newline='') as csvfile:
        comparison = csvfile.readlines()

    reportname = f"DIFF-{first_file}_{second_file}.html"
    diff = difflib.HtmlDiff().make_file(rubric,comparison,first_file,second_file)
    Html_file = open(reportname, "w")
    Html_file.writelines(diff)
    Html_file.close()

first_file = input("Enter first file name: ")
second_file = input("Enter first file name: ")
generate_duplicates_report(first_file,second_file )
generate_diff_report(first_file,second_file )
victory	solution	court	tin	nearest	couple
plural	comfortable	grandfather	came	easily	written
tight	column	begun	softly	go	plate
sent	too	discover	generally	handsome	habit
actually	car	wore	create	soil	pick
independent	warm	party	society	chamber	sweet
tent	flame	liquid	faster	cowboy	circle
tent	flame	liquid	faster	cowboy	circle
tent	flame	liquid	faster	cowboy	circle
salt	desert	build	win	idea	room
major	scared	young	though	contain	beside
camera	steel	opportunity	farm	nodded	right
baseball	clock	asleep	grandmother	charge	fish
color	frozen	activity	break	stems	sun
sent	likely	held	visit	warn	fresh
since	us	stomach	slide	create	opportunity
body	additional	jar	hang	tone	football
still	gentle	brought	atomic	son	silver
jack	birthday	cast	canal	gravity	with
current	strong	rays	drew	beyond	share
actually	car	wore	create	soil	pick
independent	warm	party	society	chamber	sweet
tent	flame	liquid	faster	cowboy	circle
	import csv
	import sys, os, difflib, argparse
	from datetime import datetime, timezone

	def get_duplicates(list_a, list_b):
	dups = [item for item in list_a if item in list_b]
	return dups

	def generate_duplicates_report(first_file, second_file):
	data1= []
	data2 = []
	with open(first_file, newline='') as csvfile:
	csv_reader1 = csv.reader(csvfile, delimiter=',')
	for row in csv_reader1:
	data1.append(tuple(row))

	with open(second_file, newline='') as csvfile:
	csv_reader2 = csv.reader(csvfile, delimiter=',')
	for row in csv_reader2:
	data2.append(tuple(row))
	shared = get_duplicates(data1, data2)
	print("Found in both files: ", shared)

	def generate_diff_report(first_file, second_file):
	with open(first_file, newline='') as csvfile:
	rubric = csvfile.readlines()

	with open(second_file, newline='') as csvfile:
	comparison = csvfile.readlines()

	reportname = f"DIFF-{first_file}_{second_file}.html"
	diff = difflib.HtmlDiff().make_file(rubric,comparison,first_file,second_file)
	Html_file = open(reportname, "w")
	Html_file.writelines(diff)
	Html_file.close()

	first_file = input("Enter first file name: ")
	second_file = input("Enter first file name: ")
	generate_duplicates_report(first_file,second_file )
	generate_diff_report(first_file,second_file )