pbamotra/amznlistexport.py

## amznlistexport.py
import datetime
import glob
from lxml import etree

import pandas as pd


def get_books(file):
    doc = etree.HTMLParser()
    tree = etree.parse(file, parser=doc)
    books = tree.xpath('/html/body/div[1]/div/table/tbody')[0]
    lbooks = []
    for row in books.iterchildren():
        lbooks += row.xpath('td/*/text()')[:1]
    return lbooks

def run():
    files = glob.glob('Books I want to read*.html')
    allbooks = []
    for f in files:
        allbooks += get_books(f)
    today = datetime.datetime.now().__str__()[:10]
    df = pd.DataFrame(allbooks, columns=['book_name'])
    df.to_csv(f'amazon.{today}.amznbkup.csv', index=False)

    prev_backups = glob.glob('*.amznbkup.csv')
    latest = pd.concat([pd.read_csv(f) for f in prev_backups]).drop_duplicates()
    df.to_csv('amazon.latest.csv', index=False)
	import datetime
	import glob
	from lxml import etree

	import pandas as pd


	def get_books(file):
	doc = etree.HTMLParser()
	tree = etree.parse(file, parser=doc)
	books = tree.xpath('/html/body/div[1]/div/table/tbody')[0]
	lbooks = []
	for row in books.iterchildren():
	lbooks += row.xpath('td/*/text()')[:1]
	return lbooks

	def run():
	files = glob.glob('Books I want to read*.html')
	allbooks = []
	for f in files:
	allbooks += get_books(f)
	today = datetime.datetime.now().__str__()[:10]
	df = pd.DataFrame(allbooks, columns=['book_name'])
	df.to_csv(f'amazon.{today}.amznbkup.csv', index=False)

	prev_backups = glob.glob('*.amznbkup.csv')
	latest = pd.concat([pd.read_csv(f) for f in prev_backups]).drop_duplicates()
	df.to_csv('amazon.latest.csv', index=False)