thisismattmiller/extract.py

## extract.py
import requests
import shutil
import camelot.io as camelot
import os
from PyPDF2 import PdfFileReader, PdfFileWriter


for year in range(2011,2017):

	url = f'https://files.dep.state.pa.us/Waste/Recycling/RecyclingPortalFiles/Documents/{year}_Recycling_Report.pdf'
	print(url)

	file_name = f"data/{year}.pdf"

	with requests.get(url, stream=True) as r:
		with open(file_name, 'wb') as f:
			shutil.copyfileobj(r.raw, f)


	pdf = PdfFileReader(file_name)

	for page in range(pdf.getNumPages()):
		pdf_writer = PdfFileWriter()
		pdf_writer.addPage(pdf.getPage(page))

		output_filename = f"data/{year}_{page}.pdf"
		print(output_filename)
		with open(output_filename, 'wb') as out:
			pdf_writer.write(out)


	    # once its here indivual page exists
		tables = camelot.read_pdf(output_filename)
		print(len(tables))
		tables[0].to_csv(f"csv/{year}_{page}.csv")
	import requests
	import shutil
	import camelot.io as camelot
	import os
	from PyPDF2 import PdfFileReader, PdfFileWriter


	for year in range(2011,2017):

	url = f'https://files.dep.state.pa.us/Waste/Recycling/RecyclingPortalFiles/Documents/{year}_Recycling_Report.pdf'
	print(url)

	file_name = f"data/{year}.pdf"

	with requests.get(url, stream=True) as r:
	with open(file_name, 'wb') as f:
	shutil.copyfileobj(r.raw, f)


	pdf = PdfFileReader(file_name)

	for page in range(pdf.getNumPages()):
	pdf_writer = PdfFileWriter()
	pdf_writer.addPage(pdf.getPage(page))

	output_filename = f"data/{year}_{page}.pdf"
	print(output_filename)
	with open(output_filename, 'wb') as out:
	pdf_writer.write(out)


	# once its here indivual page exists
	tables = camelot.read_pdf(output_filename)
	print(len(tables))
	tables[0].to_csv(f"csv/{year}_{page}.csv")