vinayak-mehta/pdf_table_extract.py

## pdf_table_extract.py
#!/usr/bin/env python
"""
Usage: python pdf_table_extract.py <filename>
"""

import os
import sys

import pandas as pd
import pdftableextract as pdf


root, ext = os.path.splitext(os.path.basename(sys.argv[1]))
if ext.lower() != '.pdf':
    raise ValueError('This script works only with PDF files.')

pages = ['1']
cells = [pdf.process_page(sys.argv[1], p) for p in pages]
cells = [cell for row in cells for cell in row]

tables = pdf.table_to_list(cells, pages)
for i, table in enumerate(tables[1:]):
    df = pd.DataFrame(table)
    out = '{}-page-1-table-{}.csv'.format(root, i + 1)
    df.to_csv(out, index=False, quoting=1, encoding='utf-8')
	#!/usr/bin/env python
	"""
	Usage: python pdf_table_extract.py <filename>
	"""

	import os
	import sys

	import pandas as pd
	import pdftableextract as pdf


	root, ext = os.path.splitext(os.path.basename(sys.argv[1]))
	if ext.lower() != '.pdf':
	raise ValueError('This script works only with PDF files.')

	pages = ['1']
	cells = [pdf.process_page(sys.argv[1], p) for p in pages]
	cells = [cell for row in cells for cell in row]

	tables = pdf.table_to_list(cells, pages)
	for i, table in enumerate(tables[1:]):
	df = pd.DataFrame(table)
	out = '{}-page-1-table-{}.csv'.format(root, i + 1)
	df.to_csv(out, index=False, quoting=1, encoding='utf-8')