zulzeen/pdf_convert.py

## pdf_convert.py
# adapted from https://www.binpress.com/tutorial/manipulating-pdfs-with-python/167
# converts pdf, returns its text content as a string
# uses pdfminer.six as a library ; works with Python 3.6
from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def convert(fname, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)

    with StringIO() as output:
        manager = PDFResourceManager()
        converter = TextConverter(manager, output, laparams=LAParams())
        interpreter = PDFPageInterpreter(manager, converter)

        with open(fname, 'rb') as infile:
            for page in PDFPage.get_pages(infile, pagenums):
                interpreter.process_page(page)
        converter.close()
        text = output.getvalue()
    return text
	# adapted from https://www.binpress.com/tutorial/manipulating-pdfs-with-python/167
	# converts pdf, returns its text content as a string
	# uses pdfminer.six as a library ; works with Python 3.6
	from io import StringIO
	from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
	from pdfminer.converter import TextConverter
	from pdfminer.layout import LAParams
	from pdfminer.pdfpage import PDFPage

	def convert(fname, pages=None):
	if not pages:
	pagenums = set()
	else:
	pagenums = set(pages)

	with StringIO() as output:
	manager = PDFResourceManager()
	converter = TextConverter(manager, output, laparams=LAParams())
	interpreter = PDFPageInterpreter(manager, converter)

	with open(fname, 'rb') as infile:
	for page in PDFPage.get_pages(infile, pagenums):
	interpreter.process_page(page)
	converter.close()
	text = output.getvalue()
	return text