rudda/pdf.reader.py

## pdf.reader.py
import requests
import io
from io import BytesIO
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def download_pdf(url):
    response = requests.get(url)
    return response.content

def extract_text_from_pdf(pdf_content):
    resource_manager = PDFResourceManager()
    string_io = io.StringIO()
    converter = TextConverter(resource_manager, string_io, laparams=LAParams())
    page_interpreter = PDFPageInterpreter(resource_manager, converter)

    text = ''
    pdf_io = BytesIO(pdf_content)
    for page in PDFPage.get_pages(pdf_io, caching=True, check_extractable=True):
        page_interpreter.process_page(page)
        text += string_io.getvalue()
        string_io.truncate(0)
        string_io.seek(0)

    converter.close()
    string_io.close()

    return text

if __name__ == '__main__':
    url = 'http://www.host.com/assets/file.pdf'
    pdf_content = download_pdf(url)
    text = extract_text_from_pdf(pdf_content)
    print(text)
	import requests
	import io
	from io import BytesIO
	from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
	from pdfminer.converter import TextConverter
	from pdfminer.layout import LAParams
	from pdfminer.pdfpage import PDFPage

	def download_pdf(url):
	response = requests.get(url)
	return response.content

	def extract_text_from_pdf(pdf_content):
	resource_manager = PDFResourceManager()
	string_io = io.StringIO()
	converter = TextConverter(resource_manager, string_io, laparams=LAParams())
	page_interpreter = PDFPageInterpreter(resource_manager, converter)

	text = ''
	pdf_io = BytesIO(pdf_content)
	for page in PDFPage.get_pages(pdf_io, caching=True, check_extractable=True):
	page_interpreter.process_page(page)
	text += string_io.getvalue()
	string_io.truncate(0)
	string_io.seek(0)

	converter.close()
	string_io.close()

	return text

	if __name__ == '__main__':
	url = 'http://www.host.com/assets/file.pdf'
	pdf_content = download_pdf(url)
	text = extract_text_from_pdf(pdf_content)
	print(text)