AndreiD/python_pdf_to_text_or_html

## python_pdf_to_text_or_html
pip install pdfminer

for text replace HTMLConverter to TEXTConverter....


from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import HTMLConverter
from cgi import escape


def convert_pdf_to_html(url):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = HTMLConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    scrape = urlopen(url).read()
    fp = StringIO(scrape)

    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos = set()
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
        interpreter.process_page(page)

    fp.close()
    device.close()
    textstr = retstr.getvalue()
    retstr.close()
    return textstr
	pip install pdfminer

	for text replace HTMLConverter to TEXTConverter....


	from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
	from pdfminer.layout import LAParams
	from pdfminer.pdfpage import PDFPage
	from pdfminer.converter import HTMLConverter
	from cgi import escape



	def convert_pdf_to_html(url):
	rsrcmgr = PDFResourceManager()
	retstr = StringIO()
	codec = 'utf-8'
	laparams = LAParams()
	device = HTMLConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

	scrape = urlopen(url).read()
	fp = StringIO(scrape)

	interpreter = PDFPageInterpreter(rsrcmgr, device)
	password = ""
	maxpages = 0
	caching = True
	pagenos = set()
	for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True):
	interpreter.process_page(page)

	fp.close()
	device.close()
	textstr = retstr.getvalue()
	retstr.close()
	return textstr