Proteusiq/get_pdf.py

## get_pdf.py
# Using pyPDF2 and requests(or httpx) to extract PDF data

import io
import requests
import PyPDF2

# my favorite Kierkegard's PDF book
URI = "https://antilogicalism.com/wp-content/uploads/2017/07/thesicknessuntodeath.pdf"
headers = {"user-agent": "Prayson W. Daniel: prayson*at*.com"}

# get online PDF, and extract text data
r = requests.get(URI, headers=headers)
with io.BytesIO(r.content) as f:
    reader = PyPDF2.PdfFileReader(f)
    num_pages = reader.numPages

    data_store = []
    # place page text to data
    for page in range(num_pages):
        page_data = reader.getPage(page)
        data_store.append(page_data.extractText())


# consume data in NLP pipeline
for page in data_store:
    # do awesome things
    print(page)
    print("\n")
	# Using pyPDF2 and requests(or httpx) to extract PDF data

	import io
	import requests
	import PyPDF2

	# my favorite Kierkegard's PDF book
	URI = "https://antilogicalism.com/wp-content/uploads/2017/07/thesicknessuntodeath.pdf"
	headers = {"user-agent": "Prayson W. Daniel: praysonat.com"}

	# get online PDF, and extract text data
	r = requests.get(URI, headers=headers)
	with io.BytesIO(r.content) as f:
	reader = PyPDF2.PdfFileReader(f)
	num_pages = reader.numPages

	data_store = []
	# place page text to data
	for page in range(num_pages):
	page_data = reader.getPage(page)
	data_store.append(page_data.extractText())


	# consume data in NLP pipeline
	for page in data_store:
	# do awesome things
	print(page)
	print("\n")