epogrebnyak/extract_pdf.py

## extract_pdf.py
# Source of truth:
# https://stackoverflow.com/questions/34837707/how-to-extract-text-from-a-pdf-file

# Вариант 0
# =========
# tika

import os
from tika import parser
from shutil import copyfile
from pathlib import Path

WORKER = "worker"

def make_copy(path):
    "Rename file to avoid problems of long filenames."
    copyfile(path, WORKER)
    return WORKER

def get_raw_text(path):
    s = str(parser.from_file(path)['content'])
    return s.replace("\n", "")

def text_path(path, subfolder = "text"):
    filename, ext = os.path.splitext(path)
    txt_name = filename.replace(" ", "_").replace("'","")+".txt"
    if not os.path.exists(subfolder):
       os.mkdir(subfolder)
    return os.path.join(subfolder, txt_name)

def to_text(path, content):
    Path(text_path(path)).write_text(content, encoding="utf-8")

def list_pdf(folder):
    for path in os.listdir(folder):
         fn, ext = os.path.splitext(path)
         if ext == ".pdf":
             yield make_copy(path), path

for path_temp, path in list_pdf("."):
    print(path)
    content = get_raw_text(path_temp)
    print(content)
    to_text(path, content)


# Вариант 1
# =========
#import PyPDF2
#read_pdf = PyPDF2.PdfFileReader(PATH)
#number_of_pages = read_pdf.getNumPages()
#page = read_pdf.getPage(0)
#page_content = page.extractText()
#print (page_content)


# Вариант 2
# =========

#import textract
#text = textract.process(PATH)
# оболочка для pdftotext / pdf.miner.six

# Вариант 3
# =========
# pdf.miner.six

# Вариант 4
# =========
# xpdf binary

# Вариант 5
# =========
# pdftotext
	# Source of truth:
	# https://stackoverflow.com/questions/34837707/how-to-extract-text-from-a-pdf-file

	# Вариант 0
	# =========
	# tika

	import os
	from tika import parser
	from shutil import copyfile
	from pathlib import Path

	WORKER = "worker"

	def make_copy(path):
	"Rename file to avoid problems of long filenames."
	copyfile(path, WORKER)
	return WORKER

	def get_raw_text(path):
	s = str(parser.from_file(path)['content'])
	return s.replace("\n", "")

	def text_path(path, subfolder = "text"):
	filename, ext = os.path.splitext(path)
	txt_name = filename.replace(" ", "_").replace("'","")+".txt"
	if not os.path.exists(subfolder):
	os.mkdir(subfolder)
	return os.path.join(subfolder, txt_name)

	def to_text(path, content):
	Path(text_path(path)).write_text(content, encoding="utf-8")

	def list_pdf(folder):
	for path in os.listdir(folder):
	fn, ext = os.path.splitext(path)
	if ext == ".pdf":
	yield make_copy(path), path

	for path_temp, path in list_pdf("."):
	print(path)
	content = get_raw_text(path_temp)
	print(content)
	to_text(path, content)


	# Вариант 1
	# =========
	#import PyPDF2
	#read_pdf = PyPDF2.PdfFileReader(PATH)
	#number_of_pages = read_pdf.getNumPages()
	#page = read_pdf.getPage(0)
	#page_content = page.extractText()
	#print (page_content)


	# Вариант 2
	# =========

	#import textract
	#text = textract.process(PATH)
	# оболочка для pdftotext / pdf.miner.six

	# Вариант 3
	# =========
	# pdf.miner.six

	# Вариант 4
	# =========
	# xpdf binary

	# Вариант 5
	# =========
	# pdftotext