djsegal/pdf_to_json.py

## pdf_to_json.py
import fitz  # PyMuPDF
import json

def pdf_to_json(pdf_path, json_path):
    doc = fitz.open(pdf_path)
    data_list = []

    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        text = page.get_text().replace("а́\n-", "а́-")

        for line in text.split('\n'):
            if line == "":
                continue

            parts = line.split(',', 1)
            assert len(parts) == 2

            lr, location = parts[0].strip(), parts[1].strip().strip("\"").strip()
            data_list.append({"lr": lr, "location": location})

    with open(json_path, 'w', encoding='utf-8') as json_file:
        json_file.write('[\n')
        for i, item in enumerate(data_list):
            # Customized JSON string for each item with separators and indent for readability
            json_str = json.dumps(item, ensure_ascii=False, separators=(',', ': ')).replace('","', '", "')
            json_file.write(f'  {json_str}')
            if i < len(data_list) - 1:
                json_file.write(',\n')
            else:
                json_file.write('\n')
        json_file.write(']')

    print(f"PDF content has been successfully converted to JSON and saved to: \n{json_path}")

# Example usage
pdf_path = 'path_to_your_pdf.pdf'  # Update this with the actual path to your PDF file
json_path = pdf_path.replace(".pdf", ".json")
pdf_to_json(pdf_path, json_path)
	import fitz # PyMuPDF
	import json

	def pdf_to_json(pdf_path, json_path):
	doc = fitz.open(pdf_path)
	data_list = []

	for page_num in range(len(doc)):
	page = doc.load_page(page_num)
	text = page.get_text().replace("а́\n-", "а́-")

	for line in text.split('\n'):
	if line == "":
	continue

	parts = line.split(',', 1)
	assert len(parts) == 2

	lr, location = parts[0].strip(), parts[1].strip().strip("\"").strip()
	data_list.append({"lr": lr, "location": location})

	with open(json_path, 'w', encoding='utf-8') as json_file:
	json_file.write('[\n')
	for i, item in enumerate(data_list):
	# Customized JSON string for each item with separators and indent for readability
	json_str = json.dumps(item, ensure_ascii=False, separators=(',', ': ')).replace('","', '", "')
	json_file.write(f' {json_str}')
	if i < len(data_list) - 1:
	json_file.write(',\n')
	else:
	json_file.write('\n')
	json_file.write(']')

	print(f"PDF content has been successfully converted to JSON and saved to: \n{json_path}")

	# Example usage
	pdf_path = 'path_to_your_pdf.pdf' # Update this with the actual path to your PDF file
	json_path = pdf_path.replace(".pdf", ".json")
	pdf_to_json(pdf_path, json_path)