dpanic/extract.py

## extract.py
import os
import sys
import fitz

def extract_images(pdf_path, output_folder):
    doc = fitz.open(pdf_path)
    for page_num in range(len(doc)):
        page = doc[page_num]
        image_list = page.get_images(full=True)
        for img_index, img in enumerate(image_list):
            xref = img[0]
            base_image = doc.extract_image(xref)
            image_bytes = base_image["image"]

            with open(os.path.join(output_folder, f"image_page{page_num}_img{img_index}.png"), "wb") as f:
                f.write(image_bytes)

if __name__ == "__main__":
    pdf_path = sys.argv[1]
    output_folder = "out"
    try:
        mkdir(output_folder)
    except:
        pass
    extract_images(pdf_path, output_folder)
	import os
	import sys
	import fitz

	def extract_images(pdf_path, output_folder):
	doc = fitz.open(pdf_path)
	for page_num in range(len(doc)):
	page = doc[page_num]
	image_list = page.get_images(full=True)
	for img_index, img in enumerate(image_list):
	xref = img[0]
	base_image = doc.extract_image(xref)
	image_bytes = base_image["image"]

	with open(os.path.join(output_folder, f"image_page{page_num}_img{img_index}.png"), "wb") as f:
	f.write(image_bytes)

	if __name__ == "__main__":
	pdf_path = sys.argv[1]
	output_folder = "out"
	try:
	mkdir(output_folder)
	except:
	pass
	extract_images(pdf_path, output_folder)