gooooloo/pdf_to_txt.py

## pdf_to_txt.py
#!/usr/bin/python3

import sys
from PDFNetPython3 import *

def main():
        if len(sys.argv) < 3:
            print("Usage: python3 pdf_to_txt.py path_to_pdf path_to_txt")
            return

        infile = sys.argv[1]
        outfile = sys.argv[2]

        PDFNet.Initialize()

        doc = PDFDoc(infile)
        doc.InitSecurityHandler()

        pgcnt = doc.GetPageCount()

        with open(outfile, 'wt', encoding='utf-8') as f:
                for pgidx in range(1,pgcnt+1):
                        print(f'handling page {pgidx}/{pgcnt} ...')

                        txt = TextExtractor()
                        txt.Begin(doc.GetPage(pgidx))
                        txt = txt.GetAsText()

                        lines = txt.split('\n')
                        lines = lines[1:-1]

                        print(f'----- page {pgidx} -----', file=f)
                        for line in lines:
                                print(line, file=f)
                        print('', file=f)

        print(f'saved in {outfile}')

        doc.Close()

if __name__ == '__main__':
    main()
	#!/usr/bin/python3

	import sys
	from PDFNetPython3 import *

	def main():
	if len(sys.argv) < 3:
	print("Usage: python3 pdf_to_txt.py path_to_pdf path_to_txt")
	return

	infile = sys.argv[1]
	outfile = sys.argv[2]

	PDFNet.Initialize()

	doc = PDFDoc(infile)
	doc.InitSecurityHandler()

	pgcnt = doc.GetPageCount()

	with open(outfile, 'wt', encoding='utf-8') as f:
	for pgidx in range(1,pgcnt+1):
	print(f'handling page {pgidx}/{pgcnt} ...')

	txt = TextExtractor()
	txt.Begin(doc.GetPage(pgidx))
	txt = txt.GetAsText()

	lines = txt.split('\n')
	lines = lines[1:-1]

	print(f'----- page {pgidx} -----', file=f)
	for line in lines:
	print(line, file=f)
	print('', file=f)

	print(f'saved in {outfile}')

	doc.Close()

	if __name__ == '__main__':
	main()