huzecong/remove_pdf_text.py

## remove_pdf_text.py
import os

from PyPDF2 import PdfFileReader, PdfFileWriter
from PyPDF2.filters import FlateDecode

DIR = "path/to/pdf/file"


def main():
    pdf = PdfFileReader(os.path.join(DIR, "pfpl.pdf"))
    writer = PdfFileWriter()
    # for idx in range(10):
    for idx in range(pdf.getNumPages()):
        p = pdf.getPage(idx)
        content = p["/Contents"].getData()
        content = content.replace(b"BT\n/F43 141.7323 Tf 114.141 132.299 Td [(PREVIEW)]TJ\n0 g 0 G\nET\n", b"")
        p["/Contents"]._data = FlateDecode.encode(content)
        writer.addPage(p)

    with open(os.path.join(DIR, "pfpl_removed.pdf"), "wb") as f:
        writer.write(f)


if __name__ == '__main__':
    main()
	import os

	from PyPDF2 import PdfFileReader, PdfFileWriter
	from PyPDF2.filters import FlateDecode

	DIR = "path/to/pdf/file"


	def main():
	pdf = PdfFileReader(os.path.join(DIR, "pfpl.pdf"))
	writer = PdfFileWriter()
	# for idx in range(10):
	for idx in range(pdf.getNumPages()):
	p = pdf.getPage(idx)
	content = p["/Contents"].getData()
	content = content.replace(b"BT\n/F43 141.7323 Tf 114.141 132.299 Td [(PREVIEW)]TJ\n0 g 0 G\nET\n", b"")
	p["/Contents"]._data = FlateDecode.encode(content)
	writer.addPage(p)

	with open(os.path.join(DIR, "pfpl_removed.pdf"), "wb") as f:
	writer.write(f)


	if __name__ == '__main__':
	main()