serv-inc/check_pdf_urls.py

## check_pdf_urls.py
'''loads pdf file in sys.argv[1], extracts URLs, tries to load each URL'''
import urllib
import sys

import PyPDF2

# credits to stackoverflow.com/questions/27744210
def extract_urls(filename):
    '''extracts all urls from filename'''
    PDFFile = open(filename,'rb')
    PDF = PyPDF2.PdfFileReader(PDFFile)
    pages = PDF.getNumPages()

    key = '/Annots'
    uri = '/URI'
    ank = '/A'

    for page in range(pages):
        pageSliced = PDF.getPage(page)
        pageObject = pageSliced.getObject()
        if pageObject.has_key(key):
            ann = pageObject[key]
            for a in ann:
                u = a.getObject()
                if u[ank].has_key(uri):
                    yield u[ank][uri]


def check_http_url(url):
    urllib.urlopen(url)


if __name__ == "__main__":
    for url in extract_urls(sys.argv[1]):
        check_http_url(url)
	'''loads pdf file in sys.argv[1], extracts URLs, tries to load each URL'''
	import urllib
	import sys

	import PyPDF2

	# credits to stackoverflow.com/questions/27744210
	def extract_urls(filename):
	'''extracts all urls from filename'''
	PDFFile = open(filename,'rb')
	PDF = PyPDF2.PdfFileReader(PDFFile)
	pages = PDF.getNumPages()

	key = '/Annots'
	uri = '/URI'
	ank = '/A'

	for page in range(pages):
	pageSliced = PDF.getPage(page)
	pageObject = pageSliced.getObject()
	if pageObject.has_key(key):
	ann = pageObject[key]
	for a in ann:
	u = a.getObject()
	if u[ank].has_key(uri):
	yield u[ank][uri]


	def check_http_url(url):
	urllib.urlopen(url)


	if __name__ == "__main__":
	for url in extract_urls(sys.argv[1]):
	check_http_url(url)