turicas/extrai_pdf.py

## extrai_pdf.py
import io
import re

import requests
import rows


def extrai_tabela(url):
    response = requests.get(url)
    return rows.import_from_pdf(
        io.BytesIO(response.content),
        ends_before=re.compile(r'\* ?Variação em .*'),
    )

arquivos = ['16032018194928.pdf', '18082017185431.pdf']
for arquivo in arquivos:
    url = f'http://www.imea.com.br/upload/publicacoes/arquivos/{arquivo}'
    print(f'Baixando {url}')
    table = extrai_tabela(url)
    print(rows.export_to_txt(table))
	import io
	import re

	import requests
	import rows


	def extrai_tabela(url):
	response = requests.get(url)
	return rows.import_from_pdf(
	io.BytesIO(response.content),
	ends_before=re.compile(r'\* ?Variação em .*'),
	)

	arquivos = ['16032018194928.pdf', '18082017185431.pdf']
	for arquivo in arquivos:
	url = f'http://www.imea.com.br/upload/publicacoes/arquivos/{arquivo}'
	print(f'Baixando {url}')
	table = extrai_tabela(url)
	print(rows.export_to_txt(table))