sergiolucero/pdf2txt.py

## pdf2txt.py
import glob, fitz, pandas as pd

files = glob.glob('folder/*.pdf')
texts = [' '.join([page.get_text() for page in fitz.open(fn)])
          for fn in files]

df = pd.DataFrame(dict(file=files, text=texts))
df['cuerpo'] = df.text.apply(lambda t: remove_headandsentence)
df['fallo'] = df.text.apply(lambda t: extract_fallo)
df.to_csv('sentencias.csv', index=False)
print(sum(len(txt) for txt in texts))
	import glob, fitz, pandas as pd

	files = glob.glob('folder/*.pdf')
	texts = [' '.join([page.get_text() for page in fitz.open(fn)])
	for fn in files]

	df = pd.DataFrame(dict(file=files, text=texts))
	df['cuerpo'] = df.text.apply(lambda t: remove_headandsentence)
	df['fallo'] = df.text.apply(lambda t: extract_fallo)
	df.to_csv('sentencias.csv', index=False)
	print(sum(len(txt) for txt in texts))