mthh/pdf_to_txt.py

## pdf_to_txt.py
import PyPDF2
import os

if __name__ == '__main__':
    # Le chemin du dossier qui contient les pdf
    path_input = '/home/mthh/Téléchargements/'

    # Le chemin du dossier de sorties qui va acceuillir les fichiers docx
    path_output = '/home/mthh/Téléchargements/output/'

    # On créé le dossier de sortie s'il n'existe pas
    if not os.path.exists(path_output):
       os.makedirs(path_output)

    # On liste les fichiers pdf du dossier d'entrées
    files = [fp for fp in os.listdir(path_input) if 'pdf' in fp.lower()]

    # Pour chaque fichier, on fait la conversion
    for file_name in files:
        with open(path_input + file_name,'rb') as f:
            pdfreader = PyPDF2.PdfReader(f)
            text = ''
            for i in range(len(pdfreader.pages)):
                text += pdfreader.pages[i].extract_text()
            with open(path_output + file_name[:-4] + '.txt', 'w') as f2:
                f2.write(text)
	import PyPDF2
	import os

	if __name__ == '__main__':
	# Le chemin du dossier qui contient les pdf
	path_input = '/home/mthh/Téléchargements/'

	# Le chemin du dossier de sorties qui va acceuillir les fichiers docx
	path_output = '/home/mthh/Téléchargements/output/'

	# On créé le dossier de sortie s'il n'existe pas
	if not os.path.exists(path_output):
	os.makedirs(path_output)

	# On liste les fichiers pdf du dossier d'entrées
	files = [fp for fp in os.listdir(path_input) if 'pdf' in fp.lower()]

	# Pour chaque fichier, on fait la conversion
	for file_name in files:
	with open(path_input + file_name,'rb') as f:
	pdfreader = PyPDF2.PdfReader(f)
	text = ''
	for i in range(len(pdfreader.pages)):
	text += pdfreader.pages[i].extract_text()
	with open(path_output + file_name[:-4] + '.txt', 'w') as f2:
	f2.write(text)