largocreatura/batch_ocr_to_table

## batch_ocr_to_table
#!/bin/sh

# Convert each PDF to separate images per page
for pdf in ./*.pdf;do
    python3 -m table_ocr.pdf_to_images $pdf;
done;

# Extract tables from each page in .png output
for images in $(find . -name "*.png"); do
      python3 -m table_ocr.extract_tables $images;
done;

# Extract cells from each table in .png outputs
for tables in $(find . -name "table-*"); do
     python3 -m table_ocr.extract_cells $tables;
done;

# Apply OCR to each image of each cell, output as .txt
for cells in $(find . -name "0*-*.png"); do
      python3 -m table_ocr.ocr_image $cells;
done;

# Build CSVs with the different .txt files of each PDF analysed.
folders=();
lenght=0;
for folder in "$(find -type d -iname "*-*")";do
    folders+=($folder);
done;

for i in "${folders[@]}"; do
    python3 -m table_ocr.ocr_to_csv $(find $i/cells/ -name "*.gt.txt") > "$lenght".csv;
    ((++lenght));
done
	#!/bin/sh

	# Convert each PDF to separate images per page
	for pdf in ./*.pdf;do
	python3 -m table_ocr.pdf_to_images $pdf;
	done;

	# Extract tables from each page in .png output
	for images in $(find . -name "*.png"); do
	python3 -m table_ocr.extract_tables $images;
	done;

	# Extract cells from each table in .png outputs
	for tables in $(find . -name "table-*"); do
	python3 -m table_ocr.extract_cells $tables;
	done;

	# Apply OCR to each image of each cell, output as .txt
	for cells in $(find . -name "0-.png"); do
	python3 -m table_ocr.ocr_image $cells;
	done;

	# Build CSVs with the different .txt files of each PDF analysed.
	folders=();
	lenght=0;
	for folder in "$(find -type d -iname "-")";do
	folders+=($folder);
	done;

	for i in "${folders[@]}"; do
	python3 -m table_ocr.ocr_to_csv $(find $i/cells/ -name "*.gt.txt") > "$lenght".csv;
	((++lenght));
	done