bartoszek/pdf_unscramble.sh

## pdf_unscramble.sh
#!/bin/bash

#depends
[[ $# != 1 ]] && { echo "useage: $(basename $0) pdf_file" >&2; exit 10; }
for dep in pdftoppm tesseract pdfunite; do
        hash "$dep" || { echo "requires: $dep" >&2; exit 11; }
done

#tmp
tmp=$(mktemp -d)
trap "rm -rf $tmp" EXIT

#pdf->png
echo "Resterizing ..." >&2
pdftoppm -png "$1" "$tmp/${1%.pdf}" 2>&1
echo "OCRing ..." >&2
#png->pdf
imgs=("$tmp/${1%.pdf}"*.png)
for img in "${imgs[@]}"; do
        echo -en "Page: $((++i))/${#imgs[@]}\r" >&2
        tesseract -l pol --psm 1 --oem 1 "$img" "${img%.png}" pdf 2>&1
done
#concat pdfs
echo "Concating ..." >&2
pdfunite "$tmp/${1%.pdf}"*.pdf "${1%.pdf}".copy.pdf 2>&
	#!/bin/bash

	#depends
	[[ $# != 1 ]] && { echo "useage: $(basename $0) pdf_file" >&2; exit 10; }
	for dep in pdftoppm tesseract pdfunite; do
	hash "$dep" \|\| { echo "requires: $dep" >&2; exit 11; }
	done

	#tmp
	tmp=$(mktemp -d)
	trap "rm -rf $tmp" EXIT

	#pdf->png
	echo "Resterizing ..." >&2
	pdftoppm -png "$1" "$tmp/${1%.pdf}" 2>&1
	echo "OCRing ..." >&2
	#png->pdf
	imgs=("$tmp/${1%.pdf}"*.png)
	for img in "${imgs[@]}"; do
	echo -en "Page: $((++i))/${#imgs[@]}\r" >&2
	tesseract -l pol --psm 1 --oem 1 "$img" "${img%.png}" pdf 2>&1
	done
	#concat pdfs
	echo "Concating ..." >&2
	pdfunite "$tmp/${1%.pdf}"*.pdf "${1%.pdf}".copy.pdf 2>&