kmwallio/gpdf2text.pl

## gpdf2text.pl
#!/usr/bin/perl

use File::Copy "cp";
use File::Path qw(make_path remove_tree);

my $file_name = $ARGV[0];
my $out_file = $ARGV[1] eq '' ? 'text.txt' : $ARGV[1];

if ($file_name eq '') {
  print "\n\n" . 'Usage:' . "\n";
	print "\tgpdf2txt [in-file] [out-file]\n\n";
} else {
	print "Converting: " . $file_name . "\n";

	mkdir('./gpdf-tmp');
	cp($file_name, './gpdf-tmp/' . $file_name);
	chdir('./gpdf-tmp');

	`pdftoppm * -f 1 -l 100 -r 300 ocr_pdf`;

	opendir(my $dh, './');
	while(my $file = readdir($dh)) {
		if ($file =~ m/ppm$/i) {
			my $nfile = $file;
			my $nfile2 = $file;
			$nfile2 =~ s/\.ppm$//i;
			$nfile =~ s/ppm$/png/i; # Change to TIF if needed.
			`convert $file $nfile`;
			`tesseract $nfile $nfile2 -l eng`; # Change eng to desired installed language
			`cat $nfile2.txt >> text.txt`;
		}
	}

	closedir($dh);

	chdir('..');
	cp('./gpdf-tmp/text.txt', $out_file);
	remove_tree('./gpdf-tmp');
}
	#!/usr/bin/perl

	use File::Copy "cp";
	use File::Path qw(make_path remove_tree);

	my $file_name = $ARGV[0];
	my $out_file = $ARGV[1] eq '' ? 'text.txt' : $ARGV[1];

	if ($file_name eq '') {
	print "\n\n" . 'Usage:' . "\n";
	print "\tgpdf2txt [in-file] [out-file]\n\n";
	} else {
	print "Converting: " . $file_name . "\n";

	mkdir('./gpdf-tmp');
	cp($file_name, './gpdf-tmp/' . $file_name);
	chdir('./gpdf-tmp');

	`pdftoppm * -f 1 -l 100 -r 300 ocr_pdf`;

	opendir(my $dh, './');
	while(my $file = readdir($dh)) {
	if ($file =~ m/ppm$/i) {
	my $nfile = $file;
	my $nfile2 = $file;
	$nfile2 =~ s/\.ppm$//i;
	$nfile =~ s/ppm$/png/i; # Change to TIF if needed.
	`convert $file $nfile`;
	`tesseract $nfile $nfile2 -l eng`; # Change eng to desired installed language
	`cat $nfile2.txt >> text.txt`;
	}
	}

	closedir($dh);

	chdir('..');
	cp('./gpdf-tmp/text.txt', $out_file);
	remove_tree('./gpdf-tmp');
	}