jeremybmerrill/edc.rb

## edc.rb
require 'tabula'
require 'fileutils'


folder_name = "EDC"
output_folder_name = "EDCcsvs"

#########################################################################
#########################################################################
FileUtils.mkdir_p(output_folder_name + "/")

pdf_file_paths = Dir.glob(folder_name + "/*.pdf")

pdf_file_paths.each do |pdf_file_path|
  outfilename = File.join(output_folder_name, File.basename(pdf_file_path) + ".PAGE.TYPE.csv")

  extractor = Tabula::Extraction::ObjectExtractor.new(pdf_file_path, [1, 3] ) #:all ) # 1..2643
  extractor.extract.each do |pdf_page| #(:line_color_filter => color )
    out = open(outfilename.gsub("PAGE", pdf_page.number).gsub("TYPE", type), 'w')
    if pdf_page.number == 1
      pdf_page.spreadsheets.reject{|spr| spr.cells.size < 10 }.each_with_index do |spreadsheet, index|
        type = index == 0 ? "employment" : "unemployment"
        out << spreadsheet.to_csv
      end
    else
      areas = [
        ["office_vacancy_rates", [200, 47, 460, 331]], #crime complaints
        ["construction_starts" , [533, 47, 653, 331]]  #historical perspective
      ]

      areas.each do |type, area|
        pdf_page.get_area(area).spreadsheets.each do |spreadsheet|
          spreadsheet.fill_in_cells!
          out << spreadsheet.to_csv
          out << "\n\n"
        end
      end
    end
    out.close
  end
end
	require 'tabula'
	require 'fileutils'


	folder_name = "EDC"
	output_folder_name = "EDCcsvs"

	#########################################################################
	#########################################################################
	FileUtils.mkdir_p(output_folder_name + "/")

	pdf_file_paths = Dir.glob(folder_name + "/*.pdf")

	pdf_file_paths.each do \|pdf_file_path\|
	outfilename = File.join(output_folder_name, File.basename(pdf_file_path) + ".PAGE.TYPE.csv")

	extractor = Tabula::Extraction::ObjectExtractor.new(pdf_file_path, [1, 3] ) #:all ) # 1..2643
	extractor.extract.each do \|pdf_page\| #(:line_color_filter => color )
	out = open(outfilename.gsub("PAGE", pdf_page.number).gsub("TYPE", type), 'w')
	if pdf_page.number == 1
	pdf_page.spreadsheets.reject{\|spr\| spr.cells.size < 10 }.each_with_index do \|spreadsheet, index\|
	type = index == 0 ? "employment" : "unemployment"
	out << spreadsheet.to_csv
	end
	else
	areas = [
	["office_vacancy_rates", [200, 47, 460, 331]], #crime complaints
	["construction_starts" , [533, 47, 653, 331]] #historical perspective
	]

	areas.each do \|type, area\|
	pdf_page.get_area(area).spreadsheets.each do \|spreadsheet\|
	spreadsheet.fill_in_cells!
	out << spreadsheet.to_csv
	out << "\n\n"
	end
	end
	end
	out.close
	end
	end