obahareth/parse_and_index_pdf.rb

## parse_and_index_pdf.rb
require "nokogiri"
require "yomu"
require "algoliasearch"

def invalid_paragraph?(str)
  disallowed_strings = [ "", " ", "\n", " \n" ]
  disallowed_strings.include?(str)
end

def get_pdf_paragraphs(filename)
  yomu = Yomu.new(filename)
  paragraphs = []

  doc = Nokogiri::HTML(yomu.html)

  page = 0

  doc.css('.page').each do |node|

    node.css('p').each do |paragraph|
      paragraph_text = paragraph.inner_text

      next if invalid_paragraph?(paragraph_text)

      paragraphs << { text: paragraph_text, page: page }
    end

    page += 1
  end

  paragraphs
end

paragraphs = get_pdf_paragraphs("dracula-shortened.pdf")

Algolia.init(application_id: 'xxxx', api_key: 'xxxx')

index = Algolia::Index.new("books")
index.add_objects(paragraphs)

index.set_settings({ "searchableAttributes" => ["text"] })
	require "nokogiri"
	require "yomu"
	require "algoliasearch"

	def invalid_paragraph?(str)
	disallowed_strings = [ "", " ", "\n", " \n" ]
	disallowed_strings.include?(str)
	end

	def get_pdf_paragraphs(filename)
	yomu = Yomu.new(filename)
	paragraphs = []

	doc = Nokogiri::HTML(yomu.html)

	page = 0

	doc.css('.page').each do \|node\|

	node.css('p').each do \|paragraph\|
	paragraph_text = paragraph.inner_text

	next if invalid_paragraph?(paragraph_text)

	paragraphs << { text: paragraph_text, page: page }
	end

	page += 1
	end

	paragraphs
	end

	paragraphs = get_pdf_paragraphs("dracula-shortened.pdf")

	Algolia.init(application_id: 'xxxx', api_key: 'xxxx')

	index = Algolia::Index.new("books")
	index.add_objects(paragraphs)

	index.set_settings({ "searchableAttributes" => ["text"] })