JakeRuss/clean-up-pdftools.R

## clean-up-pdftools.R
library(pdftools)
library(tidyverse)
library(janitor)

pdf_file <- "https://github.com/ropensci/tabulizer/raw/master/inst/examples/data.pdf"

df  <- pdf_data(pdf_file)[[1]]

# Table-ize ----

headers <- df %>%
  filter(y %in% 126) %>%
  pull(text) %>%
  c("y", .)

car_names <- df %>%
  filter(x < 253) %>%
  group_by(y) %>%
  summarise(car = str_c(text, collapse = " "))

final <- df %>%
  filter(x >= 253, y > 126) %>%
  select(y, x, text) %>%
  spread(x, text) %>%
  filter(!is.na(`254`)) %>%
  remove_empty("cols") %>%
  mutate(`308` = coalesce(`308`, `313`),
         `342` = coalesce(`342`, `347`)) %>%
  select(-`313`, -`347`) %>%
  set_names(headers) %>%
  mutate_at(.vars = vars(mpg:carb), parse_number) %>%
  left_join(x  = car_names,
            y  = .,
            by = "y") %>%
  select(-y)
	library(pdftools)
	library(tidyverse)
	library(janitor)

	pdf_file <- "https://github.com/ropensci/tabulizer/raw/master/inst/examples/data.pdf"

	df <- pdf_data(pdf_file)[[1]]

	# Table-ize ----

	headers <- df %>%
	filter(y %in% 126) %>%
	pull(text) %>%
	c("y", .)

	car_names <- df %>%
	filter(x < 253) %>%
	group_by(y) %>%
	summarise(car = str_c(text, collapse = " "))

	final <- df %>%
	filter(x >= 253, y > 126) %>%
	select(y, x, text) %>%
	spread(x, text) %>%
	filter(!is.na(`254`)) %>%
	remove_empty("cols") %>%
	mutate(`308` = coalesce(`308`, `313`),
	`342` = coalesce(`342`, `347`)) %>%
	select(-`313`, -`347`) %>%
	set_names(headers) %>%
	mutate_at(.vars = vars(mpg:carb), parse_number) %>%
	left_join(x = car_names,
	y = .,
	by = "y") %>%
	select(-y)