Skip to content

Instantly share code, notes, and snippets.

@kossal
Last active April 1, 2020 00:10
Show Gist options
  • Save kossal/9c1402d93120b5cef8ca78ee1eae68de to your computer and use it in GitHub Desktop.
Save kossal/9c1402d93120b5cef8ca78ee1eae68de to your computer and use it in GitHub Desktop.
library(tabulizer)
library(purrr)
url <- "https://www.gob.mx/cms/uploads/attachment/file/544266/Tabla_casos_positivos_COVID-19_resultado_InDRE_2020.03.30.pdf"
# Cada página es una lista
infectados_ss <- extract_tables(url, encoding = "UTF-8")
# Las primeras 5 filas son los nombres de las columnas
# Los uno y filtro de la lista original
columnas <- sapply(asinfectados_ss[[1]][1:5])
nomColumnas <- trimws(sapply(as.data.frame(infectados_ss[[1]][1:5,]), paste, collapse = " "))
infectados_ss[[1]] <- infectados_ss[[1]][-(1:5),]
# Finalmente asigno los colnames en todos las páginas y lo uno en un data.frame
infectados_ss2 <- lapply(infectados_ss, function(x) {colnames(x) <- nomColumnas; x})
infectados_ss3 <- map_dfr(infectados_ss2, as.data.frame)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment