-
-
Save fernandobarbalho/40f7e6c0cf925065e21084062e5ad513 to your computer and use it in GitHub Desktop.
library(tabulizer) | |
library(dplyr) | |
setwd("~/GitHub/oleogate/data") | |
#Extrai tabelas do arquivo pdf. | |
#Esse arquivo foi baixado do seguinte link | |
# https://politica.estadao.com.br/blogs/estadao-verifica/wp-content/uploads/sites/690/2019/10/Ibama.pdf | |
#A tabela é extraída para um arquivo csv de forma a poder trabalhar melhor questões de encoding | |
tabulizer::extract_tables("ibama.pdf", output = "csv",outdir = getwd()) | |
library(readr) | |
#lê o arquivo já com o formato de encoding apropriado | |
ibama <- read_csv("ibama-2.csv", locale = locale(encoding = "LATIN1")) | |
devtools::install_github("laresbernardo/lares") | |
library(lares) | |
library(stringr) | |
library(rlang) | |
names(ibama)[1]<- "Localidade" | |
names(ibama)[2]<-"Municipio" | |
names(ibama)[3]<-"data_avistamento" | |
names(ibama)[4]<-"uf" | |
#Converte tudo em maíusculo e faz limpeza de texto para facilitar joins com outras tabelas | |
ibama$Municipio<- str_to_upper(cleanText(ibama$Municipio)) | |
ibama$Localidade<- str_to_upper(cleanText(ibama$Localidade)) | |
#Corrige nomenclatura de alguns municípios | |
ibama[ibama$Municipio== "PORTO DE PEDRA",2]<- "PORTO DE PEDRAS" | |
ibama[ibama$Municipio== "CEARAMIRIM",2]<- "CEARA-MIRIM" | |
#Corrige UFs de alguns municípios | |
ibama[ibama$Municipio== "SAO CRISTOVAO",4]<- "SE" | |
ibama[ibama$Municipio== "SIRINHAEM",4]<- "PE" | |
ibama[ibama$Municipio== "ILHA GRANDE",4]<- "PI" |
Muito legal, Fernando! Seu gist me inspirou: https://gist.github.com/kguidonimartins/31859e480d5ba4163510f50f28e9171b
Acredito que Ilha dos Poldros é no MA mesmo e não PI.
Acredito que Ilha dos Poldros é no MA mesmo e não PI.
Olá, não vi referência a Ilha dos Poldros no script. A alteração que é feita é a de Ilha Grande.
Olá, não vi referência a Ilha dos Poldros no script. A alteração que é feita é a de Ilha Grande.
Sim, a linha toda é:
Ilha dos Poldros, Ilha Grande, 2019-09-20, MA, 02° 44' 49.04" S, 41° 48' 08.11" W, 2019-09-28, Óleo - Não Observado
Olá, não vi referência a Ilha dos Poldros no script. A alteração que é feita é a de Ilha Grande.
Sim, a linha toda é:
Ilha dos Poldros, Ilha Grande, 2019-09-20, MA, 02° 44' 49.04" S, 41° 48' 08.11" W, 2019-09-28, Óleo - Não Observado
Entendi. O join entre as tabelas do ibge e do ibama é pelo município e não pela localidade. A tabela do IBAMA indica que a ilha dos Poldros fica no município de Ilha Grande. As pesquisas que eu fiz indicam que esse município fica no Piauí no Delta do Parnaíba, na fronteira com o Maranhão, daí eu fiz a alteração. Agora fica a dúvida se o que está errado é a localidade ou o município.
Provavelmente o município se acreditamos nas posições. (Fiz a checagem por elas.)
Seria interessante gerar um ReadMe sobre como rodar