Last active
October 22, 2018 17:45
-
-
Save sergiospagnuolo/1cf60d3996d721650aefcd4646cc6bb7 to your computer and use it in GitHub Desktop.
Scriptzinho para raspar informações sobre financiamento coletivo de Jair Bolsonaro em 2018
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
options(stringsAsFactors=F) | |
library(rvest) | |
# salva a URL para raspagem | |
link_doadores <- "https://maisquevoto.com.br/jairbolsonaro/Home/LoadDoadores" | |
# puxa a lista | |
lista_doadores <- link_doadores %>% read_html() | |
# cria o data.frame | |
tabela_doadores <- data.frame(NOME=lista_doadores %>% html_nodes("div.col-name") %>% html_text(), | |
DATA=lista_doadores %>% html_nodes("div.col-date") %>% html_text(), | |
VALOR=lista_doadores %>% html_nodes("div.col-val") %>% html_text(), | |
FASE=lista_doadores %>% html_nodes("div.col-fase") %>% html_text()) | |
#remove a priomeira linha, que no data.frame da URL eh o nome das colunas | |
tabela_doadores <- tabela_doadores[-c(1),] | |
#transforma nomes em caixa-alta para melhor comparação com TSE e limpa dados | |
tabela_doadores[,1] = toupper(tabela_doadores[,1]) | |
tabela_doadores$VALOR <- gsub("R\\$", "", tabela_doadores$VALOR) | |
tabela_doadores$VALOR <- gsub("\\.", "", tabela_doadores$VALOR) | |
tabela_doadores$VALOR <- gsub(",", ".", tabela_doadores$VALOR) | |
tabela_doadores$VALOR <- as.numeric(tabela_doadores$VALOR) | |
View(tabela_doadores) | |
rm(lista_doadores) | |
write.csv(tabela_doadores, file="doadores_bolso_maisquevoto.csv") |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment