Skip to content

Instantly share code, notes, and snippets.

View sergiospagnuolo's full-sized avatar
🐕‍🦺

Sérgio Spagnuolo sergiospagnuolo

🐕‍🦺
View GitHub Profile
@sergiospagnuolo
sergiospagnuolo / extrai_csvs.R
Created July 7, 2020 13:58
Baixa arquivos e agrupa dados num mesmo csv sobre compensação de Quarentena a autoridades do Executivo
library(glue)
library(stringr)
library(deflateBR)
library(lubridate)
# 2017 e 2018 usam .CSV com caixa alta
# 2019 e 2019 usam .csv com minúsculas
# Não há dados para março de 2019
url <- "http://repositorio.dados.gov.br/segrt/QUARENTENA_{mes}{ano}.CSV"
@sergiospagnuolo
sergiospagnuolo / notas.md
Last active April 29, 2020 01:33
Buscas no Twitter por minuto

Análise de buscas no Twitter no calor do momento

Este caderno contém funções para que seja possível medir o interesse de buscas no Twitter, com a finalidade de saber de algum assunto está realmente popular na rede social em certo momento. Por conta de limitações na API gratuita do Twitter, recomenda-se a utilização dessa metodologia para saber se um tópico foi popular no último dia ou período do dia.

Um exemplo de como isso foi usado pode ser visto neste tweet

Esta metodologia utiliza as bibliotecas de R Tidyverse e TwitteR para acessar os dados do Twitter.

Você também vai precisar de uma conta de desenvolvedor, a fim de conseguir todas as chaves de API para fazer as buscas (caso não tenha, garanto que é bem fácil).

@sergiospagnuolo
sergiospagnuolo / bid-waze_analise.R
Last active April 15, 2020 15:23
Análise de dados sobre congestionamento fornecidos pelo Banco Interamericano de Desenvolvimento
library(tidyverse)
library(clipr)
# BRASIL - GERAL
# média de distanciamento social
bid %>%
filter(data> '2020-03-15' & region_type == "country" & dia_semana != "domingo") %>%
summarise(media = mean((ratio_20 - 1) * 100), mediana = median((ratio_20 - 1) * 100))
# distanciamento social por dia da semana
@sergiospagnuolo
sergiospagnuolo / analises.R
Last active March 2, 2020 20:01
Extrai e analisa dados sobre Bolsa Família de 2004 a 2019
library(tidyverse)
library(scales)
library(clipr)
library(ggthemes)
# total de famílias recipientes, por mes
benf_mes_pessoas <- total %>%
drop_na() %>%
filter(data > "2011-01-01") %>%
group_by(data) %>%
@sergiospagnuolo
sergiospagnuolo / readme.md
Last active February 17, 2020 13:31
Códigos para extração de dados da API do Portal da Transparência e também raspa descrições do site (que não constam na API)
@sergiospagnuolo
sergiospagnuolo / beneficios.R
Last active January 31, 2020 20:45
Itera entre diversos anos para buscar resultados sobre benefícios pagos pelo governo federal
library(tidyverse)
library(jsonlite)
library(lubridate)
library(deflateBR)
library(scales)
# contexto: http://www.agricultura.gov.br/noticias/decreto-permite-pagamento-do-seguro-defeso-aos-pescadores-afetados-pelo-oleo
# http://www.portaltransparencia.gov.br/beneficios/consulta
url1 <- "http://www.portaltransparencia.gov.br/beneficios/consulta/resultado?paginacaoSimples=false&tamanhoPagina=250000&offset=0&direcaoOrdenacao=desc&colunaOrdenacao=mesAno&de="
url2 <- "&colunasSelecionadas=linkDetalhamento%2ClinguagemCidada%2CmesAno%2Cuf%2Cmunicipio%2Cvalor&_=1574703194664"
library(tidyverse)
# Distribuição de contribuintes previdenciários
# ref http://dados.gov.br/dataset/estatisticas-contrib-pessoas-fisicas-por-uf/resource/6b498c82-dbd9-42b4-8a7e-d04967c6cff1
# manual das colunas http://www.previdencia.gov.br/dados-abertos/aeps-2007-anuario-estatistico-da-previdencia-social-2007/anuario-estatistico-da-previdencia-social-2007-contribuintes-da-previdencia-social/
d <- read.csv("CTB21.csv", header = T, fileEncoding = "ISO-8859-1", dec = ",")
ufs_abrev <- c("Acre", "Alagoas", "Amazonas", "Amapá", "Bahia", "Ceará", "Distrito Federal", "Espírito Santo", "Goiás", "Maranhão", "Mato Grosso", "Mato Grosso do Sul", "Minas Gerais", "Pará", "Paraíba", "Paraná", "Pernambuco", "Piauí", "Rio de Janeiro", "Rio Grande do Norte", "Rondônia", "Rio Grande do Sul", "Roraima", "Santa Catarina", "Sergipe", "São Paulo", "Tocantins")
ufs_siglas <- c("AC", "AL", "AM", "AP", "BA", "CE", "DF", "ES", "GO", "MA", "MT", "MS", "MG", "PA", "PB", "PR", "PE", "PI", "RJ", "RN", "RO", "RS", "RR", "SC", "SE", "S
@sergiospagnuolo
sergiospagnuolo / cnpq_bolsas.R
Last active January 30, 2020 13:33
análises de bolsas CNPQ
# dados podem ser obtidos em: http://memoria.cnpq.br/painel-de-investimentos
library(tidyverse)
library(deflateBR)
library(lubridate)
d <- read.csv("cnpq_investimentos.csv", header = T)
d$Ano.Referência <- gsub("206", "2006", d$Ano.Referência)
d$ano <- as.Date(d$Ano.Referência, origin="2002-09-11", format = "%Y")
library(tidyverse)
library(cepespR)
library(httr)
library(jsonlite)
library(knitr)
codmun <- read.csv("http://cepespdata.io/static/docs/cod_municipios.csv", header = T, sep = ";")
codmun <- codmun %>% filter(ANO_ELEICAO == 2016)
# do CEPESP: retorna apenas prefeitos eleitos em 2016
@sergiospagnuolo
sergiospagnuolo / bolsas_capes.r
Last active November 25, 2019 17:26
Script para análise de concessões de bolsas Capes desde 2000 até último dado disponível
library(readxl)
library(tidyverse)
# Distribuição de Bolsas de Pós-graduação no Brasil
# ref https://geocapes.capes.gov.br/geocapes/
url <- "https://geocapes.capes.gov.br/geocapes/rest/fotoDados/indicador/1/false/download?[]"
download.file(url, basename(url))
d <- read_excel("download?[]")