Skip to content

Instantly share code, notes, and snippets.

View sergiospagnuolo's full-sized avatar
🐕‍🦺

Sérgio Spagnuolo sergiospagnuolo

🐕‍🦺
View GitHub Profile
@sergiospagnuolo
sergiospagnuolo / funcao_robots.R
Created October 29, 2024 16:09
Identifica presença de parâmetros de agentes de IA em arquivos robots.txt
library(httr)
library(stringr)
# Agentes de AI, mapeados do nytimes.com/robots.txt
ai_keywords <- c(
"GPTBot", "ChatGPT-User", "PerplexityBot", "Amazonbot", "ClaudeBot",
"Omgilibot", "FacebookBot", "Applebot", "Applebot-Extended", "anthropic-ai", "Bytespider",
"Claude-Web", "YouBot", "CCBot", "Google-Extended", "Quora-Bot", "Meta-ExternalAgent"
)
@sergiospagnuolo
sergiospagnuolo / data.R
Created October 9, 2024 16:25
starlink - apreensões - ibama
library(tidyverse)
library(readr)
#### OS DADOS PODEM SER ENCONTRADOS NO LINK
#### https://dadosabertos.ibama.gov.br/dataset/fiscalizacao-termo-de-apreensao
d <- read_delim("termo_apreensao.csv", delim = ";")
c <- read_delim("bem_apreendido.csv", delim = ";")
d <- d %>% select(SEQ_TAD, DAT_TAD, DES_TAD, NOM_MUNICIPIO, SIG_UF, NUM_LONGITUDE_TAD, NUM_LATITUDE_TAD)
suppressMessages(library(odbc))
suppressMessages(library(DBI))
suppressMessages(library(RPostgreSQL))
suppressMessages(library(tidyverse))
suppressMessages(library(tidytext))
suppressMessages(library(wordcloud2))
suppressMessages(library(lubridate))
library(config)
library(ngram)
library(tidyverse)
library(lubridate)
library(clipr)
ptbr <- read.csv("dados_pt.csv", header = T)
ptbr$lang <- "português"
eng <- read.csv("dados_eng.csv", header = T)
eng$lang <- "inglês"
@sergiospagnuolo
sergiospagnuolo / query.csv
Last active May 8, 2022 14:35
análise de seguidores no Twitter - variação
screen_name semana med var_semana
cirogomes 2021-11-29 1289939.42857143 0.21663569941901
cirogomes 2021-12-06 1292566.57142857 0.203664048012886
cirogomes 2021-12-13 1295949 0.261683123035605
cirogomes 2021-12-20 1298984.42857143 0.23422438471179
cirogomes 2021-12-27 1301667.71428571 0.20656796611771
cirogomes 2022-01-03 1304274.71428571 0.200281528948465
cirogomes 2022-01-10 1307455.28571429 0.243857478316079
cirogomes 2022-01-17 1310957.42857143 0.26785947446224
cirogomes 2022-01-24 1316434.71428571 0.417808053481528
@sergiospagnuolo
sergiospagnuolo / readme.md
Last active November 25, 2021 22:00
Script para tirar série história de BOs do Estado de SP (fonte: SSPSP)

Script para tirar série história de BOs do Estado de SP (fonte: SSPSP)

Evite fazer muitos requests em pouco tempo para não ter seu IP bloqueado nem abusar do servidor alheio

Pacote desenvolvido por Fernando Corrêa (azeloc), publicado no GitHub da Associação Brasileira de Jurimetria (abjur).

| Crime | Trigger |

@sergiospagnuolo
sergiospagnuolo / analise_popularidade.R
Last active July 1, 2021 20:46
Código para captura de busca de tuítes
library(lubridate)
library(scales)
library(tidyverse)
# regulariza o formato da data do tweet, corrige para fuso certo
d$created_at <- as.POSIXct(strptime(d$created_at, "%Y-%m-%d %H:%M:%S"))
d$created_at <- d$created_at - hours(3)
d$dia <- as.POSIXct(strptime(d$created_at, "%Y-%m-%d"))
# cria coluna com minuto arredondado
@sergiospagnuolo
sergiospagnuolo / coronavirus_rubrica_dados.R
Created April 13, 2020 14:49
pega dados do Portal da Transparência sobre coronavírus
library(tidyverse)
library(jsonlite)
library(lubridate)
library(deflateBR)
library(scales)
library(clipr)
# contexto: http://www.portaltransparencia.gov.br/comunicados/603503-portal-da-transparencia-divulga-gastos-federais-especificos-para-combate-ao-coronavirus
url <- "http://www.portaltransparencia.gov.br/despesas/consulta/resultado?paginacaoSimples=true&tamanhoPagina=500&offset=0&direcaoOrdenacao=desc&colunaOrdenacao=mesAno&de=01%2F01%2F2020&ate=30%2F04%2F2020&acao=00S4%2C21C2%2C21C0&colunasSelecionadas=linkDetalhamento%2CmesAno%2CorgaoSuperior%2CorgaoVinculado%2CunidadeGestora%2Cfuncao%2CsubFuncao%2Cprograma%2Cacao%2CprogramaGoverno%2CgrupoDespesa%2CelementoDespesa%2CmodalidadeDespesa%2CvalorDespesaEmpenhada%2CvalorDespesaLiquidada%2CvalorDespesaPaga%2CvalorRestoPago&_=1586706855177"
@sergiospagnuolo
sergiospagnuolo / blogs_atlas.R
Created February 4, 2021 17:00
análise rápida sob blogs e pequenos veículos no Atlas da Notícia
library(tidyverse)
library(newsatlasbr)
library(clipr)
atlas_signin(email = "dados@voltdata.info", password = "senhatokenaberto")
dados <- newsatlasbr::organizations_state(uf = "all")
desertos <- newsatlasbr::news_deserts()
@sergiospagnuolo
sergiospagnuolo / emplacamentos.R
Created January 12, 2021 15:13
Emplacamentos de veículos no Brasil
library(tidyverse)
emplacamentos <- read_delim("https://docs.google.com/spreadsheets/d/e/2PACX-1vRY5Wc7j9qAEbStZioZBGEQB_o4S_eyJnVca8oP7gGTafvg8ZwDdZWYkzAx_455KOs3Q9uZQ9qSFIZ3/pub?gid=0&single=true&output=csv", delim = ",", locale = locale(grouping_mark = "."))
emplacamentos$Ano <- as.Date(paste0(emplacamentos$Ano, "-01-01"))
marcas <- read_delim("https://docs.google.com/spreadsheets/d/e/2PACX-1vRY5Wc7j9qAEbStZioZBGEQB_o4S_eyJnVca8oP7gGTafvg8ZwDdZWYkzAx_455KOs3Q9uZQ9qSFIZ3/pub?gid=794101571&single=true&output=csv", delim = ",", locale = locale(grouping_mark = "."))
marcas$Ano <- as.Date(paste0(marcas$Ano, "-01-01"))