Skip to content

Instantly share code, notes, and snippets.

View sergiospagnuolo's full-sized avatar
🐕‍🦺

Sérgio Spagnuolo sergiospagnuolo

🐕‍🦺
View GitHub Profile
@sergiospagnuolo
sergiospagnuolo / funcao_robots.R
Created October 29, 2024 16:09
Identifica presença de parâmetros de agentes de IA em arquivos robots.txt
library(httr)
library(stringr)
# Agentes de AI, mapeados do nytimes.com/robots.txt
ai_keywords <- c(
"GPTBot", "ChatGPT-User", "PerplexityBot", "Amazonbot", "ClaudeBot",
"Omgilibot", "FacebookBot", "Applebot", "Applebot-Extended", "anthropic-ai", "Bytespider",
"Claude-Web", "YouBot", "CCBot", "Google-Extended", "Quora-Bot", "Meta-ExternalAgent"
)
@sergiospagnuolo
sergiospagnuolo / data.R
Created October 9, 2024 16:25
starlink - apreensões - ibama
library(tidyverse)
library(readr)
#### OS DADOS PODEM SER ENCONTRADOS NO LINK
#### https://dadosabertos.ibama.gov.br/dataset/fiscalizacao-termo-de-apreensao
d <- read_delim("termo_apreensao.csv", delim = ";")
c <- read_delim("bem_apreendido.csv", delim = ";")
d <- d %>% select(SEQ_TAD, DAT_TAD, DES_TAD, NOM_MUNICIPIO, SIG_UF, NUM_LONGITUDE_TAD, NUM_LATITUDE_TAD)
suppressMessages(library(odbc))
suppressMessages(library(DBI))
suppressMessages(library(RPostgreSQL))
suppressMessages(library(tidyverse))
suppressMessages(library(tidytext))
suppressMessages(library(wordcloud2))
suppressMessages(library(lubridate))
library(config)
library(ngram)
library(tidyverse)
library(lubridate)
library(clipr)
ptbr <- read.csv("dados_pt.csv", header = T)
ptbr$lang <- "português"
eng <- read.csv("dados_eng.csv", header = T)
eng$lang <- "inglês"
@sergiospagnuolo
sergiospagnuolo / query.csv
Last active May 8, 2022 14:35
análise de seguidores no Twitter - variação
screen_name semana med var_semana
cirogomes 2021-11-29 1289939.42857143 0.21663569941901
cirogomes 2021-12-06 1292566.57142857 0.203664048012886
cirogomes 2021-12-13 1295949 0.261683123035605
cirogomes 2021-12-20 1298984.42857143 0.23422438471179
cirogomes 2021-12-27 1301667.71428571 0.20656796611771
cirogomes 2022-01-03 1304274.71428571 0.200281528948465
cirogomes 2022-01-10 1307455.28571429 0.243857478316079
cirogomes 2022-01-17 1310957.42857143 0.26785947446224
cirogomes 2022-01-24 1316434.71428571 0.417808053481528
@sergiospagnuolo
sergiospagnuolo / blogs_atlas.R
Created February 4, 2021 17:00
análise rápida sob blogs e pequenos veículos no Atlas da Notícia
library(tidyverse)
library(newsatlasbr)
library(clipr)
atlas_signin(email = "dados@voltdata.info", password = "senhatokenaberto")
dados <- newsatlasbr::organizations_state(uf = "all")
desertos <- newsatlasbr::news_deserts()
@sergiospagnuolo
sergiospagnuolo / emplacamentos.R
Created January 12, 2021 15:13
Emplacamentos de veículos no Brasil
library(tidyverse)
emplacamentos <- read_delim("https://docs.google.com/spreadsheets/d/e/2PACX-1vRY5Wc7j9qAEbStZioZBGEQB_o4S_eyJnVca8oP7gGTafvg8ZwDdZWYkzAx_455KOs3Q9uZQ9qSFIZ3/pub?gid=0&single=true&output=csv", delim = ",", locale = locale(grouping_mark = "."))
emplacamentos$Ano <- as.Date(paste0(emplacamentos$Ano, "-01-01"))
marcas <- read_delim("https://docs.google.com/spreadsheets/d/e/2PACX-1vRY5Wc7j9qAEbStZioZBGEQB_o4S_eyJnVca8oP7gGTafvg8ZwDdZWYkzAx_455KOs3Q9uZQ9qSFIZ3/pub?gid=794101571&single=true&output=csv", delim = ",", locale = locale(grouping_mark = "."))
marcas$Ano <- as.Date(paste0(marcas$Ano, "-01-01"))
@sergiospagnuolo
sergiospagnuolo / atlas_connect.py
Created October 23, 2020 16:52
Acessando API do Atlas da Notícia via Python
# -*- coding: utf-8
# Abraji (https://www.abraji.org.br)
# Reinaldo Chaves (reinaldo@abraji.org.br)
# Programa acessar a API do Atlas da Notícia (https://www.atlas.jor.br/)
# É necessário antes se cadastrar, veja como aqui: https://www.atlas.jor.br/plataforma/utilizarAPI/
import requests
import pandas as pd
# Link da requisição principal
@sergiospagnuolo
sergiospagnuolo / extrai_csvs.R
Created July 7, 2020 13:58
Baixa arquivos e agrupa dados num mesmo csv sobre compensação de Quarentena a autoridades do Executivo
library(glue)
library(stringr)
library(deflateBR)
library(lubridate)
# 2017 e 2018 usam .CSV com caixa alta
# 2019 e 2019 usam .csv com minúsculas
# Não há dados para março de 2019
url <- "http://repositorio.dados.gov.br/segrt/QUARENTENA_{mes}{ano}.CSV"
@sergiospagnuolo
sergiospagnuolo / coronavirus_rubrica_dados.R
Created April 13, 2020 14:49
pega dados do Portal da Transparência sobre coronavírus
library(tidyverse)
library(jsonlite)
library(lubridate)
library(deflateBR)
library(scales)
library(clipr)
# contexto: http://www.portaltransparencia.gov.br/comunicados/603503-portal-da-transparencia-divulga-gastos-federais-especificos-para-combate-ao-coronavirus
url <- "http://www.portaltransparencia.gov.br/despesas/consulta/resultado?paginacaoSimples=true&tamanhoPagina=500&offset=0&direcaoOrdenacao=desc&colunaOrdenacao=mesAno&de=01%2F01%2F2020&ate=30%2F04%2F2020&acao=00S4%2C21C2%2C21C0&colunasSelecionadas=linkDetalhamento%2CmesAno%2CorgaoSuperior%2CorgaoVinculado%2CunidadeGestora%2Cfuncao%2CsubFuncao%2Cprograma%2Cacao%2CprogramaGoverno%2CgrupoDespesa%2CelementoDespesa%2CmodalidadeDespesa%2CvalorDespesaEmpenhada%2CvalorDespesaLiquidada%2CvalorDespesaPaga%2CvalorRestoPago&_=1586706855177"