Skip to content

Instantly share code, notes, and snippets.

View coffeeandtips-tech's full-sized avatar

Coffee and Tips - Tech Tutorials coffeeandtips-tech

View GitHub Profile
category avg(price) avg(rating)
beauty 12.45 4.2
smartphones 489.99 4.5
laptops 999.99 4.4
from airflow import DAG
from airflow.operators.python import PythonOperator
from datetime import datetime
from pyspark.sql import SparkSession
import requests
import pandas as pd
# ------------------------------
# Função que executa o ETL em Spark
# ------------------------------
category avg(price) avg(rating)
beauty 12.45 4.2
smartphones 489.99 4.5
laptops 999.99 4.4
@coffeeandtips-tech
coffeeandtips-tech / ETL_WITH_SPARK.py
Created September 24, 2025 01:06
ETL_WITH_SPARK
from pyspark.sql import SparkSession
import requests
import pandas as pd
# 1. Cria a sessão Spark
spark = SparkSession.builder \
.appName("ETL_Produtos_DummyJSON") \
.getOrCreate()
# =======================
@coffeeandtips-tech
coffeeandtips-tech / dag_produtos.py
Created September 13, 2025 17:47
dag_produtos.py
# ============================================================
# DAG: pipeline_produtos (ETL com DummyJSON → SQLite)
# Objetivo: demonstrar, de forma simples, a orquestração
# de um pipeline ETL no Airflow (Extrair → Transformar → Carregar)
# ============================================================
# Importa a classe DAG e o operador de função Python do Airflow
from airflow import DAG
from airflow.operators.python import PythonOperator
Features R Python
Best for Statistics ⚠️
Machine Learning ⚠️
Ease of Use ⚠️
Data Visualization ⚠️
Big Data Performance ⚠️
import requests
from bs4 import BeautifulSoup
# URL que vamos acessar
url = "http://books.toscrape.com/"
# Requisição HTTP
response = requests.get(url)
# Verifica se deu tudo certo
import pandas as pd
import requests
# Início Extração
# Criando a Extração dos Dados
response = requests.get("https://jsonplaceholder.typicode.com/posts")
data = response.json()
# Usando Pandas para processar um volume maior de Dados
df = pd.DataFrame(data)
Característica R Python
Melhor para Estatística ⚠️
Machine Learning ⚠️
Facilidade de uso ⚠️
Visualização de dados ⚠️
Performance em Big Data ⚠️