Skip to content

Instantly share code, notes, and snippets.

View kienonline19's full-sized avatar
🎯
Focusing

kienonline19

🎯
Focusing
View GitHub Profile
@kienonline19
kienonline19 / main.py
Last active May 17, 2024 13:26
connect to postgresql
import psycopg2
# Database connection parameters
dbname = "dvd_rental"
user = "postgres"
password = "1234"
host = "localhost" # Defaults to localhost if not specified
port = "5432" # Defaults to 5432 if not specified
try:
import psycopg2
import pandas as pd
import time
from sqlalchemy import create_engine
start_time = time.perf_counter()
# Database connection parameters
dbname = "dvd_rental"
user = "postgres"
@kienonline19
kienonline19 / readme.md
Created November 11, 2024 01:28
subqueries

SQL Subqueries - Lý thuyết Căn bản

1. Định nghĩa và Khái niệm

1.1. Định nghĩa

  • Subquery (truy vấn con) là một câu truy vấn SELECT nằm bên trong một câu truy vấn khác
  • Còn được gọi là Inner Query hoặc Nested Query
  • Câu truy vấn chính chứa subquery được gọi là Outer Query

1.2. Cấu trúc cơ bản

@kienonline19
kienonline19 / readme.md
Created November 11, 2024 01:39
sample-database

Database mẫu về hệ thống quản lý bán hàng để bạn có thể thực hành.

-- Tạo database
CREATE DATABASE IF NOT EXISTS sales_management;
USE sales_management;

-- Bảng Danh mục sản phẩm
@kienonline19
kienonline19 / readme.md
Created November 11, 2024 01:41
example

Hướng dẫn SQL Subqueries với Database Quản lý Bán hàng

1. Single-Row Subqueries (Truy vấn con trả về một dòng)

1.1. Tìm sản phẩm có giá cao hơn giá trung bình

SELECT product_name, unit_price
FROM products
WHERE unit_price > (
    SELECT AVG(unit_price)
@kienonline19
kienonline19 / readme.md
Created November 13, 2024 13:43
han-day1-import

Giải thích chi tiết về dòng code from pyspark.sql import SparkSession:

  1. Đây là một câu lệnh import trong Python, được sử dụng để nhập (import) một module/class cụ thể.

  2. Phân tích từng phần:

    • from pyspark.sql: chỉ định đường dẫn đến package/module. Trong đó:

      • pyspark là thư viện chính để làm việc với Apache Spark trong Python
      • sql là một module con trong pyspark, chứa các công cụ để xử lý dữ liệu dạng bảng
    • import SparkSession: SparkSession là một class rất quan trọng, là điểm khởi đầu để làm việc với Spark SQL

@kienonline19
kienonline19 / readme.md
Created November 13, 2024 13:49
han-day1-init-session

Giải thích chi tiết từng phần của câu lệnh khởi tạo SparkSession này:

  1. spark = : Tạo một biến tên "spark" để lưu trữ đối tượng SparkSession

  2. SparkSession.builder:

    • builder là một phương thức để bắt đầu xây dựng cấu hình cho SparkSession
    • Sử dụng mẫu thiết kế Builder để cấu hình linh hoạt
  3. .appName("TelcoChurnAnalysis"):

    • Đặt tên cho ứng dụng Spark là "TelcoChurnAnalysis"
@kienonline19
kienonline19 / readme.md
Created November 14, 2024 10:54
thao-lesson1

Buổi 1: NỀN TẢNG CƠ BẢN (2 giờ)

1. Giới thiệu tổng quan (20 phút)

Cơ sở dữ liệu là gì?

  • Khái niệm database
  • Tại sao cần database
  • Các loại database phổ biến:
    • MySQL
    • PostgreSQL
@kienonline19
kienonline19 / readme.md
Created November 14, 2024 10:57
thao-db

Tại sao cần Database?

1. Vấn đề khi lưu trữ truyền thống

Lưu trữ bằng file

  • Khó quản lý khi dữ liệu lớn
  • Dễ trùng lặp thông tin
  • Khó tìm kiếmcập nhật
  • Mất thời gian khi xử lý nhiều file
  • Không có cấu trúc chuẩn
@kienonline19
kienonline19 / readme.md
Created November 14, 2024 12:46
han-steps

BƯỚC 1: CHUẨN BỊ DỮ LIỆU

  1. Đọc dữ liệu từ file
  2. Loại bỏ 5 cột theo yêu cầu:
    • MonthlyCharges
    • OnlineSecurity
    • StreamingTV
    • InternetService
    • Partner
  3. Chuyển đổi cột Churn từ Yes/No sang 1/0