Skip to content

Instantly share code, notes, and snippets.

@LIQRGV
Created November 19, 2019 11:54
Show Gist options
  • Save LIQRGV/2eab0c72cf9b8dc21d68bce1e7d5f3e2 to your computer and use it in GitHub Desktop.
Save LIQRGV/2eab0c72cf9b8dc21d68bce1e7d5f3e2 to your computer and use it in GitHub Desktop.
Outline Presentasi SHA 21-11-2019
Perjalanan data di dalam rombongan data yang besar
Intro:
- Datum
- Data not datas
Pertemuan pertama:
- Data engineer
- Transformasi data:
-- Dimension table, sumbernya dari OLTP. Data ini akan di-update secara berkala ke OLAP melalui ETL.
--- Airflow
--- Pentaho Kettle
-- Fact table. Mengambil data dari berbagai tempat, ekstraksi event yang ber-relasi dengan dimension.
--- RabbitMQ untuk stream, sisanya terserah gimana prosesnya
--- Apache beam
--- Google dataflow
-- Kenapa fact table dan dimension berbeda perlakuannya?
--- Kecepatan dan Volume
--- Varietas
Sumber (Septian Hari Ex-Data Engineer PT. KMK 2015-2018)
Aku sudah lebih bermakna:
- Data Analyst
- Analisa data
-- Data cleansing. Biasanya Python atau R. Pake yang lain juga bisa sih.
-- Menyimpulkan dan melakukan kompilasi report dari hasil data cleansing.
Walaupun simpulan dan hasil kompilasi sangat kasar, setidaknya C-level senang bacanya.
Misal: "Pengguna kita naik 200% dari bulan kemarin" lebih enak didengar dibanding "Pengguna kita bertambah 2 orang dari bulan kemarin" .
Silahkan baca buku "How to Lie with Statistics" jika mau menyenangkan C-level dengan statement yang senada dengan kalimat di atas.
-- Membuat dashboard untuk reporting
--- In-house reporting (buat sendiri)
--- Pentaho data visualization
--- Tableau
Menggali lebih dalam:
- Data Scientist
- Melihat pola data
-- Dimensi kecil:
--- Data visualization. Python atau R. Bisa pake C++ (Qt) kalo masochist
--- Interpretasi data hasil visualisasi.
--- K-fold cross validation
--- Deploy untuk real data
-- Dimensi besar:
--- Supervised learning
---- Labeling
---- Metode
----- Regresi (fungsi matematika sederhana), digunakan untuk hasil yang saklek / pasti. Misal, user A pasti adalah kelompok 1.
----- Bayes (probabilitas), digunakan untuk hasil yang memiliki peluang lain. Misal, user A 70% ada di kelompok 1, 20% di kelompok 3, dan sisanya ada di tempat lain.
----- Decision tree (Rule-based), digunakan dengan beberapa set kondisi yang akan menentukan hasil akhir.
----- Dan banyak lagi
--- Unsupervised learning
---- Gak perlu labeling
---- Metode
----- DBSCAN membuat cluster tanpa tau ada berapa jumlah kluster di awal pemodelan. Misalnya, kita ingin tau ada berapa kluster pengguna terhadap jumlah tontonan dan jumlah tema yang ditonton. Dengan begitu kita bisa mendapatkan info seberapa luas variasi tontonan user.
----- K-means mirip dengan DBSCAN tapi jumlah kluster ditentukan. Info lebih lanjut, belajar sendiri
----- Local outlier factor (LOF) untuk mencari outlier. Bisa digunakan untuk menemukan buzzer di social media, misalnya user yang tidak banyak aktivitasnya, namun aktif melakukan komentar.
----- Dan banyak lagi
-- Next level:
--- Neural Network
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment