LIQRGV/outline.txt

## outline.txt
Perjalanan data di dalam rombongan data yang besar

Intro:
- Datum
- Data not datas

Pertemuan pertama:
- Data engineer
- Transformasi data:
-- Dimension table, sumbernya dari OLTP. Data ini akan di-update secara berkala ke OLAP melalui ETL.
--- Airflow
--- Pentaho Kettle
-- Fact table. Mengambil data dari berbagai tempat, ekstraksi event yang ber-relasi dengan dimension.
--- RabbitMQ untuk stream, sisanya terserah gimana prosesnya
--- Apache beam
--- Google dataflow
-- Kenapa fact table dan dimension berbeda perlakuannya?
--- Kecepatan dan Volume
--- Varietas

Sumber (Septian Hari Ex-Data Engineer PT. KMK 2015-2018)

Aku sudah lebih bermakna:
- Data Analyst
- Analisa data
-- Data cleansing. Biasanya Python atau R. Pake yang lain juga bisa sih.
-- Menyimpulkan dan melakukan kompilasi report dari hasil data cleansing.
Walaupun simpulan dan hasil kompilasi sangat kasar, setidaknya C-level senang bacanya.
Misal: "Pengguna kita naik 200% dari bulan kemarin" lebih enak didengar dibanding "Pengguna kita bertambah 2 orang dari bulan kemarin" .
Silahkan baca buku "How to Lie with Statistics" jika mau menyenangkan C-level dengan statement yang senada dengan kalimat di atas.
-- Membuat dashboard untuk reporting
--- In-house reporting (buat sendiri)
--- Pentaho data visualization
--- Tableau

Menggali lebih dalam:
- Data Scientist
- Melihat pola data

-- Dimensi kecil:
--- Data visualization. Python atau R. Bisa pake C++ (Qt) kalo masochist
--- Interpretasi data hasil visualisasi.
--- K-fold cross validation
--- Deploy untuk real data

-- Dimensi besar:
--- Supervised learning
---- Labeling
---- Metode
----- Regresi (fungsi matematika sederhana), digunakan untuk hasil yang saklek / pasti. Misal, user A pasti adalah kelompok 1.
----- Bayes (probabilitas), digunakan untuk hasil yang memiliki peluang lain.  Misal, user A 70% ada di kelompok 1, 20% di kelompok 3, dan sisanya ada di tempat lain.
----- Decision tree (Rule-based), digunakan dengan beberapa set kondisi yang akan menentukan hasil akhir.
----- Dan banyak lagi

--- Unsupervised learning
---- Gak perlu labeling
---- Metode
----- DBSCAN membuat cluster tanpa tau ada berapa jumlah kluster di awal pemodelan. Misalnya, kita ingin tau ada berapa kluster pengguna terhadap jumlah tontonan dan jumlah tema yang ditonton. Dengan begitu kita bisa mendapatkan info seberapa luas variasi tontonan user.
----- K-means mirip dengan DBSCAN tapi jumlah kluster ditentukan. Info lebih lanjut, belajar sendiri
----- Local outlier factor (LOF) untuk mencari outlier. Bisa digunakan untuk menemukan buzzer di social media, misalnya user yang tidak banyak aktivitasnya, namun aktif melakukan komentar.
----- Dan banyak lagi

-- Next level:
--- Neural Network
	Perjalanan data di dalam rombongan data yang besar

	Intro:
	- Datum
	- Data not datas

	Pertemuan pertama:
	- Data engineer
	- Transformasi data:
	-- Dimension table, sumbernya dari OLTP. Data ini akan di-update secara berkala ke OLAP melalui ETL.
	--- Airflow
	--- Pentaho Kettle
	-- Fact table. Mengambil data dari berbagai tempat, ekstraksi event yang ber-relasi dengan dimension.
	--- RabbitMQ untuk stream, sisanya terserah gimana prosesnya
	--- Apache beam
	--- Google dataflow
	-- Kenapa fact table dan dimension berbeda perlakuannya?
	--- Kecepatan dan Volume
	--- Varietas

	Sumber (Septian Hari Ex-Data Engineer PT. KMK 2015-2018)

	Aku sudah lebih bermakna:
	- Data Analyst
	- Analisa data
	-- Data cleansing. Biasanya Python atau R. Pake yang lain juga bisa sih.
	-- Menyimpulkan dan melakukan kompilasi report dari hasil data cleansing.
	Walaupun simpulan dan hasil kompilasi sangat kasar, setidaknya C-level senang bacanya.
	Misal: "Pengguna kita naik 200% dari bulan kemarin" lebih enak didengar dibanding "Pengguna kita bertambah 2 orang dari bulan kemarin" .
	Silahkan baca buku "How to Lie with Statistics" jika mau menyenangkan C-level dengan statement yang senada dengan kalimat di atas.
	-- Membuat dashboard untuk reporting
	--- In-house reporting (buat sendiri)
	--- Pentaho data visualization
	--- Tableau

	Menggali lebih dalam:
	- Data Scientist
	- Melihat pola data

	-- Dimensi kecil:
	--- Data visualization. Python atau R. Bisa pake C++ (Qt) kalo masochist
	--- Interpretasi data hasil visualisasi.
	--- K-fold cross validation
	--- Deploy untuk real data

	-- Dimensi besar:
	--- Supervised learning
	---- Labeling
	---- Metode
	----- Regresi (fungsi matematika sederhana), digunakan untuk hasil yang saklek / pasti. Misal, user A pasti adalah kelompok 1.
	----- Bayes (probabilitas), digunakan untuk hasil yang memiliki peluang lain. Misal, user A 70% ada di kelompok 1, 20% di kelompok 3, dan sisanya ada di tempat lain.
	----- Decision tree (Rule-based), digunakan dengan beberapa set kondisi yang akan menentukan hasil akhir.
	----- Dan banyak lagi

	--- Unsupervised learning
	---- Gak perlu labeling
	---- Metode
	----- DBSCAN membuat cluster tanpa tau ada berapa jumlah kluster di awal pemodelan. Misalnya, kita ingin tau ada berapa kluster pengguna terhadap jumlah tontonan dan jumlah tema yang ditonton. Dengan begitu kita bisa mendapatkan info seberapa luas variasi tontonan user.
	----- K-means mirip dengan DBSCAN tapi jumlah kluster ditentukan. Info lebih lanjut, belajar sendiri
	----- Local outlier factor (LOF) untuk mencari outlier. Bisa digunakan untuk menemukan buzzer di social media, misalnya user yang tidak banyak aktivitasnya, namun aktif melakukan komentar.
	----- Dan banyak lagi

	-- Next level:
	--- Neural Network