Skip to content

Instantly share code, notes, and snippets.

@charlesmana
Created April 4, 2024 06:51
Show Gist options
  • Save charlesmana/7d91c75a48f76779f5cb1ac2777efdf2 to your computer and use it in GitHub Desktop.
Save charlesmana/7d91c75a48f76779f5cb1ac2777efdf2 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"id": "e7cd2cd8",
"metadata": {},
"source": [
"# DATA AND SOURCE OF DATA"
]
},
{
"cell_type": "markdown",
"id": "0ca1342e",
"metadata": {},
"source": [
"# Data dan Informasi"
]
},
{
"cell_type": "markdown",
"id": "4fed5121",
"metadata": {},
"source": [
"#data merupakan kumpulan fakta atau informasi yang bisa berupa angka, teks, gambar, suara, dan lain sebagainya. sedangkan informasi adalah data yang sudah diolah dan memiliki makna."
]
},
{
"cell_type": "markdown",
"id": "2fc66a93",
"metadata": {},
"source": [
"# Dataset dan Database"
]
},
{
"cell_type": "markdown",
"id": "acb6376a",
"metadata": {},
"source": [
"#data adalah hasil pengamatan atau pengukuran yang disajikan dalam bentuk teks, angka, atau multimedia.\n",
"\n",
"#dataset adalah kumpulan data tersrtuktur yang artinya data tersebut diatur dalam format tertentu, seperti tabel atau file, dan berisi informasi dari berbagai sumber.\n",
"\n",
"#tipe tipe data set\n",
"1. berdasarkan tipe \n",
"- numerical datasets\n",
"- text datasets\n",
"- multimedia datasets\n",
"- spatial datasets\n",
"2. berdasarkan struktur data\n",
"- structured datasets\n",
"- unstructured datasets\n",
"- hyberid datasets\n",
"3. berdasarkan statistik\n",
"- numerical datasets\n",
"- bivariate datsets\n",
"- multivariate datasets\n",
"- categorical datasets\n",
"- correlation datasets\n",
"4. berdasarkan machine learning\n",
"- datasets of training ML\n",
"- datasets of validation \n",
"- datasets for testing\n",
"#database adalah kumpulan data terstruktur yang disimpan secara elektronik dan dikelola menggunakan sistem manajemen basis data."
]
},
{
"cell_type": "markdown",
"id": "24de36ea",
"metadata": {},
"source": [
"# Data warehouse dan Data lake"
]
},
{
"cell_type": "markdown",
"id": "6d0419eb",
"metadata": {},
"source": [
"#data warehouse adalah gudang penyimpanan data yang khusus dirancang untuk analisa dan pelaporan. berbeda dengan database biasa, data warehouse berisi kumpulan data historis terintegrasi dari berbagai sumber yang sudah diproses dan disiapkan untuk keperluan analisa.\n",
"#data lake adalah penyimpanan data terpusat yang dirancang untuk menyimpan sejumlah besar data dalam format aslinya. berbeda dengan warehouse yang fokus pada data terstruktur untuk analisa, data lake bisa menampung segala macam data."
]
},
{
"cell_type": "markdown",
"id": "19c58a59",
"metadata": {},
"source": [
"#metadata in data lake adalah informasi yang menjelaskan isi dari data lake itu sendiri. metadata merupakan kunci untuk membuka potensi data lake. dengan metadata yang baik, pengguna bisa menemukan, memahami, dan memanfaatkan data secara efektif, sehingga data lake bisa memberikan nilai tambahan yang signifikan bagi organisasi."
]
},
{
"cell_type": "markdown",
"id": "1afdcf6a",
"metadata": {},
"source": [
"# Data Lakehouse"
]
},
{
"cell_type": "markdown",
"id": "07e46be0",
"metadata": {},
"source": [
"#data lakehouse adalah arsitektur pengelolaan data yang modern, yang menggabungkan konsep data lake dan data warehouse. dengan kata lain, data lakehouse menawarkan fleksibiltas penyimpanan data lake dengan kemudahan analisa seperti pada data warehouse. data lakehouse berusaha mengatasi keterbatasan dari kedua pendekatan tersebut."
]
},
{
"cell_type": "markdown",
"id": "afdf971b",
"metadata": {},
"source": [
"# Data Frame"
]
},
{
"cell_type": "markdown",
"id": "5dd0b88b",
"metadata": {},
"source": [
"#data frame merupakan struktur data berbentuk tabel yang lazim digunakan dalam bidan analisa data. mirip seperti spreassheet, data frame terdiri dari; baris dan kolom.\n",
"#keunggulan dari data frame adalah kemampuannya untuk menyimpan berbagai macam tipe data dalam kolom yang berbeda. seperti, satu kolom berisi nama pelanggan(teks), sementara kolom lain berisi umur pelanggan(angka), dan kolom lainnya lagi berisi kode pos(angka)."
]
},
{
"cell_type": "markdown",
"id": "e097adb5",
"metadata": {},
"source": [
"# Not so related : apache spark"
]
},
{
"cell_type": "markdown",
"id": "db654d20",
"metadata": {},
"source": [
"#apache spark adalah alat yang bisa digunakan untuk memproses dateset berukuran besar, tetapi spark tida bisa mendefinisikan tipa data.\n",
"#komponen dalam apache spark core\n",
"1. spark SQL\n",
"2. spark streaming\n",
"3. MLlib (Machine Learning)\n",
"4. graphX(graph)\n",
"#fitur\n",
"1. fast processing\n",
"2. fleksibel\n",
"3. in-memory computing\n",
"4. realtime processing\n",
"5. better analytics\n",
"#komponen penting dari api spark\n",
"1. sparkRDD\n",
"2. spark dataset\n",
"3. spark dataframe\n"
]
},
{
"cell_type": "markdown",
"id": "61de36d3",
"metadata": {},
"source": [
"# Data Source"
]
},
{
"cell_type": "markdown",
"id": "b641dbf5",
"metadata": {},
"source": [
"#data source adalah lokasi awal atau titik origin dimana data bersal atau disimpan\n",
"#tipe data source\n",
"1. sumber data terstruktur, menyediakan data yang terorganisir dengan baik, biasanya dalam format tabel dengan baris dan kolom. contonya database relasional dan spreadsheet,\n",
"2. sumber data tidak terstruktur, menyediakan data yang tidak memiliki struktur formal. contohnya adalah email, dokumen teks, gambar, video, dan media sosial.\n",
"3. sumber data semi terstruktur, menyediakan data yang memiliki struktur sebagian, tetapi tidak serapih data terstruktur. contohnya adalah file json,xml, dan log web server."
]
},
{
"cell_type": "markdown",
"id": "ae66545e",
"metadata": {},
"source": [
"# QUESTION"
]
},
{
"cell_type": "markdown",
"id": "46133da4",
"metadata": {},
"source": [
"1. ekstrak, transformasi, load(ETL) adalah proses fundmental untuk memindahkan data dari berbagai sumber terstruktur ke dalam gudang data. ETL memastikan data tersebut siap untuk dianalisis dengan cara membersihkan, mengorganisir, dan memformatnya. berikut rincian dari ketiga tahap tersebut.\n",
"- ekstrak, data diambil dari sistem sumber aslinya. sumber-sumber ini bisa berupa basis data, spreadsheet, sistem CRM, atau platform lain yang menyimpan data terstruktur. proses ekstraksi dapat melibatkan pemilihan kumpulan data tertentu, penyaringan informasi yang tidak relevan, atau bahkan penyalinan seluruh tabel.\n",
"- transformasi, Data yang diekstrak mungkin tidak dalam format yang dapat digunakan untuk gudang data. Selama transformasi, data dibersihkan, distandarisasi, dan dikonversi menjadi format yang konsisten. Ini mungkin melibatkan: pembersihan, standrisasi, dan menghasilkan data baru.\n",
"- load(muat), data yang telah ditransformasi dimuatkan ke dalam gudang data target. Ini melibatkan pengorganisasian data ke dalam tabel dan memastikan integritasnya. Proses pemuatan harus efisien untuk meminimalkan downtime dan menjaga konsistensi data."
]
},
{
"cell_type": "markdown",
"id": "113d9c44",
"metadata": {},
"source": [
"2. Ada beberapa alasan mengapa Ekstrak (E) dan Muat (L) biasanya dipisahkan dari Transformasi (T) dalam proses ETL, meskipun mungkin terlihat lebih efisien untuk langsung memproses data mentah menjadi format yang dapat digunakan (EL) untuk data lake lalu kemudian diubah (T) untuk pengguna akhir. Memisahkan tahap-tahap tersebut menawarkan keuntungan:\n",
"- Meningkatkan Toleransi Kesalahan: Jika langkah transformasi gagal, ini tidak akan memengaruhi seluruh pipeline. Anda dapat mengisolasi dan memperbaiki masalah tanpa memengaruhi data yang diekstrak. Ini penting untuk memastikan ketersediaan data dan mencegah penundaan.\n",
"- Fleksibilitas dan Kegunaan Kembali: Memisahkan ekstraksi dan pemuatan memungkinkan penskalaan dan modifikasi secara independen. Anda dapat menyesuaikan sumber daya untuk setiap tahap berdasarkan kebutuhan spesifiknya. Data yang diekstrak juga dapat digunakan kembali untuk transformasi yang berbeda, untuk memenuhi berbagai tujuan analitis.\n",
"- Tata Kelola dan Keamanan Data: Menjaga data mentah terpisah dari data yang ditransformasikan di data lake memberikan kontrol yang lebih baik atas akses dan keamanan. Anda dapat membatasi akses ke data sensitif selama transformasi sambil mengizinkan akses yang lebih luas ke data yang telah dibersihkan di data lake untuk keperluan eksplorasi.\n",
"- Desain Modular dan Pemeliharaan: Memecah proses menjadi tahap-tahap yang berbeda membuatnya lebih mudah dipahami, dipelihara, dan dipecahkan masalahnya. Pengembang dapat fokus pada tugas tertentu tanpa terjebak dalam kompleksitas seluruh pipeline.\n",
"\n",
"#Meskipun data lake mungkin menampung data mentah, itu tidak selalu menggantikan langkah transformasi (T). Data lake berfungsi sebagai penyimpanan pusat untuk data mentah, yang kemudian dapat diubah menjadi berbagai format untuk berbagai kebutuhan analitis.Pada intinya, pemisahan Ekstrak, Transformasi, dan Muat memastikan pipeline data yang lebih kuat, aman, dan dapat beradaptasi untuk menangani volume data yang besar dalam lanskap data kompleks saat ini."
]
},
{
"cell_type": "markdown",
"id": "57ff389d",
"metadata": {},
"source": [
"3. Batch dan streaming data adalah dua pendekatan berbeda untuk menangani data. Keduanya memiliki kelebihan dan kekurangan tersendiri, tergantung pada kebutuhan Anda.\n",
"#### Batch Data (Data Batch)\n",
"- Konsep: Data batch melibatkan pemrosesan kumpulan data yang besar secara keseluruhan pada interval tertentu. Pikirkan seperti memproses faktur mingguan atau laporan bulanan. Data dikumpulkan dan disimpan selama periode tertentu, lalu diproses nanti.\n",
"- Karakteristik:Ukuran data: Biasanya besar (volume tinggi). Waktu pemrosesan: Terjadwal, terjadi secara berkala (misalnya, harian, mingguan, bulanan).\n",
"- Cocok untuk: Analisa historis: Menganalisis tren dan pola jangka panjang dalam data. Pelaporan: Membuat laporan berkala seperti laporan keuangan atau laporan penjualan. Pemrosesan tugas berat: Melakukan perhitungan kompleks pada kumpulan data yang besar.\n",
"#### Streaming Data (Data Streaming)\n",
"- Konsep: Streaming data berfokus pada pemrosesan data secara terus menerus saat data tersebut diterima. Bayangkan aliran data real-time dari sensor, umpan media sosial, atau transaksi keuangan. Data dianalisis segera setelah diterima, memungkinkan reaksi seketika terhadap perubahan.\n",
"- Karakteristik: Ukuran data: Biasanya lebih kecil, berupa aliran data terus menerus. Waktu pemrosesan: Real-time atau mendekati real-time.\n",
"- cocok untuk: \n",
"Pemantauan sistem: Mendeteksi masalah atau anomali secara real-time pada sistem atau infrastruktur.\n",
"Deteksi penipuan: Mencegah transaksi penipuan secara real-time.\n",
"Personalisasi: Menyediakan konten atau rekomendasi yang dipersonalisasi secara real-time kepada pengguna."
]
},
{
"cell_type": "markdown",
"id": "2070892f",
"metadata": {},
"source": [
"# SOURCE OF DATA"
]
},
{
"cell_type": "markdown",
"id": "f8653b48",
"metadata": {},
"source": [
"#TYPE OF DATA\n",
"1. kualitatif\n",
"- nominal data\n",
"- ordinal data\n",
"2. kuantitatif\n",
"- data diskrit\n",
"- data continous"
]
},
{
"cell_type": "markdown",
"id": "5bd609e0",
"metadata": {},
"source": [
"#kualitatif mendeskripsikan karakteristik atau kualitas sesuatu dan tidak dapat dengan mudah direpresentasikan dengan angka. ciri- ciri data kualitatif yaitu tidak dapat diukur dengan angka secara langsung, seringkali berupa teks, gambar, dan audio, memberikan wawasan mendalam tentang perilaku, motivasi, dan pengalaman.\n",
"- nominal, data nominal mewakili kategori yang diberi nama tanpa urutan atau hierarki yang inheren. contoh jenis kelamin pelanggan (laki-laki, perempuan), jenis produk (kemeja, celana, sepatu), jawaban survey (ya, tidak, mungkin).\n",
"- ordinal, data ordinal mewakili kategori dengan urutan atau peringkat tertentu. ini menunjukan perkembangan tetapi interval antara kategori mungkin tidak sama. contoh peringkat kepuasan(sangat puas, puas, netral, tidak puas, sangat tidak puas), peringkat film(1-5 bintang), tingkat pendidikan(sma, sarjana, magister)"
]
},
{
"cell_type": "markdown",
"id": "b8592343",
"metadata": {},
"source": [
"#kuantitatif adalah data yang diwakili oleh angka dan dapat dioperasikan secara matematis.data ini dapat dikategorikan menajadi dua jenis utama: \n",
"- discrete data (data diskrit), terdiri dari nilai-nilai yan terpisah dan terhitung, dimana nilai-nilai tersebut tidak dapat mengambil nilai diantara. contoh jumlah siswa dikelas(10, 15, 20), jumlah cacat produk dalam batch(3, 5, 1), jumlah pengunjung website per hari(200, 534, 872).\n",
"- continuous data, mewakili nilai yang dapat mengambil nilai apapun dalam rentang tertentu. contoh tinggi badan(155cm, 168cm, 172cm), berat badan produk(500gr, 725gr, 900gr), suhu ruangan(22C, 25C, 28C).\n",
"\n",
"#Mengetahui jenis data dalam sumber Anda sangat penting untuk memilih metode analisis yang tepat. Data diskrit sering dianalisis menggunakan statistik deskriptif seperti mean, median, dan modus. Data kontinu dapat dianalisis menggunakan statistik deskriptif dan metode statistik inferensial seperti uji t-student"
]
},
{
"cell_type": "markdown",
"id": "1522a380",
"metadata": {},
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.4"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment