Skip to content

Instantly share code, notes, and snippets.

@yunisangadji
Last active April 5, 2024 16:21
Show Gist options
  • Save yunisangadji/7c42be7566154b7005d47f27ab3b01f2 to your computer and use it in GitHub Desktop.
Save yunisangadji/7c42be7566154b7005d47f27ab3b01f2 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "code",
"execution_count": null,
"id": "f1a8acfe",
"metadata": {},
"outputs": [],
"source": [
"Yulia Valonia\n",
"21181298\n",
"\n",
"\n",
"- Data Source\n",
"Sumber data adalah lokasi fisik atau digital tempat asal data dalam berbagai bentuk, dapat berupa tempat asal data dibuat maupun tempat ditambahkannya, yang terakhir untuk digitalisasi data. Sumber data dapat mengambil bentuk yang berbeda, seperti database, file datar, tabel inventaris, web scraping, data streaming, arsip fisik, dll. Dengan perkembangan Big Data dan teknologi baru, berbagai format ini terus berkembang, membuat sumber data menjadi semakin kompleks.\n",
"\n",
"- Data Type\n",
"Data hadir dalam dua bentuk utama:\n",
"Kualitatif (deskriptif): Menjelaskan sesuatu dan tidak mudah diukur dengan angka (warna favorit, jenis kelamin)\n",
"Kuantitatif (numerik): Diwakili oleh angka dan dapat digunakan untuk perhitungan (berat, suhu)\n",
"\n",
"Ada subtipe berbeda dalam setiap kategori untuk mengklasifikasikan data Anda lebih lanjut:\n",
"Nominal : Label tanpa urutan (warna rambut, golongan darah)\n",
"Ordinal: Peringkat data dengan posisi (kepuasan pelanggan, nilai huruf)\n",
"Diskrit: Bilangan bulat yang dapat Anda hitung (jumlah siswa, hari dalam seminggu)\n",
"Berkelanjutan: Data terukur dengan desimal (tinggi, berat, suhu)\n",
"\n",
"- Data Governance\n",
"Salah satu tujuan data lake adalah untuk menyimpan data mentah apa adanya untuk berbagai penggunaan analitik. Namun tanpa tata kelola data lake yang efektif, organisasi mungkin akan menghadapi masalah kualitas, konsistensi, dan keandalan data.\n",
"\n",
"- Lakehouse\n",
"Data lakehouse, seperti namanya, adalah arsitektur data baru yang menggabungkan gudang data dan data lake menjadi satu kesatuan, dengan tujuan mengatasi keterbatasan masing-masing data. Singkatnya, sistem lakehouse memanfaatkan penyimpanan berbiaya rendah untuk menyimpan data dalam jumlah besar dalam format mentah seperti halnya data lake. Hal ini memungkinkan tim yang berbeda menggunakan satu sistem untuk mengakses semua data perusahaan untuk berbagai proyek, termasuk ilmu data, pembelajaran mesin, dan intelijen bisnis. Ia menggunakan format tabel data lake sumber terbuka, yang memungkinkannya bekerja dengan fitur gudang data, seperti struktur data standar dan kemampuan manajemen data.\n",
"\n",
"- Data Kualitatif atau Kategoris\n",
"• Data Kualitatif atau Kategoris adalah data yang tidak dapat diukur atau dihitung dalam bentuk angka.\n",
"• Jenis data ini diurutkan berdasarkan kategori, bukan berdasarkan nomor.\n",
"• Data ini terdiri dari audio, gambar, simbol, atau teks.\n",
"• Jenis kelamin seseorang, baik laki-laki, perempuan, atau lainnya, merupakan data kualitatif.\n",
"• Data kualitatif menceritakan tentang persepsi masyarakat.\n",
"\n",
"- Data nominal\n",
"• Data Nominal digunakan untuk memberi label pada variabel tanpa urutan atau nilai kuantitatif apa pun.\n",
"• Warna rambut dapat dianggap sebagai data nominal, karena satu warna tidak dapat dibandingkan dengan warna lainnya.\n",
"\n",
"- Data biasa\n",
"• Data ordinal mempunyai urutan alami dimana suatu bilangan disajikan dalam urutan tertentu berdasarkan posisinya pada skala.\n",
"• Data ini digunakan untuk observasi seperti kepuasan pelanggan, kebahagiaan, dll., namun kami tidak dapat melakukan tugas aritmatika apa pun terhadap data tersebut.\n",
"• Data ordinal adalah data kualitatif yang nilainya mempunyai posisi relatif.\n",
"\n",
"- Data kuantitatif\n",
"• Data kuantitatif dapat dinyatakan dalam nilai numerik, sehingga dapat dihitung dan mencakup analisis data statistik.\n",
"• Data ini dapat direpresentasikan dalam berbagai macam grafik dan bagan, seperti grafik batang, histogram, plot sebar, plot kotak, diagram lingkaran, grafik garis, dll.\n",
"\n",
"- Data diskrit\n",
"• Data diskrit berisi nilai-nilai yang termasuk dalam bilangan bulat atau bilangan bulat.\n",
"• Jumlah siswa dalam suatu kelas merupakan contoh data diskrit.\n",
"• Data ini tidak dapat dipecah menjadi nilai desimal atau pecahan.\n",
"\n",
"- Data berkelanjutan\n",
"• Data kontinyu berbentuk bilangan pecahan.\n",
"• Bisa berupa versi ponsel android, tinggi badan seseorang, panjang suatu benda, dll.\n",
"• Data berkelanjutan mewakili informasi yang dapat dibagi ke dalam tingkatan yang lebih kecil.\n",
"• Variabel kontinu dapat mengambil nilai apa pun dalam suatu rentang.\n",
"\n",
"- Contoh sumber data\n",
"• Data kesehatan masyarakat digunakan untuk memantau penyebaran penyakit dan memprediksi ancaman di masa depan.\n",
"• Sebagian besar bisnis menggunakan Google Analytics untuk melacak lalu lintas situs web dan perilaku pengguna.\n",
"• LinkedIn menyediakan data tentang perilaku pengguna, tren pasar kerja, dan koneksi profesional.\n",
"\n",
"- Jenis dan format\n",
"• Sumber data dapat dikategorikan berdasarkan struktur data yang mereka sediakan.\n",
"• Ada tiga jenis utama sumber data: terstruktur, tidak terstruktur, dan semi-terstruktur.\n",
"\n",
"- Data Terstruktur\n",
"• Data terstruktur merujuk pada data dengan struktur tertentu, biasanya disusun dalam format tabel, di mana basis data relasional adalah sumber data terstruktur yang umum, karena mereka berisi tabel yang terdiri dari kolom dan baris.\n",
"• SQL adalah bahasa pemrograman yang digunakan untuk mengelola dan memanipulasi data terstruktur.\n",
"• Data terstruktur banyak digunakan dalam industri keuangan, perawatan kesehatan, dan ritel.\n",
"\n",
"- Data Tak Terstruktur\n",
"• Data tak terstruktur merujuk pada data yang tidak memiliki struktur tertentu, sehingga lebih sulit untuk dianalisis.\n",
"• Contoh data tak terstruktur meliputi teks, gambar, dan video, di mana beberapa contoh adalah basis data pemerintah, artikel berita, dan media sosial.\n",
"• Pembelajaran mesin sering digunakan untuk menganalisis data tak terstruktur karena ML dapat menggunakan algoritma untuk mengidentifikasi pola dan hubungan.\n",
"\n",
"- Format Data Semi-Terstruktur\n",
"• Data semi-terstruktur adalah kombinasi dari data terstruktur dan tak terstruktur.\n",
"• Data ini memiliki beberapa struktur tetapi juga fleksibel, memungkinkan untuk perubahan sesuai kebutuhan.\n",
"• Contoh beberapa format data semi-terstruktur yang populer adalah XML, JSON, CSV.\n",
"\n",
"Pertanyaan\n",
"\n",
"Apa itu ETL (ekstrak, transformasi, muat) antara data terstruktur dan gudang data? Jelaskan secara singkat.\n",
"• Mengapa ekstrak dan muat (EL) dipisahkan dari transformasi (T)?\n",
" data mentah → EL → danau data\n",
" danau data → T → pengguna akhir\n",
"• Apa itu data batch dan data streaming? Apa perbedaan antara kedua data tersebut?\n",
"• Ada juga ELT. Apa alasan menggunakan ELT daripada ETL?\n",
"• Jelaskan tentang sensor sebagai sumber data!\n",
"\n",
"Jawaban\n",
"\n",
"ETL (Ekstrak, Transformasi, Muat) adalah proses yang digunakan untuk mentransfer data dari sumber eksternal ke dalam gudang data. Ekstraksi melibatkan pengambilan data mentah dari sumber, transformasi melibatkan manipulasi dan pengolahan data agar sesuai dengan kebutuhan, sedangkan muatan melibatkan penyimpanan data yang sudah diproses ke dalam gudang data.\n",
"\n",
"• Ekstrak dan Muat (EL) dipisahkan dari Transformasi (T) untuk memisahkan proses pengambilan data dari proses pemrosesan dan transformasi data. Dengan memisahkan ini, Anda dapat mengelola ketergantungan antara pengambilan data dan transformasi data dengan lebih efisien.\n",
"\n",
"• Data batch adalah data yang diproses secara berkelompok, diambil dari sumber dan diproses dalam interval waktu tertentu. Data streaming, di sisi lain, adalah data yang diproses secara kontinu saat datang, tanpa harus menunggu sampai seluruh batch data tersedia. Perbedaan utama antara keduanya adalah dalam cara mereka diproses: batch secara periodik, sementara streaming secara real-time.\n",
"\n",
"• ELT (Ekstrak, Muat, Transformasi) adalah pendekatan di mana data diambil dari sumber, dimuat ke dalam gudang data, dan kemudian diolah dan ditransformasi di dalam gudang data itu sendiri. Alasan untuk menggunakan ELT daripada ETL mungkin termasuk kemampuan gudang data modern untuk menangani dan memproses data dalam jumlah besar, serta fleksibilitas untuk melakukan transformasi data yang kompleks secara langsung di dalam gudang data.\n",
"\n",
"• Sensor adalah perangkat elektronik yang digunakan untuk mendeteksi dan mengukur perubahan dalam lingkungan fisik atau perilaku. Sebagai sumber data, sensor dapat menghasilkan data yang beragam, seperti suhu, kelembaban, tekanan, atau gerakan, yang kemudian dapat dimanfaatkan untuk berbagai aplikasi, seperti pemantauan lingkungan, pengawasan keamanan, atau analisis kinerja mesin."
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.5"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment