Skip to content

Instantly share code, notes, and snippets.

@birongzah
Created April 4, 2024 05:58
Show Gist options
  • Save birongzah/917a93233cfecde2214d41b6632ef251 to your computer and use it in GitHub Desktop.
Save birongzah/917a93233cfecde2214d41b6632ef251 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"id": "c3695bf3",
"metadata": {},
"source": [
"# SOURCE OF DATA\n"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "25ce24c0",
"metadata": {},
"outputs": [],
"source": [
"# Sumber data #1\n",
"\n",
"#Sebuah sumber data adalah lokasi fisik atau digital di mana data berasal dalam berbagai bentuk.\n",
"#Sumber data bisa menjadi tempat di mana data awalnya dibuat dan tempat di mana data ditambahkan, yang terakhir untuk digitalisasi data.\n",
"#Sumber data bisa berupa digital (sebagian besar) atau berbasis kertas.\n",
"#Ideanya adalah memungkinkan pengguna untuk mengakses dan memanfaatkan data dari sumber ini.\n",
"#Sumber data bisa berbentuk berbagai macam, seperti database, file datar, tabel inventaris, penambangan web, data streaming, arsip fisik, dll.\n",
"#Dengan perkembangan Big Data dan teknologi baru, format-format yang berbeda ini terus berkembang, membuat sumber data semakin kompleks.\n",
"#Tantangan bagi organisasi adalah menyederhanakannya sebanyak mungkin.\n",
"\n",
"# Sumber data #2\n",
"#Sebuah sumber data adalah sekadar asal dari data.\n",
"#Ini bisa menjadi sebuah file, database tertentu dalam DBMS, atau bahkan aliran data langsung.\n",
"#Data mungkin terletak pada komputer yang sama dengan program, atau pada komputer lain di suatu jaringan.\n",
"\n",
"# Lainnya\n",
"# Sensor: data mentah untuk data fisik, misalnya suhu, kelembaban, intensitas cahaya, dll.\n",
"# Simulasi: data acak yang mengarah pada makna setelah analisis, misalnya simulasi Monte Carlo.\n",
"\n",
"# Jenis Data\n",
"# Ada dua jenis data: Kualitatif dan Kuantitatif.\n",
"# Mereka lebih lanjut diklasifikasikan ke dalam empat kategori: Data Nominal, Data Ordinal, Data Diskrit, Data Kontinu.\n",
"\n",
"# Data Kualitatif atau Kategorikal\n",
"# Data Kualitatif atau Kategorikal adalah data yang tidak dapat diukur atau dihitung dalam bentuk angka.\n",
"# Jenis data ini diurutkan berdasarkan kategori, bukan berdasarkan angka.\n",
"# Data ini terdiri dari audio, gambar, simbol, atau teks.\n",
"# Jenis kelamin seseorang, yaitu laki-laki, perempuan, atau lainnya, adalah data kualitatif.\n",
"# Data kualitatif memberi informasi tentang persepsi orang.\n",
"\n",
"#Data Nominal\n",
"# Data Nominal digunakan untuk melabeli variabel tanpa urutan atau nilai kuantitatif.\n",
"# Warna rambut dapat dianggap sebagai data nominal, karena satu warna tidak dapat dibandingkan dengan warna lainnya.\n",
"\n",
"#ata Ordinal\n",
"# Data Ordinal memiliki urutan alami di mana angka hadir dalam beberapa jenis urutan berdasarkan posisinya pada skala.\n",
"# Data ini digunakan untuk observasi seperti kepuasan pelanggan, kebahagiaan, dll., tetapi kita tidak dapat melakukan tugas aritmetika padanya.\n",
"# Data ordinal adalah data kualitatif untuk mana nilainya memiliki posisi relatif.\n",
"\n",
"#Data Kuantitatif\n",
"# Data kuantitatif dapat diungkapkan dalam nilai numerik, membuatnya dapat dihitung dan termasuk analisis data statistik.\n",
"# Data ini dapat direpresentasikan dalam berbagai grafik, seperti grafik batang, histogram, diagram pencar, diagram kotak, diagram lingkaran, grafik garis, dll.\n",
"\n",
"#Data Diskrit\n",
"# Data diskrit berisi nilai-nilai yang termasuk dalam bilangan bulat atau bilangan bulat.\n",
"# Jumlah total siswa dalam sebuah kelas adalah contoh data diskrit.\n",
"# Data ini tidak dapat dipecah menjadi nilai desimal atau pecahan.\n",
"\n",
"#Data Continuous\n",
"# Data kontinu berbentuk angka pecahan.\n",
"# Ini bisa versi dari ponsel android, tinggi seseorang, panjang sebuah objek, dll.\n",
"# Data kontinu mewakili informasi yang dapat dibagi menjadi tingkatan lebih kecil.\n",
"# Variabel kontinu dapat mengambil nilai apa pun dalam suatu rentang."
]
},
{
"cell_type": "markdown",
"id": "b07168a6",
"metadata": {},
"source": [
"# Data and Data Something"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "e0916c27",
"metadata": {},
"outputs": [],
"source": [
"#Data and information\n",
"#INPUT ( DATA) > PROCESSING OF DATA > OUTPUT (INFORMATION)\n",
"#Data\n",
"#Data adalah kumpulan fakta atau statistik individual.\n",
"#Data bisa berupa teks, observasi, gambar, angka, grafik, atau simbol.\n",
"#Data merupakan bentuk mentah pengetahuan yang tidak memiliki signifikansi atau tujuan secara mandiri.\n",
"#Data bisa terlihat sederhana dan tampak tidak berguna sampai diolah, diorganisir, dan diinterpretasikan.\n",
"\n",
"#Informasi\n",
"#Informasi adalah pengetahuan yang diperoleh melalui studi, komunikasi, riset, atau instruksi.\n",
"#Secara mendasar, informasi adalah hasil dari menganalisis dan menginterpretasikan potongan data.\n",
"#Sementara data adalah angka, gambar, atau grafik individual, informasi adalah persepsi dari pengetahuan tersebut.\n",
"\n",
"#Perbedaan kunci di antara keduanya\n",
"\n",
"#Data adalah kumpulan fakta, sedangkan informasi memberikan konteks terhadap fakta-fakta tersebut.\n",
"#Sementara data bersifat mentah dan tidak terorganisir, informasi telah diorganisir.\n",
"#Titik data adalah individual dan kadang-kadang tidak terkait. Informasi memetakan data tersebut untuk memberikan gambaran besar tentang bagaimana semuanya saling berhubungan.\n",
"#Data, dengan sendirinya, tidak memiliki makna. Namun, ketika dianalisis dan diinterpretasikan, menjadi informasi yang bermakna.\n",
"#Data tidak tergantung pada informasi; namun, informasi bergantung pada data.\n",
"#Data biasanya disajikan dalam bentuk grafik, angka, gambar, atau statistik, sementara informasi biasanya disajikan melalui kata-kata, bahasa, pemikiran, dan ide.\n",
"#Data tidak cukup untuk pengambilan keputusan.\n",
"\n",
"\n",
"#Data warehouse and data lake\n",
"#Data Warehouse:\n",
"\n",
"#Data warehouse adalah sistem manajemen data yang dirancang untuk mendukung kegiatan business intelligence (BI), terutama analisis.\n",
"#Biasanya berisi jumlah data historis yang besar dari berbagai sumber.\n",
"#Data dalam data warehouse biasanya berasal dari berbagai sumber seperti file log aplikasi dan aplikasi transaksi.\n",
"#Data warehouse mengkonsolidasikan data dari berbagai sumber dan memungkinkan organisasi untuk mendapatkan wawasan bisnis berharga untuk meningkatkan pengambilan keputusan.\n",
"\n",
"#Data Lake:\n",
"#Data lake adalah penyimpanan data yang menyimpan jumlah data mentah dalam format aslinya sampai dibutuhkan untuk aplikasi analitik.\n",
"#Berbeda dengan data warehouse tradisional yang menyimpan data dalam dimensi dan tabel hierarkis, data lake menggunakan arsitektur datar untuk menyimpan data, terutama dalam file atau penyimpanan objek.\n",
"#Metadata menggambarkan data yang disimpan dalam data lake, menyediakan detail seperti sumber data, struktur data, makna data, hubungannya dengan data lain, dan penggunaannya.\n",
"#Hal ini memudahkan pengguna untuk menemukan data relevan dalam jumlah besar data yang disimpan dalam data lake.\n",
"#Tantangan Data Lake:\n",
"\n",
"#Data Swamps: Risiko data lake menjadi kacau dan sulit untuk menemukan data yang diperlukan.\n",
"#Beban Teknologi: Kombinasi teknologi yang tersedia bisa mempersulit implementasi.\n",
"#Biaya Tak Terduga: Biaya teknologi awal mungkin lebih tinggi dari yang diharapkan jika lingkungan data lake tidak dikelola dengan baik.\n",
"#Tata Kelola Data: Perlunya tata kelola data yang efektif untuk mengatasi masalah kualitas data, konsistensi, dan keandalan.\n",
"\n",
"#Data Lakehouse\n",
"\n",
"#Data lakehouse adalah arsitektur data baru yang menggabungkan data warehouse dan data lake menjadi satu kesatuan.\n",
"#Ini memanfaatkan penyimpanan biaya rendah untuk menyimpan volume data besar dalam format mentah seperti data lake, sambil membawa struktur data dan fitur manajemen data serupa dengan data warehouse.\n",
"\n",
"#Masalah yang Dihadapi Arsitektur Data Lake:\n",
"#Kualitas Data yang Tidak Konsisten tanpa Penegakan Skema: Sulit untuk menjaga kualitas data karena data lakes bersifat besar dan tidak terstruktur.\n",
"#Penanganan Data Hari Ini - Gabungan Data Batch dan Streaming: Data lakes perlu bisa menangani baik data batch (historis) maupun streaming (langsung).\n",
"#Biaya Waktu dan Uang: Manajemen data warehouse dan data lake bisa menjadi tantangan teknis.\n",
"\n",
"#Solusi: Delta Lake:\n",
"#Delta Lake adalah salah satu format tabel yang memungkinkan data lakehouses.\n",
"#Ini adalah lapisan manajemen data dan tata kelola sumber terbuka yang ditempatkan di atas data lake.\n",
"#Delta Lake memberikan struktur data warehouse pada data lake sambil tetap memungkinkan berbagai jenis penggunaan yang tipikal untuk data lake.\n",
"\n",
"#DataFrame:\n",
"\n",
"#DataFrame adalah struktur data yang mengorganisir data ke dalam tabel 2 dimensi dengan baris dan kolom, mirip dengan spreadsheet.\n",
"#Ini adalah salah satu struktur data paling umum yang digunakan dalam analisis data modern karena cara penyimpanan dan penggunaannya yang fleksibel dan intuitif.\n",
"#Setiap DataFrame mengandung skema yang mendefinisikan nama dan jenis data setiap kolom.\n",
"\n",
"#Python Pandas DataFrame:\n",
"#Dalam Python Pandas, dataframe adalah struktur data yang dibangun dengan baris dan kolom, mirip dengan basis data atau spreadsheet Excel.\n",
"#Ini terdiri dari kamus dari daftar di mana setiap daftar memiliki identifikasi atau kunci sendiri, seperti \"nama belakang\" atau \"kelompok makanan.\"\n",
"#Dataset:\n",
"\n",
"#Dataset adalah kumpulan data yang terkait dengan topik, tema, atau industri tertentu.\n",
"#Dataset termasuk berbagai jenis informasi, seperti angka, teks, gambar, video, dan audio, dan dapat disimpan dalam berbagai format, seperti CSV, JSON, atau SQL.\n",
"#Biasanya, dataset melibatkan data terstruktur untuk tujuan tertentu dan terkait dengan subjek yang sama.\n",
"\n",
"#Perbedaan antara Dataset dan Basis Data:\n",
"#Sementara dataset adalah kumpulan data, sering dalam bentuk tabular seperti file CSV atau Excel, yang difokuskan pada topik atau analisis tertentu, basis data adalah kumpulan data terstruktur yang disimpan di komputer, biasanya di server, yang menyediakan fungsionalitas yang lebih kompleks untuk penyimpanan, pengelolaan, dan pengambilan data.\n",
"#Basis data dirancang untuk menangani volume data besar dan mendukung akses bersama oleh beberapa pengguna, dengan kemampuan kueri yang kuat melalui bahasa seperti SQL.\n",
"#Dataset biasanya statis, digunakan untuk analisis, dan tidak memfasilitasi manipulasi data real-time atau pemrosesan transaksi kompleks.\n",
"\n",
"#Jenis-jenis Dataset:\n",
"#Berdasarkan jenis data: Numerik, Teks, Multimedia, Time-series, Spatial.\n",
"#Berdasarkan struktur data: Terstruktur, Tidak Terstruktur, Hybrid.\n",
"#Dalam statistik: Numerik, Bivariat, Multivariat, Kategorikal, Korelasi.\n",
"#Dalam pembelajaran mesin: Pelatihan, Validasi, Pengujian.\n",
"\n",
"#Apache Spark:\n",
"\n",
"#Apache Spark adalah sistem pemrosesan terdistribusi sumber terbuka yang digunakan untuk beban kerja big data.\n",
"#Ini memanfaatkan penyimpanan cache di dalam memori dan eksekusi kueri yang dioptimalkan untuk kueri cepat terhadap data dari ukuran apa pun.\n",
"#Singkatnya, Spark adalah mesin cepat dan umum untuk pemrosesan data skala besar.\n",
"\n",
"#Fitur:\n",
"#Pengolahan cepat: Kecepatan adalah fitur paling penting dari Apache Spark yang membuat dunia big data memilih teknologi ini atas yang lain.\n",
"#Fleksibilitas: Spark mendukung beberapa bahasa dan memungkinkan pengembang menulis aplikasi dalam Java, Scala, R, atau Python.\n",
"#Komputasi dalam memori: Spark menyimpan data di dalam RAM server yang memungkinkan akses cepat dan mempercepat kecepatan analisis.\n",
"#Pengolahan real-time: Spark dapat memproses data streaming real-time dan menghasilkan hasil secara instan.\n",
"#Analisis yang lebih baik: Dibandingkan dengan MapReduce, Spark memiliki kumpulan fungsi SQL, algoritma pembelajaran mesin, analisis kompleks, dll.\n",
"\n",
"#APIs:\n",
"#Apache Spark menyediakan tiga API berbeda untuk bekerja dengan big data: RDD, Dataset, DataFrame.\n",
"#Platform Spark menyediakan fungsi untuk beralih antara tiga format data dengan cepat.\n",
"#Setiap API memiliki keuntungan serta kasus penggunaan yang paling menguntungkan.\n",
"\n",
"#Perbedaan antara DataFrame dan Dataset:\n",
"#DataFrame dan dataset dapat menjadi membingungkan untuk jenis-jenis API yang disediakan oleh Apache Spark.\n",
"#Sementara dataframe sudah memiliki definisi umum, untuk dataset masih terkait dengan Apache Spark.\n",
"\n",
"#Sumber Data:\n",
"#Sumber data adalah tempat di mana Anda dapat memperoleh data untuk analisis.\n",
"#Mereka datang dalam berbagai bentuk, seperti set data, API, perangkat lunak, dan penyedia.\n",
"#Kualitas dan keandalan dataset sangat bergantung pada sumber dari mana data tersebut diperoleh.\n",
"#Memahami sumber data penting untuk analisis data.\n",
"\n",
"#Jenis-jenis Data Sumber:\n",
"#Data terstruktur, tidak terstruktur, dan semi-terstruktur.\n",
"#Data terstruktur terorganisir dalam format tabel, seperti basis data relasional.\n",
"#Data tidak terstruktur tidak memiliki struktur tertentu, seperti teks, gambar, dan video.\n",
"#Data semi-terstruktur adalah kombinasi dari kedua jenis di atas, seperti XML, JSON, CSV.\n",
"\n"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.4"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment