Skip to content

Instantly share code, notes, and snippets.

@bahrudinz
Created April 14, 2024 17:21
Show Gist options
  • Save bahrudinz/86f2e69c97901fde48477782f096fe29 to your computer and use it in GitHub Desktop.
Save bahrudinz/86f2e69c97901fde48477782f096fe29 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"id": "9d40d40b",
"metadata": {},
"source": [
"# ISSUES 8 MUDZAFAR AZZAM 21181177"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "e820a4f2",
"metadata": {},
"outputs": [],
"source": [
"##DATA\n",
"#Data adalah kumpulan fakta atau statistik individual yang dapat berupa teks, observasi, angka, gambar, grafik, atau simbol. Data merupakan bentuk mentah dari pengetahuan dan pada dirinya sendiri tidak memiliki makna atau tujuan. Meskipun terlihat sederhana dan tidak berguna, data dapat menjadi bernilai setelah dianalisis, diorganisir, dan diinterpretasikan. Sumber data dapat berasal dari berbagai sumber yang berbeda. Data menjadi informasi yang bermakna setelah diolah dan diinterpretasikan."
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "a71b10b4",
"metadata": {},
"outputs": [],
"source": [
"##DATASET\n",
"#Dataset adalah kumpulan data yang terstruktur yang biasanya terkait dengan satu kesatuan pekerjaan atau topik tertentu. Dataset dapat berisi berbagai jenis informasi seperti angka, teks, gambar, video, dan audio, serta dapat disimpan dalam berbagai format seperti CSV, JSON, atau SQL. Dataset biasanya berisi data terstruktur untuk tujuan tertentu dan terkait dengan subjek yang sama."
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "6c1d51a9",
"metadata": {},
"outputs": [],
"source": [
"##DATA FRAME\n",
"#DataFrame adalah struktur data tabular dua dimensi yang digunakan dalam pemrograman dan analisis data. DataFrame mirip dengan tabel database atau spreadsheet, di mana data disimpan dalam baris dan kolom. DataFrame biasanya digunakan dalam bahasa pemrograman seperti Python (pandas), R, dan Spark untuk memanipulasi dan menganalisis data dengan mudah. DataFrame memungkinkan pengguna untuk melakukan berbagai operasi seperti filtering, sorting, grouping, dan joining data dengan efisien. Terdapat beberapa jenis dataset berdasarkan tipe data yang terdapat di dalamnya:\n",
"#Numerical Datasets: Berisi nilai numerik untuk analisis kuantitatif. Text Datasets: Mengandung teks seperti pesan, dokumen, dan konten teks lainnya. Multimedia Datasets: Berisi gambar, video, dan audio untuk aplikasi multimedia. Time-Series Datasets: Data dikumpulkan secara berurutan untuk analisis tren dan pola. Spatial Datasets: Berisi informasi geografis seperti data GPS untuk analisis spasial.\n",
"#Terdapat tiga jenis dataset berdasarkan struktur data: Structured Datasets: Data terorganisir dalam struktur tertentu untuk memudahkan kueri dan analisis. Unstructured Datasets: Data tanpa skema yang terdefinisi dengan baik, mencakup berbagai jenis data. Hybrid Datasets: Kombinasi data terstruktur dan tak terstruktur dalam satu dataset.\n",
"#Dalam statistik, terdapat beberapa jenis dataset yang umum digunakan: Numerical Datasets: Dataset numerik hanya terdiri dari nilai numerik. Bivariate Datasets: Dataset bivariat melibatkan dua variabel data. Multivariate Datasets: Dataset multivariat melibatkan tiga atau lebih variabel data. Categorical Datasets: Dataset kategorikal terdiri dari variabel kategori dengan nilai terbatas. Correlation Datasets: Dataset korelasi berisi variabel data yang saling berhubungan."
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "d67ebda8",
"metadata": {},
"outputs": [],
"source": [
"##APACHE SPARK\n",
"#Apache Spark adalah sistem pemrosesan terdistribusi sumber terbuka yang digunakan untuk beban kerja big data. Apache Spark menggunakan teknik caching in-memory dan eksekusi kueri yang dioptimalkan untuk kueri cepat terhadap data dalam skala apa pun. Secara sederhana, Spark adalah mesin cepat dan umum untuk pemrosesan data dalam skala besar.\n",
"#Beberapa fitur kunci dari Apache Spark meliputi: Pemrosesan Cepat: Apache Spark dikenal karena kecepatannya dalam pemrosesan data, yang membuatnya dipilih oleh banyak organisasi untuk beban kerja big data Fleksibilitas: Apache Spark mendukung beberapa bahasa pemrograman seperti Java, Scala, R, dan Python, memberikan fleksibilitas kepada pengembang dalam menulis aplikasi. Pemrosesan In-Memory: Spark menyimpan data di RAM server, memungkinkan akses cepat dan mempercepat kecepatan analisis."
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "a0c65732",
"metadata": {},
"outputs": [],
"source": [
"##DATA WAREHOUSE\n",
"#Data Warehouse adalah repositori sentral untuk data terstruktur yang telah diolah dari berbagai sumber untuk analisis bisnis, sementara Data Lake adalah penyimpanan data yang memungkinkan penyimpanan data mentah dan terstruktur serta data tidak terstruktur dalam volume besar. Data Warehouse cocok untuk analisis bisnis yang membutuhkan data terstruktur dan terintegrasi, sedangkan Data Lake cocok untuk menyimpan data mentah dalam volume besar tanpa pemodelan data sebelumnya."
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "cd8740cd",
"metadata": {},
"outputs": [],
"source": [
"##DATABASE\n",
"#Database adalah kumpulan data yang terorganisir yang disimpan sebagai beberapa dataset, di mana dataset tersebut biasanya disimpan dan diakses secara elektronik dari sistem komputer yang memungkinkan data tersebut mudah diakses, dimanipulasi, dan diperbarui. Database dapat berupa jenis relasional, dokumen, atau tipe key-value.\n",
"#Ada enam skema populer yang sering digunakan dalam desain basis data, yaitu:\n",
"\n",
"#Flat Model: Model terbaik untuk aplikasi kecil dan sederhana. Data disimpan dalam satu tabel dengan semua informasi yang diperlukan.\n",
"#Hierarchical Model: Cocok untuk data bersarang seperti XML atau JSON. Data disusun dalam struktur pohon dengan satu entitas induk yang memiliki beberapa entitas anak.\n",
"#Network Model: Berguna untuk pemetaan dan data spasial, serta untuk menggambarkan alur kerja. Data disimpan dalam struktur yang kompleks dengan hubungan yang kompleks antara entitas.\n",
"#Relational Model: Mencerminkan aplikasi Pemrograman Berorientasi Objek dengan baik. Data disimpan dalam tabel terkait dengan kunci asing dan kunci primer.\n",
"#Star Model: Digunakan untuk menganalisis dataset besar yang bersifat satu dimensi. Terdiri dari tabel fakta di tengah yang terhubung dengan tabel dimensi.\n",
"#Snowflake Model: Digunakan untuk menganalisis dataset besar dan kompleks. Mirip dengan model bintang tetapi tabel dimensi dibagi menjadi tabel yang lebih kecil untuk mengurangi redundansi dan meningkatkan normalisasi."
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "3ea3c6a1",
"metadata": {},
"outputs": [],
"source": [
"##DATA SOURCE\n",
"#Data source merujuk pada tempat-tempat di mana data dapat diperoleh untuk analisis. Sumber data dapat berupa berbagai bentuk, seperti kumpulan data, API, perangkat lunak, dan penyedia data. Kualitas dan keandalan dataset sangat bergantung pada sumber dari mana data tersebut diperoleh. Memahami sumber data merupakan hal yang penting dalam analisis data, karena dapat memengaruhi hasil akhir dari proses analisis data.\n",
"#Contoh-contoh sumber data meliputi:\n",
"#Data Kesehatan Publik: Digunakan untuk memantau penyebaran penyakit dan memprediksi ancaman di masa depan.\n",
"#Google Analytics: Digunakan oleh sebagian besar bisnis untuk melacak lalu lintas situs web dan perilaku pengguna.\n",
"#LinkedIn: Menyediakan data tentang perilaku pengguna, tren pasar kerja, dan koneksi profesional.\n",
"\n",
"#Data source dapat dikategorikan berdasarkan struktur data yang mereka sediakan. Terdapat tiga jenis utama sumber data:\n",
"#Structured Data: Merujuk pada data dengan struktur tertentu, sering kali diorganisir dalam format tabel, seperti yang ditemukan dalam basis data relasional.\n",
"#Unstructured Data: Merupakan data yang tidak memiliki struktur yang terorganisir dengan baik, seperti teks bebas, gambar, atau video.\n",
"#Semi-Structured Data: Merupakan data yang memiliki struktur yang terdefinisi secara longgar, seperti data dalam format JSON atau XML.\n",
"\n",
"#Terdapat dua jenis data utama, yaitu data Kualitatif dan data Kuantitatif. Data Kualitatif adalah data yang tidak dapat diukur atau dihitung dalam bentuk angka. Data ini disortir berdasarkan kategori, bukan berdasarkan angka, dan termasuk audio, gambar, simbol, atau teks. Sedangkan data Kuantitatif dapat diekspresikan dalam nilai numerik, membuatnya dapat dihitung dan termasuk dalam analisis data statistik. Data ini dapat direpresentasikan dalam berbagai grafik dan chart, seperti bar grafik, histogram, scatter plot, dan lainnya. Selain itu, data tersebut dapat dikelompokkan lebih lanjut menjadi data Nominal, data Ordinal, data Diskrit, dan data Kontinu. Data Nominal digunakan untuk memberi label pada variabel tanpa urutan atau nilai kuantitatif, sementara data Ordinal memiliki urutan alami dengan nilai yang berada dalam beberapa jenis urutan berdasarkan posisi mereka di skala. Data Diskrit berisi nilai yang termasuk dalam bilangan bulat atau angka bulat, sedangkan data Kontinu berbentuk angka pecahan dan dapat dibagi menjadi level-level yang lebih kecil."
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "9c83f7d8",
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.4"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment