Skip to content

Instantly share code, notes, and snippets.

@AKS4R4
Created May 15, 2024 00:57
Show Gist options
  • Save AKS4R4/22589925d6eb970fdf9788a1bbc10b00 to your computer and use it in GitHub Desktop.
Save AKS4R4/22589925d6eb970fdf9788a1bbc10b00 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"id": "4b55693a",
"metadata": {},
"source": [
"# Summary Assignment 8"
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "0bcc5b63",
"metadata": {},
"outputs": [],
"source": [
"# Data\n",
"#• Istilah data didefinisikan sebagai kumpulan fakta atau statistik individual (bentuk tunggal: datum).\n",
"#• Data dapat berupa teks, observasi, angka, gambar, grafik, atau simbol.\n",
"#• Data adalah bentuk mentah dari pengetahuan dan, pada dirinya sendiri, tidak membawa makna atau tujuan apa pun.\n",
"#• Data bisa sederhana—dan bahkan tampak tidak berguna sampai diolah, diorganisir, dan diinterpretasikan.\n"
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "ed00aca3",
"metadata": {},
"outputs": [],
"source": [
"#Informasi\n",
"#• Istilah informasi didefinisikan sebagai pengetahuan yang diperoleh melalui studi, komunikasi, riset, atau instruksi.\n",
"#• Pada dasarnya, informasi adalah hasil dari menganalisis dan menginterpretasi potongan-potongan data.\n",
"#• Sedangkan data adalah angka, bilangan, atau grafik individu, informasi adalah persepsi dari potongan-potongan pengetahuan tersebut.\n"
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "317e47ae",
"metadata": {},
"outputs": [],
"source": [
"#Perbedaan kunci di antara keduanya:\n",
"# Data adalah kumpulan fakta, sedangkan informasi menempatkan fakta-fakta tersebut ke dalam konteks.\n",
"# Sementara data bersifat mentah dan tidak terorganisir, informasi terorganisir.\n",
"# Titik-titik data adalah individual dan terkadang tidak terkait. Informasi memetakan data tersebut untuk memberikan pandangan menyeluruh tentang bagaimana semuanya saling terkait.\n",
"# Data, dalam keadaan itu sendiri, tidak memiliki makna. Ketika data tersebut dianalisis dan diinterpretasikan, ia menjadi informasi yang bermakna.\n",
"# Data tidak bergantung pada informasi; namun, informasi tergantung pada data.\n",
"# Data biasanya dalam bentuk grafik, angka, gambar, atau statistik, sedangkan informasi biasanya disampaikan melalui kata-kata, bahasa, pemikiran, dan gagasan.\n",
"# Data tidak mencukupi untuk pengambilan keputusan, tetapi Anda dapat membuat keputusan berdasarkan informasi.\n"
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "0d659b01",
"metadata": {},
"outputs": [],
"source": [
"# Data, dataset, database\n",
"# Data adalah pengamatan atau pengukuran (belum diolah atau sudah diolah) yang direpresentasikan dalam bentuk teks, angka, atau multimedia.\n",
"# Sebuah kumpulan data adalah koleksi data terstruktur yang umumnya terkait dengan satu karya unik.\n",
"# Sebuah basis data adalah koleksi data yang terorganisir disimpan sebagai beberapa kumpulan data, di mana kumpulan data tersebut umumnya disimpan dan diakses secara elektronik dari sistem komputer yang memungkinkan data tersebut mudah diakses, dimanipulasi, dan diperbarui.\n"
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "b69c6619",
"metadata": {},
"outputs": [],
"source": [
"# dataset, data, database\n",
"# Sebuah kumpulan data adalah koleksi data yang terstruktur yang disusun dan disimpan bersama untuk analisis atau pemrosesan, yang dapat mencakup banyak jenis data berbeda, mulai dari nilai numerik hingga teks, gambar, atau rekaman audio.\n",
"# Data dalam sebuah kumpulan data biasanya dapat diakses secara individu, dalam kombinasi, atau dikelola sebagai keseluruhan.\n",
"# Sebuah basis data (tipe relasional, dokumen, atau nilai kunci) adalah kumpulan data yang terorganisir disimpan sebagai beberapa kumpulan data.\n"
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "caccccbe",
"metadata": {},
"outputs": [],
"source": [
"# Beberapa kasus penggunaan untuk 6 skema populer\n",
"\n",
"# Model datar: Model terbaik untuk aplikasi kecil dan sederhana.\n",
"# Model hierarkis: Untuk data bersarang, seperti XML atau JSON.\n",
"# Model jaringan: Berguna untuk pemetaan dan data spasial, juga untuk menggambarkan alur kerja.\n",
"# Model relasional: Paling baik mencerminkan aplikasi Pemrograman Berorientasi Objek.\n",
"# Model bintang: Untuk menganalisis kumpulan data besar yang satu dimensi.\n",
"# Model salju: Untuk menganalisis kumpulan data besar dan kompleks.\n"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "6033b4bb",
"metadata": {},
"outputs": [],
"source": [
"# Dataset dan database\n",
"\n",
"# Sebuah dataset adalah kumpulan data yang terkait sering dalam format tabel atau lembar kerja, digunakan terutama untuk analisis.\n",
"# Sementara itu, database adalah sistem terstruktur untuk menyimpan, mengelola, dan mengambil data, sering digunakan dalam aplikasi dan sistem perangkat lunak.\n"
]
},
{
"cell_type": "code",
"execution_count": 13,
"id": "04c86c34",
"metadata": {},
"outputs": [],
"source": [
"# Gudang Data\n",
"\n",
"# Gudang data adalah jenis sistem manajemen data yang dirancang untuk memungkinkan dan mendukung kegiatan bisnis intelegensi (BI), terutama analitik.\n",
"# Gudang data ditujukan semata-mata untuk melakukan kueri dan analisis dan seringkali berisi jumlah data historis yang besar.\n",
"# Data dalam gudang data biasanya berasal dari berbagai sumber seperti file log aplikasi dan aplikasi transaksi.\n",
"# Sebuah gudang data memusatkan dan mengkonsolidasikan sejumlah besar data dari berbagai sumber.\n",
"# Kemampuan analitisnya memungkinkan organisasi untuk mendapatkan wawasan bisnis berharga dari data mereka untuk meningkatkan pengambilan keputusan.\n"
]
},
{
"cell_type": "code",
"execution_count": 12,
"id": "8845a485",
"metadata": {},
"outputs": [],
"source": [
"# Data lake adalah sebuah repositori penyimpanan yang menyimpan sejumlah besar data mentah dalam format aslinya hingga diperlukan untuk aplikasi analitik.\n",
"# Sementara gudang data tradisional menyimpan data dalam dimensi hierarkis dan tabel, data lake menggunakan arsitektur datar untuk menyimpan data, utamanya dalam bentuk file atau penyimpanan objek.\n",
"# Hal ini memberikan pengguna lebih banyak fleksibilitas dalam manajemen data, penyimpanan, dan penggunaan datanya.\n"
]
},
{
"cell_type": "code",
"execution_count": 14,
"id": "798516db",
"metadata": {},
"outputs": [],
"source": [
"# metadata di data lake\n",
"# Metadata menggambarkan data yang disimpan dalam data lake, memberikan rincian seperti sumbernya, strukturnya, maknanya, hubungannya dengan data lain, dan penggunaannya.\n",
"# Hal ini memudahkan pengguna untuk menemukan data yang relevan di antara jumlah data yang besar yang disimpan dalam data lake.\n"
]
},
{
"cell_type": "code",
"execution_count": 15,
"id": "732de496",
"metadata": {},
"outputs": [],
"source": [
"# Apa saja tantangan yang dihadapi oleh data lake?\n",
"# Rawapan Data (Data swamps)\n",
"# Dalam rawapan data, sangat sulit untuk menemukan data yang kita butuhkan.\n",
"# Beban Teknologi (Technology overload)\n",
"# Kombinasi teknologi yang tersedia dapat mempersulit penerapan.\n",
"# Biaya Tak Terduga (Unexpected costs)\n",
"# Teknologi awal mungkin memakan biaya lebih dari yang diharapkan atau direncanakan.\n",
"# Tata Kelola Data (Data governance)\n",
"# Menyimpan data mentah apa adanya masih memerlukan tata kelola yang efektif.\n"
]
},
{
"cell_type": "code",
"execution_count": 16,
"id": "df989599",
"metadata": {},
"outputs": [],
"source": [
"# Rawapan Data (Data Swamps)\n",
"#• Salah satu tantangan terbesar adalah mencegah data lake berubah menjadi rawapan data.\n",
"#• Jika tidak diatur dan dikelola dengan baik, data lake dapat menjadi tempat pembuangan data yang berantakan.\n",
"#• Pengguna mungkin tidak menemukan apa yang mereka butuhkan, dan manajer data mungkin kehilangan jejak data yang disimpan di data lake, bahkan ketika lebih banyak data ditambahkan.\n",
"\n",
"# Beban Teknologi (Technology Overload)\n",
"#• Ragam teknologi yang dapat digunakan dalam data lake juga mempersulit penerapannya.\n",
"#• Pertama, organisasi harus menemukan kombinasi teknologi yang tepat untuk memenuhi kebutuhan manajemen data dan analitik mereka.\n",
"#• Kemudian mereka perlu menginstalnya, meskipun penggunaan cloud yang semakin meningkat telah membuat langkah tersebut lebih mudah.\n",
"\n",
"# Biaya Tak Terduga (Unexpected Costs)\n",
"#• Meskipun biaya teknologi awal mungkin tidak berlebihan, itu dapat berubah jika organisasi tidak mengelola lingkungan data lake dengan hati-hati.\n",
"#• Sebagai contoh, perusahaan mungkin mendapatkan tagihan tak terduga untuk data lake berbasis cloud jika digunakan lebih dari yang diharapkan.\n",
"#• Kebutuhan untuk meningkatkan skala data lake untuk memenuhi permintaan beban kerja juga meningkatkan biaya.\n",
"\n",
"# Tata Kelola Data (Data Governance)\n",
"#• Salah satu tujuan data lake adalah untuk menyimpan data mentah apa adanya untuk berbagai keperluan analitik.\n",
"#• Namun tanpa tata kelola data lake yang efektif, organisasi mungkin menghadapi masalah kualitas, konsistensi, dan keandalan data.\n",
"#• Masalah tersebut dapat menghambat aplikasi analitik dan menghasilkan hasil yang cacat yang mengarah pada keputusan bisnis yang buruk.\n"
]
},
{
"cell_type": "code",
"execution_count": 22,
"id": "846a66d8",
"metadata": {},
"outputs": [],
"source": [
"# Data Lakehouse #1\n",
"#• Data lakehouse, seperti namanya, adalah arsitektur data baru yang menggabungkan gudang data dan danau data menjadi satu kesatuan, dengan tujuan untuk mengatasi keterbatasan masing-masing.\n",
"#• Secara singkat, sistem lakehouse memanfaatkan penyimpanan berbiaya rendah untuk menyimpan volume data besar dalam format mentah seperti halnya danau data.\n",
"#• Pada saat yang sama, itu memberikan struktur pada data dan memberdayakan fitur manajemen data yang mirip dengan yang ada di gudang data dengan menerapkan lapisan metadata di atas penyimpanan.\n",
"#• Hal ini memungkinkan tim-tim yang berbeda untuk menggunakan sistem tunggal untuk mengakses semua data perusahaan untuk berbagai proyek, termasuk ilmu data, pembelajaran mesin, dan inteligensi bisnis.\n"
]
},
{
"cell_type": "code",
"execution_count": 21,
"id": "610739d4",
"metadata": {},
"outputs": [],
"source": [
"# Data lakehouse #2\n",
"#• Menggunakan format tabel data lake sumber terbuka, yang memungkinkannya untuk bekerja dengan fitur-fitur gudang data, seperti struktur data yang terstandarisasi dan kemampuan manajemen data.\n",
"#• Arsitektur lakehouse juga memudahkan penggunaan analitik, ilmu data, dan pembelajaran mesin.\n",
"#• Hal ini karena semua data disimpan di satu tempat, yang memudahkan akses dan analisis secara besar-besaran di seluruh organisasi.\n"
]
},
{
"cell_type": "code",
"execution_count": 23,
"id": "a1ad82cf",
"metadata": {},
"outputs": [],
"source": [
"# Problems faced by data lake architecture\n",
"#• Kualitas Data yang Tidak Konsisten tanpa Penegakan Skema: Data lake adalah cara yang baik untuk menyimpan jumlah data yang besar dari berbagai sumber. Karena ukurannya besar dan tidak terstruktur, sulit untuk melacak kualitas (untuk diperbaiki) dari data tersebut.\n",
"#• Penanganan data saat ini — menggabungkan data batch dan data streaming: Saat ini, data harus cepat. Data lake harus mampu menangani baik data batch (historis) maupun data streaming (langsung), terutama dengan volume data yang terus berkembang yang dihasilkan dan dikumpulkan.\n",
"#• Beban Waktu dan Uang yang Besar: Mengelola arsitektur gudang data dan data lake bisa menjadi tantangan teknis. Gudang data sangat powerful, tetapi mahal untuk dibangun dan dipelihara. Data lake lebih hemat biaya, tetapi tidak secara inheren membangun struktur data Anda untuk kecepatan kueri yang cepat. Organisasi perlu mencari tahu data mana yang paling penting untuk analisis sehari-hari mereka dan menyimpannya di gudang data. Data lain yang kurang mendesak dapat tetap berada di data lake.\n"
]
},
{
"cell_type": "code",
"execution_count": 24,
"id": "10642f72",
"metadata": {},
"outputs": [],
"source": [
"# Delta Lake\n",
"#• Ini adalah salah satu format tabel yang memungkinkan data lakehouses.\n",
"#• Ini adalah lapisan manajemen data dan tata kelola open-source yang ditempatkan di atas data lake.\n",
"#• Delta Lake memberikan struktur gudang data kepada data lake, sambil tetap memungkinkannya digunakan untuk berbagai kasus penggunaan yang umumnya digunakan untuk data lake.\n"
]
},
{
"cell_type": "code",
"execution_count": 26,
"id": "225bbd62",
"metadata": {},
"outputs": [],
"source": [
"# DataFrame\n",
"#• DataFrame adalah struktur data yang mengorganisir data ke dalam tabel 2 dimensi dari baris dan kolom, mirip dengan spreadsheet.\n",
"#• DataFrame adalah salah satu struktur data yang paling umum digunakan dalam analisis data modern karena merupakan cara yang fleksibel dan intuitif untuk menyimpan dan bekerja dengan data.\n",
"#• Setiap DataFrame mengandung suatu blueprint, yang dikenal sebagai schema, yang mendefinisikan nama dan tipe data dari setiap kolom.\n"
]
},
{
"cell_type": "code",
"execution_count": 27,
"id": "f2a0f5e7",
"metadata": {},
"outputs": [],
"source": [
"# DataFrame Python Pandas\n",
"#• Dalam Python Pandas, DataFrame adalah struktur data yang dibangun dengan baris dan kolom, mirip dengan database atau spreadsheet Excel.\n",
"#• DataFrame terdiri dari kamus dari daftar di mana setiap daftar memiliki pengidentifikasi atau kunci sendiri, seperti \"nama belakang\" atau \"kelompok makanan.\"\n"
]
},
{
"cell_type": "code",
"execution_count": 28,
"id": "18a0c36a",
"metadata": {},
"outputs": [],
"source": [
"# Dataset\n",
"#• Dataset, atau set data, adalah kumpulan data yang terkait dengan topik, tema, atau industri tertentu.\n",
"#• Dataset mencakup berbagai jenis informasi, seperti angka, teks, gambar, video, dan audio, dan dapat disimpan dalam berbagai format, seperti CSV, JSON, atau SQL.\n",
"#• Oleh karena itu, dataset biasanya melibatkan data terstruktur untuk tujuan tertentu dan terkait dengan subjek yang sama.\n"
]
},
{
"cell_type": "code",
"execution_count": 31,
"id": "5db0770f",
"metadata": {},
"outputs": [],
"source": [
"# Dataset vs database\n",
"#• Meskipun sebuah dataset adalah kumpulan data, seringkali dalam bentuk tabel seperti file CSV atau Excel, yang difokuskan pada topik atau analisis tertentu, sebuah basis data adalah kumpulan data terstruktur yang disimpan dalam komputer, biasanya di server, yang menyediakan fungsionalitas yang lebih kompleks untuk penyimpanan, pengelolaan, dan pengambilan data.\n",
"#• Basis data dirancang untuk menangani volume data yang besar dan mendukung akses konkuren oleh beberapa pengguna, dengan kemampuan kueri yang kuat melalui bahasa seperti SQL.\n",
"#• Basis data memelihara integritas data dan penting untuk aplikasi yang memerlukan pembaruan data reguler dan transaksi, seperti sistem manajemen hubungan pelanggan atau situs ritel online.\n",
"#• Di sisi lain, dataset biasanya statis, digunakan untuk analisis, dan tidak memfasilitasi manipulasi data real-time atau pemrosesan transaksi kompleks.\n"
]
},
{
"cell_type": "code",
"execution_count": 34,
"id": "7931f384",
"metadata": {},
"outputs": [],
"source": [
"# Jenis-jenis dataset (berdasarkan tipe data)\n",
"#• Dataset numerik: Mengandung angka dan digunakan untuk analisis kuantitatif.\n",
"#• Dataset teks: Berisi kiriman, pesan teks, dan dokumen.\n",
"#• Dataset multimedia: Berisi gambar, video, dan file audio.\n",
"#• Dataset time-series: Berisi data yang dikumpulkan dari waktu ke waktu untuk menganalisis tren dan pola.\n",
"#• Dataset spasial: Berisi informasi yang dirujuk secara geografis, seperti data GPS.\n"
]
},
{
"cell_type": "code",
"execution_count": 33,
"id": "22cfb51d",
"metadata": {},
"outputs": [],
"source": [
"# Jenis-jenis dataset (berdasarkan struktur data)\n",
"#• Dataset terstruktur: Diatur dalam struktur tertentu untuk memudahkan pengambilan data dan analisis.\n",
"#• Dataset tak terstruktur: Tidak memiliki skema yang terdefinisi dengan baik. Mereka dapat mencakup berbagai jenis data.\n",
"#• Dataset hibrida: Termasuk data terstruktur dan tak terstruktur.\n"
]
},
{
"cell_type": "code",
"execution_count": 35,
"id": "6155643c",
"metadata": {},
"outputs": [],
"source": [
"# Jenis-jenis dataset (dalam statistika)\n",
"#• Dataset numerik: Melibatkan hanya angka.\n",
"#• Dataset bivariat: Melibatkan dua variabel data.\n",
"#• Dataset multivariat: Melibatkan tiga atau lebih variabel data.\n",
"#• Dataset kategorikal: Terdiri dari variabel kategorikal yang hanya dapat mengambil sekumpulan nilai terbatas.\n",
"#• Dataset korelasi: Berisi variabel data yang saling berkaitan.\n"
]
},
{
"cell_type": "code",
"execution_count": 36,
"id": "455f7ead",
"metadata": {},
"outputs": [],
"source": [
"# Jenis-jenis dataset (Machine learning)\n",
"#• Dataset untuk pelatihan ML: Digunakan untuk melatih model.\n",
"#• Dataset untuk validasi: Digunakan untuk mengurangi overfitting dan membuat model lebih akurat.\n",
"#• Dataset untuk pengujian: Digunakan untuk menguji hasil akhir dari model untuk mengkonfirmasi keakuratannya.\n"
]
},
{
"cell_type": "code",
"execution_count": 37,
"id": "3e350309",
"metadata": {},
"outputs": [],
"source": [
"# Apache Spark\n",
"#• Apache Spark adalah sistem pemrosesan terdistribusi sumber terbuka yang digunakan untuk beban kerja big data.\n",
"#• Ini menggunakan penyimpanan cache di dalam memori dan eksekusi kueri yang dioptimalkan untuk kueri cepat terhadap data dengan ukuran apa pun.\n",
"#• Secara sederhana, Spark adalah mesin yang cepat dan umum untuk pemrosesan data skala besar.\n"
]
},
{
"cell_type": "code",
"execution_count": 40,
"id": "ba9f029c",
"metadata": {},
"outputs": [],
"source": [
"# Fitur-fitur\n",
"#• Pemrosesan cepat - Fitur paling penting dari Apache Spark yang membuat dunia big data memilih teknologi ini dibandingkan dengan yang lain adalah kecepatannya.\n",
"#• Fleksibilitas - Apache Spark mendukung beberapa bahasa dan memungkinkan pengembang menulis aplikasi dalam Java, Scala, R, atau Python.\n",
"#• Komputasi dalam memori - Spark menyimpan data di RAM server yang memungkinkan akses cepat dan dengan demikian mempercepat kecepatan analisis.\n",
"#• Pemrosesan real-time - Spark mampu memproses data streaming secara real-time. Berbeda dengan MapReduce yang hanya memproses data yang disimpan, Spark mampu memproses data real-time dan, karena itu, dapat menghasilkan hasil secara instan.\n",
"#• Analisis yang lebih baik - Berbeda dengan MapReduce yang mencakup fungsi Map dan Reduce, Apache Spark terdiri dari serangkaian kueri SQL, algoritma pembelajaran mesin, analisis kompleks, dll, di mana dengan semua fungsionalitas ini, analisis dapat dilakukan dengan lebih baik dengan bantuan Spark.\n"
]
},
{
"cell_type": "code",
"execution_count": 41,
"id": "9b704634",
"metadata": {},
"outputs": [],
"source": [
"# APi\n",
"#• Apache Spark menyediakan tiga API berbeda untuk bekerja dengan big data: RDD, Dataset, DataFrame.\n",
"#• Platform Spark menyediakan fungsi untuk beralih antara tiga format data dengan cepat.\n",
"#• Setiap API memiliki kelebihan serta kasus penggunaan di mana penggunaan tertentu lebih menguntungkan.\n"
]
},
{
"cell_type": "code",
"execution_count": 50,
"id": "dce740da",
"metadata": {},
"outputs": [],
"source": [
"# Sumber data\n",
"#• Sumber data adalah tempat di mana Anda dapat memperoleh data untuk analisis.\n",
"#• Mereka datang dalam berbagai bentuk, seperti kumpulan data, API, perangkat lunak, dan penyedia data.\n",
"#• Kualitas dan keandalan sebuah dataset sangat bergantung pada sumber dari mana data tersebut diperoleh.\n",
"#• Memahami sumber data sangat penting untuk analisis data.\n",
"\n",
"# Sumber data #1\n",
"#• Sumber data adalah lokasi fisik atau digital tempat data berasal dalam berbagai bentuk.\n",
"#• Sumber data bisa menjadi tempat asal data itu diciptakan dan juga tempat di mana data tersebut ditambahkan, terutama untuk data yang didigitalkan.\n",
"#• Sumber data dapat bersifat digital (sebagian besar) atau berbasis kertas.\n",
"#• Ide ini adalah untuk memungkinkan pengguna mengakses dan memanfaatkan data dari sumber ini.\n",
"#• Sumber data dapat berbagai bentuk, seperti database, file datar, tabel inventaris, web scraping, data streaming, arsip fisik, dll.\n",
"#• Dengan perkembangan Big Data dan teknologi baru, format-format berbeda ini terus berkembang, menjadikan sumber data semakin kompleks.\n",
"#• Tantangan bagi organisasi adalah untuk menyederhanakannya sebanyak mungkin.\n",
"#• Sebuah sumber data adalah sekadar sumber dari data.\n",
"#• Ini bisa berupa file, basis data tertentu di DBMS, atau bahkan feed data langsung.\n",
"#• Data tersebut mungkin berada di komputer yang sama dengan program, atau di komputer lain di suatu jaringan.\n"
]
},
{
"cell_type": "code",
"execution_count": 51,
"id": "d9540cec",
"metadata": {},
"outputs": [],
"source": [
"# Jenis-jenis data\n",
"#• Ada dua jenis data: data Kualitatif dan data Kuantitatif.\n",
"#• Mereka lebih lanjut diklasifikasikan menjadi empat kategori: data Nominal, data Ordinal, data Diskrit, dan data Kontinu.\n",
"\n",
"# Data Kualitatif atau Kategorikal\n",
"#• Data Kualitatif atau Kategorikal adalah data yang tidak dapat diukur atau dihitung dalam bentuk angka.\n",
"#• Jenis data ini diurutkan berdasarkan kategori, bukan berdasarkan angka.\n",
"#• Data-data ini terdiri dari audio, gambar, simbol, atau teks.\n",
"#• Jenis data ini mencakup jenis kelamin seseorang, yaitu laki-laki, perempuan, atau lainnya.\n",
"#• Data kualitatif memberikan informasi tentang persepsi orang-orang.\n",
"\n",
"# Data Nominal\n",
"#• Data Nominal digunakan untuk memberi label pada variabel tanpa adanya urutan atau nilai kuantitatif.\n",
"#• Warna rambut dapat dianggap sebagai data nominal, karena satu warna tidak dapat dibandingkan dengan warna lainnya.\n",
"\n",
"# Data Ordinal\n",
"#• Data Ordinal memiliki urutan alami di mana sebuah nomor hadir dalam urutan tertentu berdasarkan posisinya dalam skala.\n",
"#• Data ini digunakan untuk pengamatan seperti kepuasan pelanggan, kebahagiaan, dll., tetapi kita tidak dapat melakukan tugas aritmatika padanya.\n",
"#• Data ordinal adalah data kualitatif yang nilainya memiliki posisi relatif.\n",
"\n",
"# Data Kuantitatif\n",
"#• Data Kuantitatif dapat diekspresikan dalam nilai-nilai numerik, membuatnya dapat dihitung dan termasuk analisis data statistik.\n",
"#• Data ini dapat direpresentasikan dalam berbagai jenis grafik dan diagram, seperti diagram batang, histogram, scatter plot, boxplot, pie chart, grafik garis, dll.\n",
"\n",
"# Data Diskrit\n",
"#• Data diskrit berisi nilai-nilai yang termasuk dalam bilangan bulat atau bilangan bulat.\n",
"#• Jumlah total siswa di sebuah kelas adalah contoh dari data diskrit.\n",
"#• Data ini tidak dapat dipecah menjadi nilai desimal atau pecahan.\n",
"\n",
"# Data Kontinu\n",
"#• Data kontinu berbentuk angka pecahan.\n",
"#• Ini bisa menjadi versi ponsel Android, tinggi seseorang, panjang suatu objek, dll.\n",
"#• Data kontinu mewakili informasi yang dapat dibagi menjadi tingkatan yang lebih kecil.\n",
"#• Variabel kontinu dapat mengambil nilai apa pun dalam rentang tertentu.\n"
]
},
{
"cell_type": "code",
"execution_count": 53,
"id": "4ed078fc",
"metadata": {},
"outputs": [],
"source": [
"# Contoh penggunaan data\n",
"\n",
"# Data Nominal:\n",
"# Warna mata: biru, cokelat, hijau.\n",
"# Jenis kelamin: laki-laki, perempuan, lainnya.\n",
"# Jenis buah: apel, pisang, jeruk.\n",
"\n",
"# Data Ordinal:\n",
"# Tingkat kepuasan: sangat puas, puas, netral, tidak puas, sangat tidak puas.\n",
"# Peringkat film: 1 (terendah), 2, 3, 4, 5 (tertinggi).\n",
"# Tingkat pendidikan: SD, SMP, SMA, Diploma, Sarjana, Magister, Doktor.\n",
"\n",
"# Data Kuantitatif:\n",
"# Jumlah buku yang dimiliki oleh seseorang: 10, 20, 30, ...\n",
"# Usia seseorang: 25 tahun, 30 tahun, 40 tahun, ...\n",
"# Berat badan: 50 kg, 60 kg, 70 kg, ...\n",
"\n",
"# Data Diskrit:\n",
"# Jumlah anak dalam sebuah keluarga: 1, 2, 3, ...\n",
"# Jumlah kendaraan di sebuah parkiran: 10, 20, 30, ...\n",
"# Jumlah siswa dalam sebuah kelas: 25, 30, 40, ...\n",
"\n",
"# Data Kontinu:\n",
"# Tinggi badan seseorang: 165.2 cm, 170.5 cm, 175.8 cm, ...\n",
"# Suhu ruangan: 22.5°C, 23.2°C, 24.0°C, ...\n",
"# Waktu yang dibutuhkan untuk menyelesaikan suatu tugas: 3.5 jam, 4.2 jam, 5.0 jam"
]
},
{
"cell_type": "code",
"execution_count": 43,
"id": "79e84f14",
"metadata": {},
"outputs": [],
"source": [
"# Data source examples\n",
"#• Public health data is used to monitor the spread of diseases and predict future threats.\n",
"#• Most businesses use Google Analytics to track website traffic and user behavior.\n",
"#• LinkedIn provides data on user behavior, job market trends, and professional connections.\n"
]
},
{
"cell_type": "code",
"execution_count": 44,
"id": "c13166e1",
"metadata": {},
"outputs": [],
"source": [
"# Jenis dan format\n",
"#• Sumber data dapat dikategorikan berdasarkan struktur data yang mereka sediakan.\n",
"#• Ada tiga jenis utama sumber data: terstruktur, tidak terstruktur, dan semi-terstruktur.\n"
]
},
{
"cell_type": "code",
"execution_count": 45,
"id": "1ea8aa01",
"metadata": {},
"outputs": [],
"source": [
"# Data Terstruktur\n",
"#• Data terstruktur merujuk pada data dengan struktur tertentu, biasanya disusun dalam format tabel, di mana basis data relasional adalah sumber data terstruktur yang umum, karena mereka berisi tabel yang terdiri dari kolom dan baris.\n",
"#• SQL adalah bahasa pemrograman yang digunakan untuk mengelola dan memanipulasi data terstruktur.\n",
"#• Data terstruktur banyak digunakan dalam industri keuangan, perawatan kesehatan, dan ritel."
]
},
{
"cell_type": "code",
"execution_count": 46,
"id": "ad25d968",
"metadata": {},
"outputs": [],
"source": [
"# Data Tak Terstruktur\n",
"#• Data tak terstruktur merujuk pada data yang tidak memiliki struktur tertentu, sehingga lebih sulit untuk dianalisis.\n",
"#• Contoh data tak terstruktur meliputi teks, gambar, dan video, di mana beberapa contoh adalah basis data pemerintah, artikel berita, dan media sosial.\n",
"#• Pembelajaran mesin sering digunakan untuk menganalisis data tak terstruktur karena ML dapat menggunakan algoritma untuk mengidentifikasi pola dan hubungan."
]
},
{
"cell_type": "code",
"execution_count": 47,
"id": "45f0de56",
"metadata": {},
"outputs": [],
"source": [
"# Format Data Semi-Terstruktur\n",
"#• Data semi-terstruktur adalah kombinasi dari data terstruktur dan tak terstruktur.\n",
"#• Data ini memiliki beberapa struktur tetapi juga fleksibel, memungkinkan untuk perubahan sesuai kebutuhan.\n",
"#• Contoh beberapa format data semi-terstruktur yang populer adalah XML, JSON, CSV."
]
},
{
"cell_type": "markdown",
"id": "e2678ea0",
"metadata": {},
"source": [
"# PERTANYAAN"
]
},
{
"cell_type": "code",
"execution_count": 48,
"id": "ba9b7066",
"metadata": {},
"outputs": [],
"source": [
"#• Apa itu ETL (ekstrak, transformasi, muat) antara data terstruktur dan gudang data? Jelaskan secara singkat.\n",
"#• Mengapa ekstrak dan muat (EL) dipisahkan dari transformasi (T)?\n",
"# data mentah → EL → danau data\n",
"# danau data → T → pengguna akhir\n",
"#• Apa itu data batch dan data streaming? Apa perbedaan antara kedua data tersebut?\n",
"#• Ada juga ELT. Apa alasan menggunakan ELT daripada ETL?\n",
"#• Jelaskan tentang sensor sebagai sumber data!"
]
},
{
"cell_type": "code",
"execution_count": 49,
"id": "1c7937dc",
"metadata": {},
"outputs": [],
"source": [
"#• ETL (Ekstrak, Transformasi, Muat) adalah proses yang digunakan untuk mentransfer data dari sumber eksternal ke dalam gudang data. Ekstraksi melibatkan pengambilan data mentah dari sumber, transformasi melibatkan manipulasi dan pengolahan data agar sesuai dengan kebutuhan, sedangkan muatan melibatkan penyimpanan data yang sudah diproses ke dalam gudang data.\n",
"\n",
"#• Ekstrak dan Muat (EL) dipisahkan dari Transformasi (T) untuk memisahkan proses pengambilan data dari proses pemrosesan dan transformasi data. Dengan memisahkan ini, Anda dapat mengelola ketergantungan antara pengambilan data dan transformasi data dengan lebih efisien.\n",
"\n",
"#• Data batch adalah data yang diproses secara berkelompok, diambil dari sumber dan diproses dalam interval waktu tertentu. Data streaming, di sisi lain, adalah data yang diproses secara kontinu saat datang, tanpa harus menunggu sampai seluruh batch data tersedia. Perbedaan utama antara keduanya adalah dalam cara mereka diproses: batch secara periodik, sementara streaming secara real-time.\n",
"\n",
"#• ELT (Ekstrak, Muat, Transformasi) adalah pendekatan di mana data diambil dari sumber, dimuat ke dalam gudang data, dan kemudian diolah dan ditransformasi di dalam gudang data itu sendiri. Alasan untuk menggunakan ELT daripada ETL mungkin termasuk kemampuan gudang data modern untuk menangani dan memproses data dalam jumlah besar, serta fleksibilitas untuk melakukan transformasi data yang kompleks secara langsung di dalam gudang data.\n",
"\n",
"#• Sensor adalah perangkat elektronik yang digunakan untuk mendeteksi dan mengukur perubahan dalam lingkungan fisik atau perilaku. Sebagai sumber data, sensor dapat menghasilkan data yang beragam, seperti suhu, kelembaban, tekanan, atau gerakan, yang kemudian dapat dimanfaatkan untuk berbagai aplikasi, seperti pemantauan lingkungan, pengawasan keamanan, atau analisis kinerja mesin."
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "0b72087c",
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.5"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment