Skip to content

Instantly share code, notes, and snippets.

@Ptolemu5
Created April 4, 2024 06:52
Show Gist options
  • Save Ptolemu5/a73f099c56c690db620075a0316ca214 to your computer and use it in GitHub Desktop.
Save Ptolemu5/a73f099c56c690db620075a0316ca214 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "code",
"execution_count": null,
"id": "c8a730c8",
"metadata": {},
"outputs": [],
"source": [
"#REVIEW\n",
"#Data\n",
"#Data mengacu pada kumpulan fakta atau statistik individual, baik dalam bentuk teks, observasi, angka, gambar, grafik, atau simbol. Ini adalah bentuk mentah dari pengetahuan dan, pada dirinya sendiri, tidak membawa makna atau tujuan apa pun. Data tampak sederhana dan tampaknya tidak berguna sampai diolah, diorganisir, dan diinterpretasikan.\n",
"#Informasi : Informasi didefinisikan sebagai pengetahuan yang diperoleh melalui studi, komunikasi, riset, atau instruksi. Ini adalah hasil dari menganalisis dan menginterpretasi potongan-potongan data. Informasi mewakili persepsi dari potongan-potongan pengetahuan tersebut.\n",
"#Perbedaan kunci di antara keduanya:\n",
"#Data adalah kumpulan fakta, sedangkan informasi memberikan konteks pada fakta-fakta tersebut. \n",
"#Data bersifat mentah dan tidak terstruktur, sedangkan informasi terorganisir. Titik-titik data adalah individual dan terkadang tidak terkait, sementara informasi memetakan data tersebut untuk memberikan pandangan menyeluruh tentang bagaimana semuanya saling terkait.\n",
"#Data, dalam dirinya sendiri, tidak memiliki makna. Ketika data tersebut dianalisis dan diinterpretasikan, ia menjadi informasi yang bermakna.\n",
"#Data tidak bergantung pada informasi; namun, informasi tergantung pada data. \n",
"#Data biasanya dalam bentuk grafik, angka, gambar, atau statistik, sedangkan informasi biasanya disampaikan melalui kata-kata, bahasa, pemikiran, dan gagasan. Data saja tidak cukup untuk pengambilan keputusan, tetapi Anda dapat membuat keputusan berdasarkan informasi.\n",
"#Data, Dataset, Basis Data\n",
"#Data: Pengamatan atau pengukuran (baik mentah maupun telah diolah) yang direpresentasikan dalam bentuk teks, angka, atau multimedia.\n",
"#Dataset: Kumpulan data terstruktur yang umumnya terkait dengan satu karya unik.\n",
"#Basis Data: Kumpulan data terorganisir yang disimpan sebagai beberapa dataset, \n",
"#biasanya diakses secara elektronik dari sistem komputer yang memungkinkan akses, manipulasi, dan pembaruan data tersebut.\n",
"#Data Lake\n",
"#Data lake adalah repositori penyimpanan yang menyimpan sejumlah besar data \n",
"#mentah dalam format aslinya hingga diperlukan untuk aplikasi analitik. Berbeda dengan gudang data tradisional yang menyimpan data dalam dimensi hierarkis dan tabel, data lake menggunakan arsitektur datar untuk menyimpan data, utamanya dalam bentuk file atau penyimpanan objek. Ini memberikan pengguna lebih banyak fleksibilitas dalam manajemen, penyimpanan, dan penggunaan data.\n",
"#Metadata di Data Lake\n",
"#Metadata menggambarkan data yang disimpan dalam data lake, memberikan rincian seperti sumbernya, \n",
"#strukturnya, maknanya, hubungannya dengan data lain, dan penggunaannya. Hal ini memudahkan pengguna untuk menemukan data yang relevan di antara jumlah data yang besar yang disimpan dalam data lake.\n",
"#Tantangan yang Dihadapi oleh Data Lake\n",
"#Rawapan Data (Data Swamps): Kesulitan dalam menemukan data yang dibutuhkan dalam data lake.\n",
"#Beban Teknologi (Technology Overload): Ragam teknologi yang tersedia dapat mempersulit implementasi.\n",
"#Biaya Tak Terduga (Unexpected Costs): Biaya teknologi awal mungkin melebihi ekspektasi atau rencana.\n",
"#Tata Kelola Data (Data Governance): Menyimpan data mentah memerlukan tata kelola data yang efektif.\n",
"#Data Lakehouse\n",
"#Data lakehouse adalah arsitektur data baru yang menggabungkan gudang data dan \n",
"#data lake menjadi satu kesatuan, dengan tujuan untuk mengatasi keterbatasan masing-masing. \n",
"#Ini memanfaatkan penyimpanan berbiaya rendah untuk menyimpan volume data besar dalam format mentah seperti halnya data lake, \n",
"#sambil memberikan struktur pada data dan memberdayakan fitur manajemen data yang mirip dengan gudang data.\n",
"#Delta Lake\n",
"#Delta Lake adalah format data tabel yang memungkinkan data lakehouse.\n",
"#Ini adalah lapisan manajemen data dan tata kelola open-source yang ditempatkan di atas data lake. \n",
"#Delta Lake memberikan struktur gudang data kepada data lake, sambil tetap memungkinkannya digunakan untuk berbagai kasus penggunaan umum yang biasanya terkait dengan data lake.\n",
"#DataFrame\n",
"#DataFrame adalah struktur data yang mengorganisir data ke dalam tabel 2 dimensi dari baris dan kolom, mirip dengan spreadsheet. \n",
"#Ini adalah salah satu struktur data yang paling umum digunakan dalam analisis data modern karena merupakan cara yang fleksibel dan intuitif untuk menyimpan dan bekerja dengan data. \n",
"#Setiap DataFrame berisi blueprint, yang dikenal sebagai schema, yang mendefinisikan nama dan tipe data dari setiap kolom.\n",
"#Apache Spark\n",
"#Apache Spark adalah sistem pemrosesan terdistribusi sumber terbuka yang digunakan \n",
"#untuk beban kerja big data. Ini menggunakan penyimpanan cache di dalam memori dan eksekusi kueri yang dioptimalkan untuk kueri cepat terhadap data dengan ukuran apa pun. Secara sederhana, \n",
"#Spark adalah mesin yang cepat dan umum untuk pemrosesan data skala besar.\n",
"#Fitur-fitur\n",
"#Pemrosesan Cepat\n",
"#Fleksibilitas\n",
"#Komputasi dalam Memori\n",
"#Pemrosesan Real-Time\n",
"#Analisis yang Lebih Baik\n",
"#API\n",
"#Apache Spark menyediakan tiga API berbeda untuk bekerja dengan big data: \n",
"#RDD, Dataset, DataFrame. Setiap API memiliki kelebihan serta kasus penggunaan \n",
"#dimana penggunaan tertentu lebih menguntungkan.#\n",
"#Sumber Data\n",
"#Sumber data adalah tempat di mana Anda dapat memperoleh data untuk analisis. \n",
"#Mereka datang dalam berbagai bentuk, seperti kumpulan data, API, perangkat lunak, dan penyedia data.\n",
"#Kualitas dan keandalan sebuah dataset sangat bergantung pada sumber dari mana data tersebut diperoleh. Memahami sumber data sangat penting untuk analisis data.\n",
"#Sumber Data #1\n",
"#Sumber data merujuk pada lokasi di mana data berasal, baik secara fisik maupun digital, \n",
"#dalam berbagai format. Ini mencakup tempat asal data serta lokasi di mana data tersebut disimpan, \n",
"#terutama untuk data yang telah didigitalisasi. Sumber data dapat berupa digital (kebanyakan) atau berbasis kertas. Tujuan utamanya adalah memberikan akses kepada pengguna untuk memanfaatkan data dari sumber tersebut. Sumber data dapat bermacam-macam bentuknya, termasuk database, file datar, tabel inventaris, web scraping, data streaming, arsip fisik, dan lain-lain.\n",
"#Jenis-jenis Data\n",
"#Ada dua jenis data utama: data Kualitatif dan data Kuantitatif. \n",
"#Kedua jenis ini kemudian dapat dikelompokkan menjadi empat kategori: data Nominal, \n",
"#data Ordinal, data Diskrit, dan data Kontinu.\n",
"#Data Kualitatif atau Kategorikal\n",
"#Data Kualitatif atau Kategorikal adalah data yang tidak dapat diukur atau dihitung \n",
"#dalam bentuk angka. Data ini diorganisir berdasarkan kategori, bukan nilai numerik, \n",
"#dan dapat berupa audio, gambar, simbol, atau teks. Contoh data kualitatif meliputi jenis kelamin (laki-laki, perempuan, lainnya) yang memberikan informasi tentang persepsi orang-orang.\n",
"#Data Nominal\n",
"#Data Nominal digunakan untuk memberi label pada variabel tanpa adanya urutan atau nilai kuantitatif. \n",
"#Misalnya, warna rambut dapat dianggap sebagai data nominal, karena tidak ada peringkat yang diberikan pada warna tertentu.\n",
"#Data Ordinal\n",
"#Data Ordinal memiliki urutan alami di mana sebuah nomor hadir dalam urutan tertentu berdasarkan posisinya dalam skala. \n",
"#Data ini digunakan untuk pengamatan seperti tingkat kepuasan pelanggan atau peringkat film, tetapi tidak mendukung operasi matematika.\n",
"#Data Kuantitatif\n",
"#Data Kuantitatif dapat diekspresikan dalam nilai numerik, memungkinkan perhitungan \n",
"#dan analisis statistik. Data ini bisa direpresentasikan dalam berbagai jenis grafik dan diagram, \n",
"#seperti diagram batang atau histogram.\n",
"#Data Diskrit\n",
"#Data Diskrit berisi nilai yang dapat dihitung dalam bilangan bulat atau bilangan bulat.\n",
"#Contoh data diskrit termasuk jumlah siswa di sebuah kelas atau jumlah kendaraan di sebuah parkiran.\n",
"#Data Kontinu\n",
"#Data Kontinu berbentuk angka pecahan dan dapat dibagi menjadi tingkatan yang lebih kecil. \n",
"#Misalnya, tinggi seseorang atau suhu ruangan adalah contoh data kontinu.\n",
"#Contoh Penggunaan Data\n",
"#Contoh penggunaan data mencakup data nominal seperti warna mata, data ordinal seperti tingkat kepuasan, \n",
"#data kuantitatif seperti jumlah buku yang dimiliki, data diskrit seperti jumlah anak dalam sebuah keluarga,\n",
"#dan data kontinu seperti tinggi badan seseorang.\n",
"#Jenis dan Format\n",
"#Sumber data dapat dikategorikan berdasarkan struktur data yang mereka sediakan menjadi tiga jenis \n",
"#utama: terstruktur, tidak terstruktur, dan semi-terstruktur.\n",
"#Data Terstruktur\n",
"#Data terstruktur merujuk pada data yang memiliki format yang sudah ditentukan, sering kali dalam bentuk tabel, \n",
"#seperti database relasional. Contoh data terstruktur termasuk data keuangan dan data inventaris.\n",
"#Data Tidak Terstruktur\n",
"#Data tidak terstruktur tidak memiliki format yang terdefinisi secara jelas, membuatnya sulit untuk dianalisis. \n",
"#Contohnya adalah teks, gambar, dan video, yang sering ditemukan dalam basis data pemerintah atau media sosial.\n",
"#Data Semi-Terstruktur\n",
"#Data semi-terstruktur adalah kombinasi dari data terstruktur dan tidak terstruktur, seperti format XML atau JSON. \n",
"#Data ini memiliki beberapa struktur tetapi juga fleksibel untuk perubahan sesuai kebutuhan."
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.4"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment