Traffine I/O

Bahasa Indonesia

2022-12-30

Pendekatan pemodelan data yang umum

Pendekatan pemodelan data yang umum

Dalam konteks data warehouse (DWH), tiga jenis arsitektur yang terkenal untuk pemodelan data

  • EDW (Enterprize Data Warehouse)
  • Pemodelan dimensi
  • Data Vault

EDW

EDW, seperti yang diusulkan oleh Bill Inmon, yang juga dikenal sebagai bapak DWH, memuat data ke dalam Landing Area sementara, dan kemudian serangkaian proses ETL memuat data ke dalam DWH dalam bentuk normal ketiga (3NF). Data kemudian diekstraksi ke dalam data mart untuk analisis dan pelaporan.

Inmon model

When should I use Data Vault?

Manfaat

Dengan menormalkan data hingga 3 NF dan menghindari redundansi sebanyak mungkin, persyaratan bisnis dapat diklarifikasi dan pembaruan data yang curang dapat dicegah. Selain itu, DWH adalah SSOT (Single Source Of Truth) untuk data mart, memastikan konsistensi dan integritas di seluruh perusahaan.

Kekurangan

Kerugian penting dari EDW meliputi:

  • Waktu ke pasar
    EDW harus terlebih dahulu mengintegrasikan data dari setiap sistem sumber ke dalam repositori data pusat sebelum dapat digunakan untuk pelaporan. Hal ini menambah waktu dan upaya untuk proyek.

  • Kompleksitas dan keterampilan
    DWH mungkin perlu mengintegrasikan data dari sebanyak 100 sumber. Merancang model data di seluruh perusahaan untuk mendukung lingkungan bisnis yang kompleks membutuhkan profesional pemodelan data yang sangat terampil.

Kasus penggunaan

EDW cocok untuk situasi stabil di mana waktu desain dan biaya terkait dapat diberikan. EDW cocok untuk industri asuransi, di mana semua data saling terkait dan penting untuk memahami gambaran besarnya, dan untuk industri manufaktur, di mana banyak fungsi yang terlibat terlepas dari anggaran yang terkait.

Pemodelan dimensi

Pemodelan dimensi, yang diperkenalkan oleh Ralph Kimball, yang juga dikenal sebagai bapak intelijen bisnis, berfokus pada area dan proses bisnis individual daripada keseluruhan perusahaan. Data yang dimuat ke dalam Landing Area diekstraksi ke dalam data mart dimensi melalui serangkaian proses ETL.

Kimball model

When should I use Data Vault?

Dalam pemodelan dimensi, data dinormalisasi ke dalam bentuk yang disebut star schema. Skema bintang terdiri dari tabel fakta dengan nilai-nilai yang akan dianalisis dan tabel dimensi dengan nilai-nilai yang akan menjadi sumbu (dimensi) analisis, seperti yang ditunjukkan pada gambar di bawah ini, dalam bentuk bintang.

Star schema

Star schema

Manfaat

Keuntungan dari pemodelan dimensi mencakup hal-hal berikut ini:

  • Strukturnya sederhana dan mudah dipahami
    Sebagai sebuah struktur, mudah untuk memahami fakta apa yang dipengaruhi oleh apa. Juga, analis data dapat membuat tabel target hanya dengan menggunakan query sederhana.

  • Mudah untuk menganalisis data
    Karena tabel dimensi tidak dinormalisasi ke 3NF, jumlah join berkurang dan efisiensi kueri meningkat.

  • Administrasi sistem yang disederhanakan
    Fokus pada area dan proses bisnis individual, daripada perusahaan secara keseluruhan, membutuhkan lebih sedikit resource di DB.

Kekurangan

Kerugian dari pemodelan dimensi adalah sebagai berikut:

  • SSOT hilang
    Tidak dapat memastikan konsistensi dan koherensi di seluruh perusahaan.

  • Kelemahan terhadap perubahan spesifikasi data
    Metode yang tidak ternormalisasi menyulitkan untuk mengubah data saat kebutuhan bisnis berubah. Juga, menambahkan kolom ke fakta memperluas dimensi dan dapat berdampak negatif terhadap kinerja.

Kasus penggunaan

Pemodelan dimensi sesuai untuk situasi di mana DWH harus dibangun dengan cepat dan di mana prioritasnya adalah menangani data dengan cepat dan lebih mudah oleh analis. Ini cocok untuk CRM, di mana layanan yang dijual per pelanggan tidak perlu ditautkan di seluruh departemen dan terbatas dalam ruang lingkup, dan pemasaran, yang terutama hanya membutuhkan data mart.

Data Vault

Data Vault adalah metodologi pemodelan yang secara fleksibel mempertahankan riwayat perubahan bahkan jika jumlah atau spesifikasi data berubah, dan memungkinkan data dari tanggal dan waktu tertentu untuk diambil kapan saja. Data Vault adalah pendekatan hibrida yang menggabungkan skema 3NF dan star.

Data vault

When should I use Data Vault?

Arsitektur Data Vault memiliki tingkat Raw Vault dan tingkat Business Vault.

  • Raw Vault
    Menyimpan salinan historis dari data. Tidak ada filter atau transformasi bisnis yang dilakukan, kecuali untuk menyimpan data yang tidak bergantung pada sumber.
  • Business Vault
    Membuat Tabel Point in Time (PIT) atau Tabel Bridge dan menghindari kerumitan pemrosesan join SQL.

Manfaat

Data Vault mengatasi masalah yang melekat pada EDW dan pemodelan dimensi dalam 3NF, menggabungkan aspek-aspek terbaik dari keduanya ke dalam pendekatan hibrida tunggal. Keuntungannya meliputi.

  • Fleksibilitas
    Tidak seperti EDW, yang tidak memiliki fleksibilitas, Data Vault tidak memerlukan pengerjaan ulang saat menambahkan sumber; Data Vault menyimpan data mentah dan data yang diturunkan dari bisnis secara terpisah dan dapat dengan mudah mengakomodasi perubahan dalam aturan bisnis.

  • Dukungan perubahan dari waktu ke waktu
    Data Vault memisahkan data mentah dari data turunan bisnis dan mendukung perubahan yang dihasilkan dari sistem sumber dan aturan bisnis.

  • Lineage dan Audit
    Data Vault menyertakan metadata yang mengidentifikasi sistem sumber, sehingga mudah untuk mendukung pengubahan data.

Kekurangan

Data Vault bukanlah solusi yang sempurna untuk semua data warehouse dan memiliki beberapa kekurangan yang harus dipertimbangkan. Berikut beberapa contohnya.

  • Biaya pembelajaran
    Diperlukan pengetahuan yang cukup untuk mengimplementasikan Data Vault dengan benar.

  • Jumlah JOIN yang sangat besar
    Jumlah tabel sumber bisa dua atau tiga kali lipat. Jumlah tabel, dan dengan demikian jumlah join, dapat menyebabkan kondisi join yang berat dan kompleks.

  • Biaya moneter
    Penyimpanan dalam jumlah besar mungkin diperlukan untuk memelihara riwayat data yang lengkap.

Kasus penggunaan

Data Vault paling cocok untuk proyek-proyek besar dengan 30+ sistem sumber yang memiliki tantangan integrasi data yang signifikan dan siap untuk mengadopsi keterampilan dan ketelitian metodologi baru. Sebaliknya, Data Vault mungkin tidak cocok untuk proyek-proyek kecil dengan tim kecil (kurang dari 10 orang), sehingga pemodelan dimensi mungkin merupakan tempat yang baik untuk memulai.

Referensi

https://medium.com/@amritha_fernando/types-of-data-warehousing-architecture-9a656443b510
https://panoply.io/data-warehouse-guide/data-mart-vs-data-warehouse/
https://www.phdata.io/blog/building-modern-data-platform-with-data-vault/
https://medium.com/analytics-vidhya/theories-of-kimball-and-inmon-about-data-warehouse-design-c16260fab5e9
https://www.techtarget.com/searchdatamanagement/definition/star-schema

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!