Traffine I/O

Bahasa Indonesia

2022-11-05

Modern Data Stack

Apa itu Modern Data Stack

Modern Data Stack adalah kumpulan teknologi yang terdiri dari layanan terkait data cloud-native, dengan merancang infrastruktur data yang sesuai untuk lingkungan cloud modern, kita dapat mengurangi jeda waktu dalam membuat data dapat ditindaklanjuti.

Modern Data Stack mencakup layanan berikut.

The Modern Data Stack
The modern data stack: a guide | SNOWPLOW

  • Akumulasi data
    • Data Warehouses
      Layanan untuk menyimpan data dalam bentuk yang dioptimalkan untuk analisis
  • Integrasi data
    • ETL Tools / Change Data Capture / Data Streaming
      Layanan untuk mengintegrasikan data
  • Pengolahan data
    • Pemodelan & Transformasi
      Layanan untuk mentransformasi data yang tersimpan
  • Manajemen data
    • Orchestration
      Layanan manajemen pekerjaan untuk integrasi data dan pemodelan data
    • Data Cataloging / Governance
      Layanan untuk menyimpan metadata dan memfasilitasi pencarian dan pemahaman data
    • Data Quality / Monitoring
      Layanan untuk mendeteksi data berkualitas rendah dan memastikan kualitas data
  • Analisis data
    • Business Intelligence
      Layanan untuk visualisasi data dan pemrosesan sederhana
    • Product Analytics
      Seperangkat layanan yang mengkhususkan diri dalam analisis produk yang ditawarkan
  • Operasi data
    • Reverse ETL
      Layanan untuk mengintegrasikan data yang tersimpan dengan penawaran SaaS lainnya.

Kemampuan utama dari teknologi yang termasuk dalam Modern Data Stack meliputi

  • Disediakan sebagai layanan terkelola
    Diperlukan rekayasa minimal.
  • Dibangun di sekitar cloud DWH (data warehouse)
    Dibangun di sekitar DWH berbasis cloud yang kuat saat ini.
  • Ekosistem yang berpusat pada SQL untuk mendemokratisasi data
    Rangkaian layanan dibangun di sekitar SQL yang mudah dipelajari untuk insinyur data / analitik dan pengguna bisnis.
  • Beban kerja yang elastis
    Bayar sesuai kebutuhan dan dapat ditingkatkan secara instan.

Dengan Modern Data Stack, perusahaan memiliki platform data yang mudah diatur dan berbiaya rendah.

Sejarah Modern Data Stack

Yang mendasari Modern Data Stack adalah evolusi DWH cloud seperti BigQuery, Snowflake, dan Redshift.

Beberapa dekade yang lalu, hanya perusahaan besar yang dapat menganalisis kumpulan data besar, yang memerlukan penskalaan vertikal resource komputasi dan investasi awal yang besar, dari sana, era cloud publik seperti AWS, GCP, dan Azure telah tiba, menghilangkan kebutuhan perusahaan untuk membangun dan memelihara pusat server padat modal. AWS, GCP, dan Azure telah memungkinkan perusahaan mana pun untuk membayar penyimpanan dan resource komputasi sebanyak yang dibutuhkan dengan basis bayar sesuai kebutuhan.

Revolusi cloud DWH modern dimulai dengan BigQuery Google pada tahun 2010, diikuti oleh Redshift dan Snowflake pada tahun 2012. Cloud DWHs sederhana dan mudah digunakan seperti RDBMS sebelum mereka dan dibangun untuk menangani beban kerja tipe data besar. Pergeseran ini dimulai dengan UKM yang tidak memiliki tenaga kerja yang dibutuhkan untuk solusi data besar, dan karena lingkungan cloud yang berorientasi SaaS secara dramatis menurunkan penghalang untuk masuk, perusahaan besar dengan cepat melompat untuk menyederhanakan dan mengurangi biaya dengan beban kerja yang elastis.

Tak lama setelah munculnya cloud DWH, ekosistem teknologi cloud-native yang berdekatan mulai muncul, termasuk

  • BI
    • Chartio - 2010
    • Looker - 2011
    • Mode - 2012
  • Integrasi data
    • Fivetran - 2012
    • Segment - 2013
    • Stitch - 2015
  • Transformasi data
    • dbt - 2016
    • Dataform - 2018
  • Reverse ETL
    • Census - 2018
    • Hightouch - 2018

Ekosistem yang bermunculan di sekitar DWH membentuk Modern Data Stack. Sekarang dimungkinkan untuk membangun infrastruktur data dari awal hingga produksi dalam waktu kurang dari seminggu, tanpa mengeluarkan uang dan tanpa berbulan-bulan tinjauan arsitektur dan integrasi pipa. DWH sekarang menjadi platform yang kuat dan mudah digunakan yang dapat diperoleh perusahaan mana pun dan menjadi kompetitif seperti perusahaan teknologi tinggi terbaik dalam analisis data.

History of the Modern Data Stack

https://continual.ai/post/the-future-of-the-modern-data-stack

Tren dalam Modern Data Stack

Integrasi data

Jumlah area di mana data digunakan meningkat setiap tahun, dan jumlah SaaS yang dihadapi perusahaan semakin bertambah. Di masa lalu, perusahaan mengembangkan REST API mereka sendiri untuk mengekstrak data dari berbagai SaaS dan memasukkannya ke dalam DWH, tetapi dengan munculnya layanan seperti Fivetran dan OSS seperti Airbyte dan Meltano, kebutuhan untuk mengembangkan integrasi data di rumah menjadi semakin tidak diperlukan. Banyak perusahaan memilih layanan terkelola yang hanya menyinkronkan data ke DWH daripada mengembangkannya sendiri.

ELT

Dengan peningkatan baru-baru ini dalam skalabilitas DWH cloud, teknologi sistem terdistribusi, dan mesin kueri, menjadi masuk akal untuk melakukan transformasi pada DWH, dan ELT menjadi pendekatan umum.

dbt

Siapa pun yang tahu pernyataan SQL SELECT dapat mengembangkan data mart dengan dbt. dbt memiliki fitur dan fungsi utama berikut

  • Pengembangan dapat dilakukan hanya dengan menggunakan pernyataan SQL SELECT.
  • Pembuatan skema dan dokumentasi ketergantungan secara otomatis
  • Pengujian otomatis untuk NULL, integritas referensial, dll.
  • Modularisasi pemrosesan dengan Jinja
  • Silsilah data
  • Metode pengembangan perangkat lunak seperti Git dan CI / CD dapat digunakan

Reverse ETL

Reverse ETL adalah proses atau teknologi pengintegrasian dari DWH ke SaaS. Ketika perusahaan mulai menggunakan DWH dan SaaS, pipeline data mereka menjadi lebih kompleks dan biaya untuk meneliti dan mengimplementasikan berbagai API SaaS untuk menyinkronkan data dari DWH ke alat SaaS pihak ketiga menjadi signifikan. Dengan latar belakang ini, produk Reverse ETL telah muncul, menghilangkan kebutuhan untuk menulis skrip Anda sendiri untuk mengintegrasikan dari DWH ke SaaS.

Reverse ETL

https://medium.com/memory-leak/reverse-etl-a-primer-4e6694dcc7fb

Produk Reverse ETL berikut ini saat ini tersedia.

  • Census
  • Hightouch
  • Grouparoo
  • Polytomic
  • Rudderstack
  • Seekwell
  • Workato

Manajemen data dengan templated SQL dan YAML

Templated SQL dan YAML menjadi cara untuk mengelola "T" di ELT. SQL adalah antarmuka yang matang yang mudah dipelajari dan deklaratif. Gabungkan ini dengan bahasa templating seperti Jinja dan dapat dijadikan parameter dan dibuat lebih dinamis. Ini juga dapat dikelola kode dan CI / CD dapat diterapkan.

Data Mesh

Ketika organisasi berkembang, manajemen data terpusat menjadi bermasalah dan konsep "data mesh," tata kelola data terdesentralisasi, dimunculkan.

Data Lakehouse

Sementara DWH adalah untuk set data terstruktur dan data lake untuk data yang tidak terstruktur dan semi-terstruktur, "data lakehouse" baru-baru ini muncul yang mengintegrasikan data lake dengan DWH sehingga fungsi, skema, dan metadata DWH dapat dimanfaatkan di data lake. Di balik kemunculan data lake house adalah berbagai masalah yang muncul dengan penggunaan AI secara penuh, seperti "silo data" yang disebabkan oleh penyebaran lokasi penyimpanan data karena format data yang berbeda, dll., Dan "silo proses" yang disebabkan oleh alat yang berbeda untuk setiap bisnis, seperti rekayasa data, ilmu data, dan BI. Penggunaan AI telah membawa serta berbagai masalah.

https://cloudedjudgement.substack.com/p/the-modern-data-cloud-warehouse-vs
https://www.fivetran.com/blog/databricks-is-an-rdbms

Referensi

https://www.rilldata.com/blog/5-founders-define-the-modern-data-stack
https://snowplow.io/blog/modern-data-stack/
https://validio.io/blog/5-data-trends-in-2022
https://medium.com/memory-leak/reverse-etl-a-primer-4e6694dcc7fb
https://balachandar-paulraj.medium.com/2022-modern-data-stack-79f370623369
https://continual.ai/post/the-future-of-the-modern-data-stack
https://preset.io/blog/reshaping-data-engineering/
https://www.getdbt.com/blog/future-of-the-modern-data-stack/
https://www.getdbt.com/blog/what-exactly-is-dbt/
https://www.striim.com/blog/data-warehouse-vs-data-lake-vs-data-lakehouse-an-overview/

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!