Apa itu Modern Data Stack
Modern Data Stack adalah kumpulan teknologi yang terdiri dari layanan terkait data cloud-native, dengan merancang infrastruktur data yang sesuai untuk lingkungan cloud modern, kita dapat mengurangi jeda waktu dalam membuat data dapat ditindaklanjuti.
Modern Data Stack mencakup layanan berikut.
The modern data stack: a guide | SNOWPLOW
- Akumulasi data
- Data Warehouses
Layanan untuk menyimpan data dalam bentuk yang dioptimalkan untuk analisis
- Data Warehouses
- Integrasi data
- ETL Tools / Change Data Capture / Data Streaming
Layanan untuk mengintegrasikan data
- ETL Tools / Change Data Capture / Data Streaming
- Pengolahan data
- Pemodelan & Transformasi
Layanan untuk mentransformasi data yang tersimpan
- Pemodelan & Transformasi
- Manajemen data
- Orchestration
Layanan manajemen pekerjaan untuk integrasi data dan pemodelan data - Data Cataloging / Governance
Layanan untuk menyimpan metadata dan memfasilitasi pencarian dan pemahaman data - Data Quality / Monitoring
Layanan untuk mendeteksi data berkualitas rendah dan memastikan kualitas data
- Orchestration
- Analisis data
- Business Intelligence
Layanan untuk visualisasi data dan pemrosesan sederhana - Product Analytics
Seperangkat layanan yang mengkhususkan diri dalam analisis produk yang ditawarkan
- Business Intelligence
- Operasi data
- Reverse ETL
Layanan untuk mengintegrasikan data yang tersimpan dengan penawaran SaaS lainnya.
- Reverse ETL
Kemampuan utama dari teknologi yang termasuk dalam Modern Data Stack meliputi
- Disediakan sebagai layanan terkelola
Diperlukan rekayasa minimal. - Dibangun di sekitar cloud DWH (data warehouse)
Dibangun di sekitar DWH berbasis cloud yang kuat saat ini. - Ekosistem yang berpusat pada SQL untuk mendemokratisasi data
Rangkaian layanan dibangun di sekitar SQL yang mudah dipelajari untuk insinyur data / analitik dan pengguna bisnis. - Beban kerja yang elastis
Bayar sesuai kebutuhan dan dapat ditingkatkan secara instan.
Dengan Modern Data Stack, perusahaan memiliki platform data yang mudah diatur dan berbiaya rendah.
Sejarah Modern Data Stack
Yang mendasari Modern Data Stack adalah evolusi DWH cloud seperti BigQuery, Snowflake, dan Redshift.
Beberapa dekade yang lalu, hanya perusahaan besar yang dapat menganalisis kumpulan data besar, yang memerlukan penskalaan vertikal resource komputasi dan investasi awal yang besar, dari sana, era cloud publik seperti AWS, GCP, dan Azure telah tiba, menghilangkan kebutuhan perusahaan untuk membangun dan memelihara pusat server padat modal. AWS, GCP, dan Azure telah memungkinkan perusahaan mana pun untuk membayar penyimpanan dan resource komputasi sebanyak yang dibutuhkan dengan basis bayar sesuai kebutuhan.
Revolusi cloud DWH modern dimulai dengan BigQuery Google pada tahun 2010, diikuti oleh Redshift dan Snowflake pada tahun 2012. Cloud DWHs sederhana dan mudah digunakan seperti RDBMS sebelum mereka dan dibangun untuk menangani beban kerja tipe data besar. Pergeseran ini dimulai dengan UKM yang tidak memiliki tenaga kerja yang dibutuhkan untuk solusi data besar, dan karena lingkungan cloud yang berorientasi SaaS secara dramatis menurunkan penghalang untuk masuk, perusahaan besar dengan cepat melompat untuk menyederhanakan dan mengurangi biaya dengan beban kerja yang elastis.
Tak lama setelah munculnya cloud DWH, ekosistem teknologi cloud-native yang berdekatan mulai muncul, termasuk
- BI
- Chartio - 2010
- Looker - 2011
- Mode - 2012
- Integrasi data
- Fivetran - 2012
- Segment - 2013
- Stitch - 2015
- Transformasi data
- dbt - 2016
- Dataform - 2018
- Reverse ETL
- Census - 2018
- Hightouch - 2018
Ekosistem yang bermunculan di sekitar DWH membentuk Modern Data Stack. Sekarang dimungkinkan untuk membangun infrastruktur data dari awal hingga produksi dalam waktu kurang dari seminggu, tanpa mengeluarkan uang dan tanpa berbulan-bulan tinjauan arsitektur dan integrasi pipa. DWH sekarang menjadi platform yang kuat dan mudah digunakan yang dapat diperoleh perusahaan mana pun dan menjadi kompetitif seperti perusahaan teknologi tinggi terbaik dalam analisis data.
Tren dalam Modern Data Stack
Integrasi data
Jumlah area di mana data digunakan meningkat setiap tahun, dan jumlah SaaS yang dihadapi perusahaan semakin bertambah. Di masa lalu, perusahaan mengembangkan REST API mereka sendiri untuk mengekstrak data dari berbagai SaaS dan memasukkannya ke dalam DWH, tetapi dengan munculnya layanan seperti Fivetran dan OSS seperti Airbyte dan Meltano, kebutuhan untuk mengembangkan integrasi data di rumah menjadi semakin tidak diperlukan. Banyak perusahaan memilih layanan terkelola yang hanya menyinkronkan data ke DWH daripada mengembangkannya sendiri.
ELT
Dengan peningkatan baru-baru ini dalam skalabilitas DWH cloud, teknologi sistem terdistribusi, dan mesin kueri, menjadi masuk akal untuk melakukan transformasi pada DWH, dan ELT menjadi pendekatan umum.
dbt
Siapa pun yang tahu pernyataan SQL SELECT
dapat mengembangkan data mart dengan dbt. dbt memiliki fitur dan fungsi utama berikut
- Pengembangan dapat dilakukan hanya dengan menggunakan pernyataan SQL SELECT.
- Pembuatan skema dan dokumentasi ketergantungan secara otomatis
- Pengujian otomatis untuk NULL, integritas referensial, dll.
- Modularisasi pemrosesan dengan Jinja
- Silsilah data
- Metode pengembangan perangkat lunak seperti Git dan CI / CD dapat digunakan
Reverse ETL
Reverse ETL adalah proses atau teknologi pengintegrasian dari DWH ke SaaS. Ketika perusahaan mulai menggunakan DWH dan SaaS, pipeline data mereka menjadi lebih kompleks dan biaya untuk meneliti dan mengimplementasikan berbagai API SaaS untuk menyinkronkan data dari DWH ke alat SaaS pihak ketiga menjadi signifikan. Dengan latar belakang ini, produk Reverse ETL telah muncul, menghilangkan kebutuhan untuk menulis skrip Anda sendiri untuk mengintegrasikan dari DWH ke SaaS.
Produk Reverse ETL berikut ini saat ini tersedia.
- Census
- Hightouch
- Grouparoo
- Polytomic
- Rudderstack
- Seekwell
- Workato
Manajemen data dengan templated SQL dan YAML
Templated SQL dan YAML menjadi cara untuk mengelola "T" di ELT. SQL adalah antarmuka yang matang yang mudah dipelajari dan deklaratif. Gabungkan ini dengan bahasa templating seperti Jinja dan dapat dijadikan parameter dan dibuat lebih dinamis. Ini juga dapat dikelola kode dan CI / CD dapat diterapkan.
Data Mesh
Ketika organisasi berkembang, manajemen data terpusat menjadi bermasalah dan konsep "data mesh," tata kelola data terdesentralisasi, dimunculkan.
Data Lakehouse
Sementara DWH adalah untuk set data terstruktur dan data lake untuk data yang tidak terstruktur dan semi-terstruktur, "data lakehouse" baru-baru ini muncul yang mengintegrasikan data lake dengan DWH sehingga fungsi, skema, dan metadata DWH dapat dimanfaatkan di data lake. Di balik kemunculan data lake house adalah berbagai masalah yang muncul dengan penggunaan AI secara penuh, seperti "silo data" yang disebabkan oleh penyebaran lokasi penyimpanan data karena format data yang berbeda, dll., Dan "silo proses" yang disebabkan oleh alat yang berbeda untuk setiap bisnis, seperti rekayasa data, ilmu data, dan BI. Penggunaan AI telah membawa serta berbagai masalah.
Referensi