2023-01-14

Kedro

Apa itu Kedro

Kedro adalah alat manajemen pipeline OSS yang dikembangkan oleh Quantum Black Lab, cabang penelitian McKinsey & Company, yang memungkinkan Anda membuat kode data science yang sangat dapat direproduksi, dapat dipelihara, dan modular.

Fitur Kedro

Kedro memiliki fitur-fitur utama berikut.

Visualisasi pipeline
- Anda dapat memvisualisasikan DAG dari pipeline Anda.
Katalog data
- Tersedia konektor data ringan untuk membaca dan menulis data antara banyak format file (Pandas, Spark, Dask, NetworkX, Pickle, Plotly, Matplotlib, dll.) Dan sistem file (S3, GCP, Azure, sFTP, DBFS, lokal).
Integrasi
- Integrasi yang sangat baik dengan Apache Spark, Pandas, Dask, Matplotlib, Plotly, fsspec, Apache Airflow, Jupyter Notebook, Docker, dll.
Template proyek
- Templat proyek memungkinkan Anda untuk menstandarkan cara Anda mengatur konfigurasi, kode sumber, pengujian, dokumentasi, buku catatan, dll.
Abstraksi pipeline
- Kedro mendukung alur kerja berdatabaseset yang secara otomatis menyelesaikan ketergantungan antar fungsi, menghilangkan kebutuhan untuk memberi label urutan pelaksanaan tugas dalam pipeline.
Fleksibilitas dalam penyebaran
- Pipeline dapat diterapkan ke Argo, Prefect, Kubeflow, AWS Batch, AWS Sagemaker, Databricks, Dask, dll.

Komponen Kedro

Kedro memiliki empat komponen berikut.

Node
Pipeline
DataCatalog
Runner

Node

Node adalah unit dari setiap proses dalam pipeline. Anda menggunakan node() untuk mendefinisikan pemrosesan, input, dan output.

Dalam kode berikut, fungsi return_greeting dibungkus dalam sebuah node yang disebut return_greeting_node, yang tidak memiliki input dan menamai outputnya may_salutation.

from kedro.pipeline import node

# Prepare first node
def return_greeting():
    return "Hello"

return_greeting_node = node(func=return_greeting,
                            inputs=None,
                            outputs="my_salutation")

Dalam kode berikut, fungsi join_statements dibungkus dalam sebuah node yang disebut join_statements_node dengan my_salutation sebagai input dan output bernama my_message.

# Prepare second node
def join_statements(greeting):
    return f"{greeting} Kedro!"

join_statements_node = node(
    join_statements,
    inputs="my_salutation",
    outputs="my_message"
)

Ini berarti bahwa my_salutation adalah output dari return_greeting_node dan input dari join_statements_node. Dengan demikian, input dan output dari node() dapat mendefinisikan ketergantungan dari pipeline.

Pipeline

Pipeline adalah sebuah jalur eksekusi. Pipeline dibangun dengan melewatkan daftar Node ke Pipeline(). Urutan daftar yang akan dioper ke pipeline adalah sembarang.

Dalam pipeline berikut ini, return_greeting_node dieksekusi terlebih dahulu, diikuti oleh join_statements_node.

from kedro.pipeline import Pipeline

# Assemble nodes into a pipeline
pipeline = Pipeline([return_greeting_node, join_statements_node])

DataCatalog

DataCatalog adalah katalog yang mendefinisikan data yang akan digunakan dalam pipeline; DataCatalog mengambil Node inputs dan outputs sebagai kunci dan membaca dan menulisnya ke dalam Dataset. Dataset mendukung berbagai format file dan sistem file. Silakan lihat dokumentasi resmi di bawah ini untuk Dataset yang tersedia.

Kode berikut menggunakan MemoryDataSet untuk menyimpan my_salutation di memori.

from kedro.io import DataCatalog, MemoryDataSet

# Prepare a data catalog
data_catalog = DataCatalog({"my_salutation": MemoryDataSet()})

Runner

Ada tiga jenis runner: SequentialRunner untuk mengeksekusi pipeline secara seri, ParallelRunner untuk mengeksekusi pipeline secara paralel, dan ThreadRunner untuk mengeksekusi pipeline secara thread.

# Create a runner to run the pipeline
runner = SequentialRunner()

# Run the pipeline
print(runner.run(pipeline, data_catalog))

Hello Kedro

Kode lengkap untuk komponen di atas ditunjukkan di bawah ini.

hello_kedro.py

from kedro.io import DataCatalog, MemoryDataSet
from kedro.pipeline import node, Pipeline
from kedro.runner import SequentialRunner

# Prepare a data catalog
data_catalog = DataCatalog({"my_salutation": MemoryDataSet()})

# Prepare first node
def return_greeting():
    return "Hello"


return_greeting_node = node(return_greeting, inputs=None, outputs="my_salutation")

# Prepare second node
def join_statements(greeting):
    return f"{greeting} Kedro!"


join_statements_node = node(
    join_statements, inputs="my_salutation", outputs="my_message"
)

# Assemble nodes into a pipeline
pipeline = Pipeline([return_greeting_node, join_statements_node])

# Create a runner to run the pipeline
runner = SequentialRunner()

# Run the pipeline
print(runner.run(pipeline, data_catalog))

Apabila kode dieksekusi, proses berikut ini dilakukan.

Eksekusi return_greeting_node (yang mengeksekusi return_greeting dan mengeluarkan string "Hello")
Simpan string output ke MemoryDataSet bernama my_salutation
Jalankan join_statements_node (set data my_salutation dimuat dan diinjeksikan ke dalam fungsi join_statements)
Gabungkan dengan "Kedro!" untuk menghasilkan string output "Hello Kedro!
Kembalikan output dari pipeline dalam kamus dengan my_message sebagai kunci

$ python hello_kedro.py

{'my_message': 'Hello Kedro!'}

Bagaimana cara menggunakan Kedro

Berikut adalah cara menggunakan Kedro.

Instalasi

Instal Kedro dengan perintah berikut.

$ pip install kedro

Verifikasi bahwa kedro telah diinstal.

$ kedro info

| | _____  __| |_ __ ___
| |/ / _ \/ _` | '__/ _ \
|   <  __/ (_| | | | (_) |
|_|\_\___|\__,_|_|  \___/
v0.18.4

Kedro is a Python framework for
creating reproducible, maintainable
and modular data science code.

No plugins installed

Pembuatan proyek

Kedro memiliki fungsi untuk membuat sebuah proyek dari sebuah template. Pada dasarnya, anda dapat menggunakan fungsi template ini untuk membuat sebuah proyek.

Nama file (nama folder)	Deskripsi
conf	Project configuration files
data	Local project data (not committed to version control)
docs	Project documentation
logs	Project output logs (not committed to version control)
notebooks	Project-related Jupyter notebooks (can be used for experimental code before moving the code to src)
pyproject.toml	Identifies the project root and contains configuration information
setup.cfg	Configuration options for `pytest` when doing `kedro test` and for the `isort` utility when doing `kedro lint`
src	Project source code

Starter	Deskripsi
`astro-airflow-iris`	The Kedro Iris dataset example project with a minimal setup for deploying the pipeline on Airflow with Astronomer.
`standalone-datacatalog`	A minimum setup to use the traditional Iris dataset with Kedro’s DataCatalog, which is a core component of Kedro. This starter is of use in the exploratory phase of a project. For more information, read the guide to standalone use of the DataCatalog. This starter was formerly known as mini-kedro.
`pandas-iris`	The Kedro Iris dataset example project
`pyspark-iris`	An alternative Kedro Iris dataset example, using PySpark
`pyspark`	The configuration and initialisation code for a Kedro pipeline using PySpark
`spaceflights`	The spaceflights tutorial example code

Kedro

Apa itu Kedro

Fitur Kedro

Komponen Kedro

Node

Pipeline

DataCatalog

Runner

Hello Kedro

Bagaimana cara menggunakan Kedro

Instalasi

Pembuatan proyek

kedro new

kedro new --config

kedro new --starter=pandas-iris

Starter lainnya

Referensi

MLflow Tracking

Tutorial Kedro

Ryusei Kakujo