Traffine I/O

Bahasa Indonesia

2023-07-10

Data Drift dan Konsep Drift

Penurunan Kualitas Model

Model Pembelajaran Mesin (ML) mengalami penurunan kualitas yang bervariasi dari waktu ke waktu, tergantung pada model dan lingkungan aplikasi. Penyebab utama dari penurunan kualitas model adalah data drift dan konsep drift.

  • Data Drift
    Setelah sebuah model dilatih, kinerjanya memburuk ketika distribusi data masukan berubah, sehingga membuatnya tidak mampu berperforma baik pada data baru.

  • Konsep Drift
    Permasalahan yang ingin dipecahkan oleh model (yaitu, hubungan antara data masukan dan keluaran) berubah seiring waktu, menyebabkan penurunan kinerja model.

Bahkan jika kualitas data bukan masalah, "drift" ini dapat terjadi dan memengaruhi kinerja model.

Data Drift

Data drift adalah fenomena di mana distribusi statistik data masukan untuk suatu model berubah seiring waktu. Ini adalah masalah umum yang dihadapi oleh model ML di produksi. Perubahan dalam distribusi fitur-fitur tertentu dapat menyebabkan penurunan kinerja model.

Contoh Data Drift

  • Skenario
    Sebuah platform berita online mengoperasikan model pembelajaran mesin yang merekomendasikan artikel berdasarkan riwayat penjelajahan pengguna.

  • Terjadinya Data Drift
    Pada awalnya, model tersebut menunjukkan perilaku seperti "merekomendasikan artikel politik kepada pengguna yang sering membaca berita politik." Namun, setelah sebuah acara olahraga besar (misalnya, Olimpiade), banyak pengguna mulai membaca artikel-artikel yang berkaitan dengan olahraga.

  • Penyebab
    Dalam kasus ini, minat pengguna (distribusi data masukan) sementara berubah karena acara olahraga tersebut, sehingga menyebabkan hubungan yang telah dipelajari oleh model ("merekomendasikan artikel politik kepada pengguna yang sering membaca berita politik") tidak lagi sejalan dengan realitas baru yang dipengaruhi oleh acara olahraga tersebut.

Konsep Drift

Konsep drift mengacu pada fenomena di mana "konsep" dari masalah yang ingin dipecahkan oleh model ML—yaitu, hubungan antara data masukan dan keluaran—berubah seiring waktu. Berbeda dengan data drift, distribusi data masukan tetap sama, tetapi makna data berubah. Perubahan ini menyebabkan penurunan kinerja model.

Jenis-Jenis Konsep Drift

Konsep drift terutama terjadi dalam tiga bentuk:

  • Konsep Drift Bertahap
    Jenis drift ini terjadi secara perlahan seiring waktu. Contohnya adalah perubahan perilaku pembelian orang dengan pergantian musim.

  • Konsep Drift Tiba-Tiba
    Jenis ini terjadi tiba-tiba, seperti munculnya virus baru atau perubahan hukum.

  • Konsep Drift Berulang
    Jenis ini terjadi secara berkala, seperti model diagnosis medis yang berjuang beradaptasi dengan pola-pola berubah dari virus flu musiman.

Contoh Konsep Drift

  • Skenario
    Sebuah sistem perbankan online mengoperasikan model untuk mendeteksi transaksi penipuan.

  • Terjadinya Konsep Drift
    Pada awalnya, model tersebut dengan akurat mendeteksi transaksi-transaksi penipuan. Namun, beberapa bulan kemudian, pelaku penipuan mengembangkan teknik-teknik baru, sehingga transaksi-transaksi yang sebelumnya dianggap sebagai penipuan, sekarang dikenali sebagai sah.

  • Penyebab
    Dalam kasus ini, asumsikan bahwa distribusi data masukan (detail transaksi, perilaku pengguna, dll.) tidak berubah. Penyebab dari drift ini adalah perubahan konsep label "transaksi penipuan" (variabel target). Dengan pelaku penipuan mengadopsi teknik-teknik baru, transaksi-transaksi yang sebelumnya ditandai sebagai "penipuan" sekarang lebih mungkin ditandai sebagai "tidak penipuan" karena situasi baru.

Strategi untuk Mengatasi Drift

Strategi umum untuk mengatasi drift meliputi:

Pelatihan Ulang Model

Secara teratur melatih ulang model menggunakan data baru.

  • Contoh: Perbarui model dengan data baru ketika tingkat klik iklan online berubah.

Pemantauan dan Pemberitahuan

Terus-menerus memantau kualitas data dan kinerja model, memicu pemberitahuan saat ambang batas terlampaui.

  • Contoh: Terima pemberitahuan segera jika kinerja model deteksi penipuan dalam transaksi keuangan menurun.

Memanfaatkan Pengetahuan Domain

Sesuaikan model dan fitur-fitur berdasarkan umpan balik dari para ahli domain.

  • Contoh: Dalam model diagnosis kesehatan, gunakan keahlian dokter untuk memilih fitur-fitur.

Pembelajaran Online

Secara instan perbarui model setiap kali data baru tiba.

  • Contoh: Pembaruan waktu nyata dari sistem rekomendasi berita berdasarkan perilaku klik pengguna.

Rekayasa Fitur

Desain fitur-fitur baru untuk menyerap drift.

  • Contoh: Dalam ritel yang dipengaruhi oleh musim, tambahkan fitur-fitur yang menunjukkan musim atau peristiwa tertentu.

Referensi

https://www.evidentlyai.com/blog/machine-learning-monitoring-data-and-concept-drift

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!