Pendahuluan
Metrik kinerja sangat penting dalam mengevaluasi dan membandingkan model machine learning. Metrik ini memberikan cara objektif untuk menentukan efektivitas model dalam memprediksi hasil berdasarkan data input. Metrik ini tidak hanya memungkinkan kita untuk mengidentifikasi kelebihan dan kelemahan dari berbagai algoritma, tetapi juga membimbing kita dalam memilih model yang paling cocok untuk tugas tertentu. Selain itu, metrik kinerja membantu dalam pemilihan model, penyesuaian hyperparameter, dan mendiagnosis potensi masalah dalam proses pelatihan.
Masalah machine learning dapat dibagi menjadi dua kategori: regresi dan klasifikasi. Masalah regresi melibatkan prediksi nilai yang kontinu, sementara masalah klasifikasi melibatkan prediksi label atau kategori diskrit.
Metrik kinerja untuk masalah regresi dan klasifikasi berbeda karena sifat prediksi masing-masing. Metrik regresi berfokus pada perbedaan antara nilai yang diprediksi dan aktual, sedangkan metrik klasifikasi menilai seberapa baik model dapat mengklasifikasikan data input ke dalam kategori yang telah ditentukan.
Dalam artikel ini, saya akan menunjukkan metrik kinerja umum untuk masalah klasifikasi.
Metrik Klasifikasi
Masalah klasifikasi melibatkan prediksi label atau kategori diskrit berdasarkan data input. Dalam bab ini, saya akan membahas metrik kinerja yang paling umum digunakan untuk tugas klasifikasi dan bagaimana metrik ini dapat membantu mengevaluasi efektivitas model machine learning.
Matriks Kebingungan
Matriks kebingungan adalah tabel yang merangkum kinerja model klasifikasi dengan membandingkan label yang diprediksi dengan label aktual. Baris matriks mewakili kelas aktual, dan kolom mewakili kelas yang diprediksi. Empat elemen utama dari matriks kebingungan biner adalah:
- True Positives (TP)
benar diprediksi sebagai instansi positif - True Negatives (TN)
benar diprediksi sebagai instansi negatif - False Positives (FP)
instansi negatif yang salah diprediksi sebagai positif - False Negatives (FN)
instansi positif yang salah diprediksi sebagai negatif
Akurasi
Akurasi adalah proporsi instansi yang diklasifikasikan dengan benar dari total instansi. Ini adalah metrik yang banyak digunakan untuk masalah klasifikasi, tetapi dapat menyesatkan ketika data tidak seimbang. Persamaan untuk akurasi adalah:
Presisi
Presisi, juga dikenal sebagai nilai prediktif positif, mengukur proporsi instansi positif yang benar diprediksi di antara instansi yang diprediksi sebagai positif. Ini menunjukkan kemampuan model untuk mengidentifikasi instansi positif dengan benar. Persamaan untuk presisi adalah:
Recall
Recall, juga dikenal sebagai sensitivitas atau tingkat positif benar, mengukur proporsi instansi positif yang benar diprediksi di antara instansi positif aktual. Ini menunjukkan kemampuan model untuk mengidentifikasi semua instansi positif. Persamaan untuk recall adalah:
Skor F1
Skor F1 adalah nilai rata-rata harmonik presisi dan recall, memberikan keseimbangan di antara keduanya. Ini sangat berguna ketika berurusan dengan dataset yang tidak seimbang. Persamaan untuk skor F1 adalah:
ROC-AUC
Kurva ROC adalah representasi grafis dari trade-off antara tingkat positif benar (sensitivitas) dan tingkat positif salah (1-spesifisitas) pada berbagai ambang klasifikasi. Skor AUC-ROC mengukur kinerja keseluruhan klasifikasi, dengan nilai yang lebih tinggi menunjukkan kinerja yang lebih baik. Skor AUC-ROC berkisar dari 0 hingga 1, dengan 0,5 mewakili klasifikasi acak.
PR-AUC
Kurva PR (Precision-Recall) adalah representasi grafis dari trade-off antara presisi dan recall pada berbagai ambang klasifikasi. Skor AUC-PR mengukur kinerja keseluruhan klasifikasi ketika data tidak seimbang atau ketika positif palsu dan negatif palsu memiliki biaya yang berbeda. Seperti AUC-ROC, skor AUC-PR berkisar dari 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan kinerja yang lebih baik.
Koefisien Korelasi Matthews (MCC)
MCC adalah ukuran seimbang yang memperhitungkan positif dan negatif benar dan salah, memberikan penilaian keseluruhan model klasifikasi. MCC berkisar dari -1 hingga 1, dengan nilai absolut yang lebih tinggi menunjukkan kinerja yang lebih baik. Persamaan untuk MCC adalah:
Kappa Cohen
Kappa Cohen adalah ukuran kesepakatan antara label yang diprediksi dan aktual, memperhitungkan kesepakatan yang dapat terjadi secara kebetulan. Kappa Cohen berkisar dari -1 hingga 1, dengan nilai yang lebih tinggi menunjukkan kesepakatan yang lebih baik antara prediksi model dan label aktual. Persamaan untuk Kappa Cohen adalah:
di mana
Metrik Klasifikasi Multi-Kelas
Masalah klasifikasi multi-kelas melibatkan prediksi salah satu label atau kategori diskrit yang berbeda berdasarkan data masukan. Pada bab ini, saya akan membahas pengukuran kinerja yang paling umum digunakan untuk tugas klasifikasi multi-kelas dan bagaimana mereka dapat membantu mengevaluasi efektivitas model pembelajaran mesin.
Mikro-Pengukuran
Mikro-pengukuran adalah teknik untuk menggabungkan kinerja pengklasifikasi multi-kelas di seluruh kelas dengan pertama menghitung jumlah true positive, false positive, dan false negative untuk setiap kelas, dan kemudian menghitung metrik menggunakan jumlah ini. Metode ini memberikan bobot yang sama pada setiap instansi, sehingga cocok untuk dataset yang tidak seimbang. Persamaan untuk presisi, recall, dan skor F1 yang dihitung secara mikro adalah:
di mana
Makro-Pengukuran
Makro-pengukuran adalah teknik lain untuk menggabungkan kinerja pengklasifikasi multi-kelas di seluruh kelas dengan pertama menghitung metrik untuk setiap kelas secara terpisah, dan kemudian menghitung rata-rata metrik ini. Metode ini memberikan bobot yang sama pada setiap kelas, sehingga cocok untuk dataset seimbang. Persamaan untuk presisi, recall, dan skor F1 yang dihitung secara makro adalah:
Pengukuran Terbobot
Pengukuran terbobot adalah teknik untuk menggabungkan kinerja pengklasifikasi multi-kelas di seluruh kelas dengan pertama menghitung metrik untuk setiap kelas secara terpisah, dan kemudian menghitung rata-rata terbobot metrik ini berdasarkan jumlah instansi dalam setiap kelas. Metode ini memperhitungkan ketidakseimbangan kelas. Persamaan untuk presisi, recall, dan skor F1 yang dihitung secara terbobot adalah:
di mana
Referensi