Traffine I/O

Bahasa Indonesia

2022-05-24

Metrik Klasifikasi

Pendahuluan

Metrik kinerja sangat penting dalam mengevaluasi dan membandingkan model machine learning. Metrik ini memberikan cara objektif untuk menentukan efektivitas model dalam memprediksi hasil berdasarkan data input. Metrik ini tidak hanya memungkinkan kita untuk mengidentifikasi kelebihan dan kelemahan dari berbagai algoritma, tetapi juga membimbing kita dalam memilih model yang paling cocok untuk tugas tertentu. Selain itu, metrik kinerja membantu dalam pemilihan model, penyesuaian hyperparameter, dan mendiagnosis potensi masalah dalam proses pelatihan.

Masalah machine learning dapat dibagi menjadi dua kategori: regresi dan klasifikasi. Masalah regresi melibatkan prediksi nilai yang kontinu, sementara masalah klasifikasi melibatkan prediksi label atau kategori diskrit.

Metrik kinerja untuk masalah regresi dan klasifikasi berbeda karena sifat prediksi masing-masing. Metrik regresi berfokus pada perbedaan antara nilai yang diprediksi dan aktual, sedangkan metrik klasifikasi menilai seberapa baik model dapat mengklasifikasikan data input ke dalam kategori yang telah ditentukan.

Dalam artikel ini, saya akan menunjukkan metrik kinerja umum untuk masalah klasifikasi.

Metrik Klasifikasi

Masalah klasifikasi melibatkan prediksi label atau kategori diskrit berdasarkan data input. Dalam bab ini, saya akan membahas metrik kinerja yang paling umum digunakan untuk tugas klasifikasi dan bagaimana metrik ini dapat membantu mengevaluasi efektivitas model machine learning.

Matriks Kebingungan

Matriks kebingungan adalah tabel yang merangkum kinerja model klasifikasi dengan membandingkan label yang diprediksi dengan label aktual. Baris matriks mewakili kelas aktual, dan kolom mewakili kelas yang diprediksi. Empat elemen utama dari matriks kebingungan biner adalah:

  • True Positives (TP)
    benar diprediksi sebagai instansi positif
  • True Negatives (TN)
    benar diprediksi sebagai instansi negatif
  • False Positives (FP)
    instansi negatif yang salah diprediksi sebagai positif
  • False Negatives (FN)
    instansi positif yang salah diprediksi sebagai negatif

Akurasi

Akurasi adalah proporsi instansi yang diklasifikasikan dengan benar dari total instansi. Ini adalah metrik yang banyak digunakan untuk masalah klasifikasi, tetapi dapat menyesatkan ketika data tidak seimbang. Persamaan untuk akurasi adalah:

Accuracy = \frac{TP + TN}{TP + TN + FP + FN}

Presisi

Presisi, juga dikenal sebagai nilai prediktif positif, mengukur proporsi instansi positif yang benar diprediksi di antara instansi yang diprediksi sebagai positif. Ini menunjukkan kemampuan model untuk mengidentifikasi instansi positif dengan benar. Persamaan untuk presisi adalah:

Precision = \frac{TP}{TP + FP}

Recall

Recall, juga dikenal sebagai sensitivitas atau tingkat positif benar, mengukur proporsi instansi positif yang benar diprediksi di antara instansi positif aktual. Ini menunjukkan kemampuan model untuk mengidentifikasi semua instansi positif. Persamaan untuk recall adalah:

Recall = \frac{TP}{TP + FN}

Skor F1

Skor F1 adalah nilai rata-rata harmonik presisi dan recall, memberikan keseimbangan di antara keduanya. Ini sangat berguna ketika berurusan dengan dataset yang tidak seimbang. Persamaan untuk skor F1 adalah:

F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}

ROC-AUC

Kurva ROC adalah representasi grafis dari trade-off antara tingkat positif benar (sensitivitas) dan tingkat positif salah (1-spesifisitas) pada berbagai ambang klasifikasi. Skor AUC-ROC mengukur kinerja keseluruhan klasifikasi, dengan nilai yang lebih tinggi menunjukkan kinerja yang lebih baik. Skor AUC-ROC berkisar dari 0 hingga 1, dengan 0,5 mewakili klasifikasi acak.

PR-AUC

Kurva PR (Precision-Recall) adalah representasi grafis dari trade-off antara presisi dan recall pada berbagai ambang klasifikasi. Skor AUC-PR mengukur kinerja keseluruhan klasifikasi ketika data tidak seimbang atau ketika positif palsu dan negatif palsu memiliki biaya yang berbeda. Seperti AUC-ROC, skor AUC-PR berkisar dari 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan kinerja yang lebih baik.

Koefisien Korelasi Matthews (MCC)

MCC adalah ukuran seimbang yang memperhitungkan positif dan negatif benar dan salah, memberikan penilaian keseluruhan model klasifikasi. MCC berkisar dari -1 hingga 1, dengan nilai absolut yang lebih tinggi menunjukkan kinerja yang lebih baik. Persamaan untuk MCC adalah:

MCC = \frac{(TP \times TN) - (FP \times FN)}{\sqrt{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}}

Kappa Cohen

Kappa Cohen adalah ukuran kesepakatan antara label yang diprediksi dan aktual, memperhitungkan kesepakatan yang dapat terjadi secara kebetulan. Kappa Cohen berkisar dari -1 hingga 1, dengan nilai yang lebih tinggi menunjukkan kesepakatan yang lebih baik antara prediksi model dan label aktual. Persamaan untuk Kappa Cohen adalah:

Kappa = \frac{p_o - p_e}{1 - p_e}

di mana p_o mewakili kesepakatan yang diamati (akurasi), dan p_e mewakili kesepakatan yang diharapkan secara kebetulan.

Metrik Klasifikasi Multi-Kelas

Masalah klasifikasi multi-kelas melibatkan prediksi salah satu label atau kategori diskrit yang berbeda berdasarkan data masukan. Pada bab ini, saya akan membahas pengukuran kinerja yang paling umum digunakan untuk tugas klasifikasi multi-kelas dan bagaimana mereka dapat membantu mengevaluasi efektivitas model pembelajaran mesin.

Mikro-Pengukuran

Mikro-pengukuran adalah teknik untuk menggabungkan kinerja pengklasifikasi multi-kelas di seluruh kelas dengan pertama menghitung jumlah true positive, false positive, dan false negative untuk setiap kelas, dan kemudian menghitung metrik menggunakan jumlah ini. Metode ini memberikan bobot yang sama pada setiap instansi, sehingga cocok untuk dataset yang tidak seimbang. Persamaan untuk presisi, recall, dan skor F1 yang dihitung secara mikro adalah:

Precision_{micro} = \frac{\sum_{i=1}^{k} TP_i}{\sum_{i=1}^{k} (TP_i + FP_i)}
Recall_{micro} = \frac{\sum_{i=1}^{k} TP_i}{\sum_{i=1}^{k} (TP_i + FN_i)}
F1_{micro} = 2 \times \frac{Precision_{micro} \times Recall_{micro}}{Precision_{micro} + Recall_{micro}}

di mana k adalah jumlah kelas, dan TP_i, FP_i, dan FN_i adalah true positives, false positives, dan false negatives untuk kelas i, masing-masing.

Makro-Pengukuran

Makro-pengukuran adalah teknik lain untuk menggabungkan kinerja pengklasifikasi multi-kelas di seluruh kelas dengan pertama menghitung metrik untuk setiap kelas secara terpisah, dan kemudian menghitung rata-rata metrik ini. Metode ini memberikan bobot yang sama pada setiap kelas, sehingga cocok untuk dataset seimbang. Persamaan untuk presisi, recall, dan skor F1 yang dihitung secara makro adalah:

Precision_{macro} = \frac{1}{k} \sum_{i=1}^{k} \frac{TP_i}{TP_i + FP_i}
Recall_{macro} = \frac{1}{k} \sum_{i=1}^{k} \frac{TP_i}{TP_i + FN_i}
F1_{macro} = \frac{1}{k} \sum_{i=1}^{k} 2 \times \frac{Precision_i \times Recall_i}{Precision_i + Recall_i}

Pengukuran Terbobot

Pengukuran terbobot adalah teknik untuk menggabungkan kinerja pengklasifikasi multi-kelas di seluruh kelas dengan pertama menghitung metrik untuk setiap kelas secara terpisah, dan kemudian menghitung rata-rata terbobot metrik ini berdasarkan jumlah instansi dalam setiap kelas. Metode ini memperhitungkan ketidakseimbangan kelas. Persamaan untuk presisi, recall, dan skor F1 yang dihitung secara terbobot adalah:

Precision_{weighted} = \frac{1}{n} \sum_{i=1}^{k} (n_i \times \frac{TP_i}{TP_i + FP_i})
Recall_{weighted} = \frac{1}{n} \sum_{i=1}^{k} (n_i \times \frac{TP_i}{TP_i + FN_i})
F1_{weighted} = \frac{1}{n} \sum_{i=1}^{k} (n_i \times 2 \times \frac{Precision_i \times Recall_i}{Precision_i + Recall_i})

di mana n adalah total jumlah instansi, dan n_i adalah jumlah instansi dalam kelas i.

Referensi

https://neptune.ai/blog/performance-metrics-in-machine-learning-complete-guide
https://www.javatpoint.com/performance-metrics-in-machine-learning
https://towardsdatascience.com/performance-metrics-in-machine-learning-part-1-classification-6c6b8d8a8c92
https://www.altexsoft.com/blog/machine-learning-metrics/

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!