Traffine I/O

Bahasa Indonesia

2022-05-24

Metrik Regresi

Pengenalan

Metrik kinerja sangat penting dalam mengevaluasi dan membandingkan model machine learning. Metrik ini menyediakan cara objektif untuk menentukan efektivitas sebuah model dalam memprediksi hasil berdasarkan data input. Metrik ini tidak hanya memungkinkan kita untuk mengidentifikasi kekuatan dan kelemahan dari berbagai algoritma, tetapi juga membantu kita dalam memilih model yang paling cocok untuk tugas tertentu. Selain itu, metrik kinerja membantu dalam pemilihan model, penyesuaian hyperparameter, dan diagnosis masalah potensial dalam proses pelatihan.

Masalah machine learning dapat secara luas dikelompokkan menjadi dua kategori: regresi dan klasifikasi. Masalah regresi melibatkan prediksi nilai kontinu, sedangkan masalah klasifikasi melibatkan prediksi label atau kategori diskrit.

Metrik kinerja untuk masalah regresi dan klasifikasi berbeda karena sifat prediksi masing-masing. Metrik regresi berfokus pada perbedaan antara nilai prediksi dan nilai aktual, sedangkan metrik klasifikasi mengevaluasi seberapa baik model dapat mengklasifikasikan data input ke dalam kategori yang telah ditentukan.

Dalam artikel ini, saya akan membahas metrik kinerja umum untuk masalah regresi.

Metrik Regresi

Masalah regresi melibatkan prediksi nilai kontinu berdasarkan data input. Dalam bab ini, saya akan membahas metrik kinerja yang paling umum digunakan untuk tugas regresi dan bagaimana mereka dapat membantu mengevaluasi efektivitas model machine learning.

Mean Absolute Error (MAE)

Mean Absolute Error adalah metrik sederhana yang menghitung rata-rata selisih absolut antara nilai prediksi dan nilai aktual. MAE memberikan gambaran tentang seberapa jauh prediksi dari nilai aktual, dengan MAE yang lebih rendah menunjukkan kinerja yang lebih baik. Persamaan untuk MAE adalah:

MAE = \frac{1}{n}\sum_{i=1}^{n} |y_i - \hat{y}_i|\

di mana y_i mewakili nilai aktual, \hat{y}_i mewakili nilai prediksi, dan n adalah jumlah sampel.

Mean Squared Error (MSE)

Mean Squared Error mengukur rata-rata selisih kuadrat antara nilai prediksi dan nilai aktual. Dengan memangkatkan kesalahan, MSE memberikan hukuman yang lebih berat terhadap deviasi yang lebih besar, sehingga lebih sensitif terhadap outlier daripada MAE. Persamaan untuk MSE adalah:

MSE = \frac{1}{n}\sum_{i=1}^{n} (y_i - \hat{y}_i)^2

Root Mean Squared Error (RMSE)

Root Mean Squared Error adalah akar kuadrat dari MSE. Metrik ini memberikan perkiraan dari rata-rata kesalahan dalam unit yang sama dengan nilai prediksi dan aktual, sehingga lebih mudah untuk diinterpretasikan. Persamaan untuk RMSE adalah:

RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}

R-squared

R-squared, also known as the coefficient of determination, measures the proportion of the variance in the dependent variable that can be predicted from the independent variables. R-squared ranges from 0 to 1, with higher values indicating better model performance. The equation for R-squared is:

R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}

di mana \bar{y} adalah rata-rata nilai aktual.

Adjusted R-squared

Adjusted R-squared adalah perpanjangan dari R-squared yang mempertimbangkan jumlah prediktor dalam model. Metrik ini memberikan ukuran yang lebih akurat dari kinerja model, terutama ketika terdapat beberapa prediktor. Persamaan untuk adjusted R-squared adalah:

\bar{R}^2 = 1 - \frac{(1 - R^2)(n - 1)}{n - p - 1}

di mana n adalah jumlah sampel, p adalah jumlah prediktor, dan R^2 adalah nilai R-squared.

Mean Absolute Percentage Error (MAPE)

Mean Absolute Percentage Error menghitung rata-rata persentase kesalahan absolut antara nilai prediksi dan nilai aktual. MAPE berguna ketika membandingkan kesalahan di berbagai skala atau unit. Persamaan untuk MAPE adalah:

MAPE = \frac{1}{n}\sum_{i=1}^{n} \left|\frac{y_i - \hat{y}_i}{y_i}\right| \times 100\%

Median Absolute Deviation (MAD)

Median Absolute Deviation adalah metrik yang tangguh yang menghitung median dari selisih absolut antara nilai prediksi dan nilai aktual. MAD kurang sensitif terhadap outlier daripada MAE, sehingga menjadi alternatif yang berguna dalam kasus-kasus di mana data mengandung nilai ekstrim. Persamaan untuk MAD adalah:

MAD = \text{median}(|y_1 - \hat{y}_1|, |y_2 - \hat{y}_2|, \dots, |y_n - \hat{y}_n|)

Referensi

https://neptune.ai/blog/performance-metrics-in-machine-learning-complete-guide
https://www.javatpoint.com/performance-metrics-in-machine-learning
https://www.altexsoft.com/blog/machine-learning-metrics/

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!