Pendahuluan
Keberhasilan sebuah model machine learning ditentukan oleh kemampuannya untuk memprediksi hasil berdasarkan data masukan dengan akurasi yang tinggi. Sebuah model yang berhasil harus mampu menggeneralisasi dengan baik pada data baru yang belum pernah dilihat sebelumnya, dan memberikan prediksi yang akurat yang mencerminkan pola dan hubungan yang ada dalam data. Untuk mencapai hal ini, kinerja model harus dioptimalkan untuk menemukan keseimbangan antara menangkap struktur esensial dari data dan menghindari overfitting atau underfitting.
Avoid overfitting machine learning models
Apa itu Underfitting
Underfitting terjadi ketika sebuah model machine learning tidak mampu menangkap pola atau struktur yang mendasari dalam data latihan. Dengan kata lain, model terlalu sederhana untuk merepresentasikan hubungan antara fitur masukan dan prediksi keluaran secara akurat. Akibatnya, model yang mengalami underfitting cenderung memiliki kinerja yang buruk baik pada data latihan maupun data pengujian.
Penyebab Underfitting
Beberapa faktor dapat menyebabkan terjadinya underfitting dalam model machine learning:
-
Kompleksitas Model yang Tidak Memadai
Ketika sebuah model tidak cukup kompleks untuk merepresentasikan hubungan yang sebenarnya antara fitur masukan dan prediksi keluaran, hal ini dapat menyebabkan terjadinya underfitting. Sebagai contoh, menggunakan model regresi linear untuk masalah yang memiliki hubungan non-linear antara variabel. -
Feature Engineering yang Kurang Memadai
Jika fitur masukan tidak memberikan informasi yang cukup tentang prediksi keluaran, model akan kesulitan untuk belajar hubungan antara keduanya, yang berujung pada terjadinya underfitting. Hal ini bisa disebabkan oleh kurangnya fitur yang relevan atau representasi fitur yang buruk. -
Regulasi yang Terlalu Kuat
Regulasi adalah teknik yang digunakan untuk mencegah overfitting dengan menambahkan istilah hukuman ke dalam fungsi kerugian. Namun, jika istilah regulasi terlalu besar, model dapat dibatasi secara berlebihan sehingga mengakibatkan terjadinya underfitting pada data.
Implikasi Underfitting pada Kinerja Model
Underfitting memiliki beberapa konsekuensi negatif pada kinerja sebuah model machine learning:
-
Akurasi Latihan dan Pengujian yang Rendah
Sebuah model yang mengalami underfitting tidak akan berkinerja baik pada data latihan karena gagal menangkap struktur yang mendasari dalam data. Kinerja yang buruk juga akan terlihat pada data pengujian, yang menghasilkan akurasi prediksi yang rendah. -
Bias Tinggi
Underfitting sering ditandai dengan bias yang tinggi, yang berarti model secara konsisten menghasilkan prediksi yang berbeda dengan nilai yang sebenarnya. Bias yang tinggi menunjukkan bahwa asumsi model tentang data tidak benar atau terlalu sederhana. -
Generalisasi yang Buruk
Karena model yang mengalami underfitting tidak menangkap hubungan mendasari dalam data latihan, maka model akan kesulitan untuk menggeneralisasi dengan baik pada data baru yang belum pernah dilihat sebelumnya.
Apa itu Overfitting
Overfitting terjadi ketika sebuah model machine learning tidak hanya menangkap pola atau struktur mendasari dalam data latihan, tetapi juga menangkap noise dan fluktuasi acak. Dengan kata lain, model menjadi terlalu kompleks dan menyesuaikan diri dengan data latihan secara terlalu dekat, sehingga menghasilkan generalisasi yang buruk pada data baru yang belum pernah dilihat sebelumnya. Model yang mengalami overfitting cenderung memiliki kinerja yang sangat baik pada data latihan, tetapi kinerja buruk pada data pengujian.
Penyebab Overfitting
Beberapa faktor dapat menyebabkan terjadinya overfitting pada model machine learning:
-
Kompleksitas Model yang Berlebihan
Ketika model terlalu kompleks, ia dapat dengan mudah menyesuaikan diri dengan noise dan fluktuasi data latihan, yang mengakibatkan terjadinya overfitting. Sebagai contoh, menggunakan jaringan saraf dalam-dalam dengan banyak lapisan dan neuron untuk masalah dengan data latihan yang terbatas. -
Data Latihan yang Tidak Memadai
Jika data latihan terlalu kecil atau tidak mewakili populasi secara keseluruhan, model dapat belajar untuk menyesuaikan diri dengan data latihan terlalu dekat, menghasilkan overfitting. -
Regulasi yang Tidak Memadai
Jika istilah regulasi terlalu kecil, maka model dapat menjadi terlalu kompleks, sehingga mengakibatkan terjadinya overfitting pada data.
Implikasi Overfitting pada Kinerja Model
Overfitting memiliki beberapa konsekuensi negatif pada kinerja sebuah model machine learning:
-
Akurasi Latihan yang Tinggi, Akurasi Pengujian yang Rendah
Sebuah model yang mengalami overfitting akan memiliki kinerja yang sangat baik pada data latihan karena menangkap struktur dan noise dalam data tersebut. Namun, akurasi yang tinggi ini tidak akan dihasilkan pada data pengujian, di mana model akan berkinerja buruk. -
Varians yang Tinggi
Overfitting sering ditandai dengan varian yang tinggi, yang berarti prediksi model sangat sensitif terhadap perubahan kecil dalam data masukan. Varians yang tinggi menunjukkan bahwa model terlalu kompleks dan tidak dapat menggeneralisasi dengan baik pada data baru. -
Generalisasi yang Buruk
Karena model yang mengalami overfitting belajar untuk menyesuaikan diri dengan noise dan fluktuasi dalam data latihan, maka model akan kesulitan untuk menggeneralisasi dengan baik pada data baru yang belum pernah dilihat sebelumnya.
Referensi