Traffine I/O

Bahasa Indonesia

2022-05-23

Underfitting and Overfitting

Pendahuluan

Keberhasilan sebuah model machine learning ditentukan oleh kemampuannya untuk memprediksi hasil berdasarkan data masukan dengan akurasi yang tinggi. Sebuah model yang berhasil harus mampu menggeneralisasi dengan baik pada data baru yang belum pernah dilihat sebelumnya, dan memberikan prediksi yang akurat yang mencerminkan pola dan hubungan yang ada dalam data. Untuk mencapai hal ini, kinerja model harus dioptimalkan untuk menemukan keseimbangan antara menangkap struktur esensial dari data dan menghindari overfitting atau underfitting.

Underfitting and overfitting
Avoid overfitting machine learning models

Apa itu Underfitting

Underfitting terjadi ketika sebuah model machine learning tidak mampu menangkap pola atau struktur yang mendasari dalam data latihan. Dengan kata lain, model terlalu sederhana untuk merepresentasikan hubungan antara fitur masukan dan prediksi keluaran secara akurat. Akibatnya, model yang mengalami underfitting cenderung memiliki kinerja yang buruk baik pada data latihan maupun data pengujian.

Penyebab Underfitting

Beberapa faktor dapat menyebabkan terjadinya underfitting dalam model machine learning:

  • Kompleksitas Model yang Tidak Memadai
    Ketika sebuah model tidak cukup kompleks untuk merepresentasikan hubungan yang sebenarnya antara fitur masukan dan prediksi keluaran, hal ini dapat menyebabkan terjadinya underfitting. Sebagai contoh, menggunakan model regresi linear untuk masalah yang memiliki hubungan non-linear antara variabel.

  • Feature Engineering yang Kurang Memadai
    Jika fitur masukan tidak memberikan informasi yang cukup tentang prediksi keluaran, model akan kesulitan untuk belajar hubungan antara keduanya, yang berujung pada terjadinya underfitting. Hal ini bisa disebabkan oleh kurangnya fitur yang relevan atau representasi fitur yang buruk.

  • Regulasi yang Terlalu Kuat
    Regulasi adalah teknik yang digunakan untuk mencegah overfitting dengan menambahkan istilah hukuman ke dalam fungsi kerugian. Namun, jika istilah regulasi terlalu besar, model dapat dibatasi secara berlebihan sehingga mengakibatkan terjadinya underfitting pada data.

Implikasi Underfitting pada Kinerja Model

Underfitting memiliki beberapa konsekuensi negatif pada kinerja sebuah model machine learning:

  • Akurasi Latihan dan Pengujian yang Rendah
    Sebuah model yang mengalami underfitting tidak akan berkinerja baik pada data latihan karena gagal menangkap struktur yang mendasari dalam data. Kinerja yang buruk juga akan terlihat pada data pengujian, yang menghasilkan akurasi prediksi yang rendah.

  • Bias Tinggi
    Underfitting sering ditandai dengan bias yang tinggi, yang berarti model secara konsisten menghasilkan prediksi yang berbeda dengan nilai yang sebenarnya. Bias yang tinggi menunjukkan bahwa asumsi model tentang data tidak benar atau terlalu sederhana.

  • Generalisasi yang Buruk
    Karena model yang mengalami underfitting tidak menangkap hubungan mendasari dalam data latihan, maka model akan kesulitan untuk menggeneralisasi dengan baik pada data baru yang belum pernah dilihat sebelumnya.

Apa itu Overfitting

Overfitting terjadi ketika sebuah model machine learning tidak hanya menangkap pola atau struktur mendasari dalam data latihan, tetapi juga menangkap noise dan fluktuasi acak. Dengan kata lain, model menjadi terlalu kompleks dan menyesuaikan diri dengan data latihan secara terlalu dekat, sehingga menghasilkan generalisasi yang buruk pada data baru yang belum pernah dilihat sebelumnya. Model yang mengalami overfitting cenderung memiliki kinerja yang sangat baik pada data latihan, tetapi kinerja buruk pada data pengujian.

Penyebab Overfitting

Beberapa faktor dapat menyebabkan terjadinya overfitting pada model machine learning:

  • Kompleksitas Model yang Berlebihan
    Ketika model terlalu kompleks, ia dapat dengan mudah menyesuaikan diri dengan noise dan fluktuasi data latihan, yang mengakibatkan terjadinya overfitting. Sebagai contoh, menggunakan jaringan saraf dalam-dalam dengan banyak lapisan dan neuron untuk masalah dengan data latihan yang terbatas.

  • Data Latihan yang Tidak Memadai
    Jika data latihan terlalu kecil atau tidak mewakili populasi secara keseluruhan, model dapat belajar untuk menyesuaikan diri dengan data latihan terlalu dekat, menghasilkan overfitting.

  • Regulasi yang Tidak Memadai
    Jika istilah regulasi terlalu kecil, maka model dapat menjadi terlalu kompleks, sehingga mengakibatkan terjadinya overfitting pada data.

Implikasi Overfitting pada Kinerja Model

Overfitting memiliki beberapa konsekuensi negatif pada kinerja sebuah model machine learning:

  • Akurasi Latihan yang Tinggi, Akurasi Pengujian yang Rendah
    Sebuah model yang mengalami overfitting akan memiliki kinerja yang sangat baik pada data latihan karena menangkap struktur dan noise dalam data tersebut. Namun, akurasi yang tinggi ini tidak akan dihasilkan pada data pengujian, di mana model akan berkinerja buruk.

  • Varians yang Tinggi
    Overfitting sering ditandai dengan varian yang tinggi, yang berarti prediksi model sangat sensitif terhadap perubahan kecil dalam data masukan. Varians yang tinggi menunjukkan bahwa model terlalu kompleks dan tidak dapat menggeneralisasi dengan baik pada data baru.

  • Generalisasi yang Buruk
    Karena model yang mengalami overfitting belajar untuk menyesuaikan diri dengan noise dan fluktuasi dalam data latihan, maka model akan kesulitan untuk menggeneralisasi dengan baik pada data baru yang belum pernah dilihat sebelumnya.

Referensi

https://www.geeksforgeeks.org/underfitting-and-overfitting-in-machine-learning/
https://www.mathworks.com/discovery/overfitting.html

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!