Traffine I/O

Bahasa Indonesia

2022-11-18

Multikolinearitas

Apa itu multikolinearitas

Ketika dua variabel penjelas saling berkorelasi kuat satu sama lain, maka disebut kolinearitas. Misalnya, ketika tinggi badan dan berat badan dimasukkan sebagai variabel penjelas dalam sebuah model, kita dapat mengatakan bahwa model tersebut kolinear karena tinggi badan dan berat badan berkorelasi.

Multikolinearitas mengacu pada keadaan di mana terjadi kolinearitas ganda dalam analisis multivariat seperti analisis regresi ganda. Dengan kata lain, ada beberapa kombinasi variabel penjelas yang sangat berkorelasi.

Masalah dengan multikolinearitas

Ketika menganalisis data, multikolinearitas harus dipertimbangkan. Kegagalan untuk mempertimbangkan multikolinearitas dapat menyebabkan kesimpulan yang salah.

Masalah dengan multikolinearitas adalah bahwa hal itu dapat menyebabkan β erro, yang membuatnya mudah untuk melewatkan variabel yang secara signifikan mempengaruhi variabel target.

Sebagai contoh, misalkan kecepatan lari adalah variabel sasaran dan variabel penjelasnya termasuk tinggi badan dan berat badan. Di sini, tinggi badan bisa menjadi faktor yang menentukan kecepatan lari, tetapi berat badan adalah faktor yang tidak secara langsung berhubungan dengan kecepatan lari. Namun, karena tinggi dan berat badan berkorelasi satu sama lain, berat badan bisa dianggap sebagai penentu kecepatan lari. Oleh karena itu, tidak jelas faktor mana yang berkorelasi, tinggi badan atau berat badan, yang menjadi penentu kecepatan lari, yang menyebabkan kesalahan yang lebih besar. Semakin besar kesalahan, semakin sulit untuk mendapatkan hubungan yang signifikan. Oleh karena itu, tinggi dan berat badan dianggap bukan merupakan faktor kecepatan lari.

Dengan kata lain, masalah dengan multikolinearitas adalah bahwa galat standar untuk variabel penjelas yang kolinear menjadi sangat besar, sehingga tidak mungkin untuk mendapatkan signifikansi untuk variabel penjelas yang seharusnya signifikan.

VIF, kriteria untuk multikolinearitas

Ada tidaknya multikolinearitas dapat ditentukan dengan menggunakan VIF (Variance Inflation Factor), yaitu suatu nilai yang dihitung untuk setiap variabel penjelas dan dapat diperoleh dengan menggunakan rumus berikut.

VIF_i = \frac{1}{1- R^2_i}

R^2_i adalah koefisien determinasi regresi dengan x_i sebagai variabel tujuan dan variabel penjelas lainnya sebagai variabel penjelas yang akan dihitung VIF-nya.

Meskipun ada perbedaan pendapat tentang nilai standar VIF yang tepat, VIF < 10 sering digunakan sebagai nilai minimum. Dengan kata lain, VIF yang lebih besar dari 10 menunjukkan bahwa telah terjadi multikolinearitas. Namun, karena analisis multivariat secara inheren mengasumsikan bahwa tidak ada korelasi antar variabel penjelas, maka dapat dikatakan bahwa hasil model mulai terdistorsi ketika VIF melebihi 3.

Mengapa koefisien korelasi tidak cukup untuk menentukan multikolinearitas

Koefisien korelasi tidak cukup untuk menentukan multikolinearitas. Alasannya adalah bahwa koefisien korelasi hanya menyatakan hubungan antara dua variabel. Sebagai contoh, ada kasus dimana dua variabel tidak berkorelasi, tetapi tiga variabel saling berkorelasi. Dalam kasus seperti itu, koefisien korelasi tidak dapat mengekspresikan korelasi di antara ketiga variabel.

Bagaimana cara menghilangkan multikolinearitas

Ada dua metode utama untuk menghindari multikolinearitas sebagai berikut

  • Hilangkan variabel penjelas yang relevan
    Dalam contoh ini, multikolinearitas dapat dihindari dengan menghilangkan bobot dari variabel penjelas.
  • Pengurangan dimensi dengan PCA
    Variabel-variabel sintetik yang disebut komponen utama yang dihasilkan oleh PCA (Principal Component Analysis) bersifat independen satu sama lain, sehingga menghilangkan kekhawatiran multikolinearitas.

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!