Apa itu Model Logit Biner
Model logit biner adalah alat statistik yang digunakan untuk memodelkan probabilitas terjadinya suatu peristiwa dalam situasi dengan dua kemungkinan hasil. Juga dikenal sebagai regresi logistik, model ini banyak digunakan dalam berbagai bidang, termasuk ilmu sosial, ekonomi, dan ilmu kesehatan, untuk memprediksi respons biner berdasarkan satu atau lebih variabel prediktor. Populeritas model ini berasal dari kemudahan interpretasi, fleksibilitas, dan landasan teoritis yang kuat.
Pusat dari model logit biner adalah fungsi logistik, yang memetakan nilai input apa pun ke probabilitas antara 0 dan 1. Fungsi ini memungkinkan untuk estimasi probabilitas yang tidak mudah dimodelkan menggunakan teknik regresi linear tradisional. Tujuan utama model logit adalah untuk menentukan hubungan antara kumpulan variabel prediktor dan hasil biner yang diminati.
Memahami Fungsi Logistik
Fungsi logistik, kadang-kadang disebut fungsi sigmoid, adalah dasar dari model logit biner. Ini adalah fungsi matematika yang memetakan setiap nilai input berupa bilangan riil ke nilai probabilitas antara 0 dan 1. Transformasi ini membuat fungsi logistik ideal untuk memodelkan hubungan antara variabel prediktor dan hasil biner.
Definisi Fungsi Logistik
Fungsi logistik didefinisikan secara formal sebagai:
di mana
Properti Fungsi Logistik
Ada beberapa properti penting dari fungsi logistik yang membuatnya cocok untuk memodelkan probabilitas dalam model logit biner:
-
Keterbatasan
Output fungsi logistik selalu antara 0 dan 1, yang sesuai dengan rentang probabilitas. -
Monotonisitas
Fungsi logistik selalu naik, yang berarti bahwa saat nilai input meningkat, nilai output juga meningkat. -
Diferensialitas
Fungsi logistik diferensial, yang membuatnya dapat dioptimalkan menggunakan teknik pengoptimalan yang digunakan dalam penyesuaian model.
Transformasi Logit
Transformasi logit adalah kebalikan dari fungsi logistik dan digunakan untuk memodelkan hubungan antara variabel prediktor dan log-odds dari hasil biner. Transformasi logit didefinisikan sebagai:
di mana
Memasukkan Variabel Prediktor
Dalam model logit biner, transformasi logit diterapkan pada kombinasi linear dari variabel prediktor, direpresentasikan sebagai:
di mana
Interpretasi Model dan Rasio Peluang
Setelah model logit biner dipasangkan menggunakan Estimasi Maksimum Peluang, menginterpretasikan koefisien model sangat penting untuk memahami hubungan antara variabel prediktor dan hasil biner. Dalam bab ini, saya akan membahas bagaimana menginterpretasikan koefisien model logit biner menggunakan rasio peluang dan mengeksplorasi implikasi dari interpretasi ini untuk pengambilan keputusan dan pengujian hipotesis.
Menginterpretasikan Koefisien dalam Model Logit
Dalam model logit biner, koefisien mewakili perubahan log-odds dari hasil positif untuk peningkatan satu unit dalam variabel prediktor yang sesuai, dengan menjaga semua variabel lain konstan. Meskipun interpretasi ini secara matematis akurat, hal ini tidak mudah diinterpretasikan dalam praktik. Untuk memudahkan interpretasi, kita dapat menggunakan rasio peluang.
Rasio Peluang
Rasio peluang adalah cara yang lebih intuitif untuk mengungkapkan hubungan antara variabel prediktor dan hasil biner dalam model logit. Rasio peluang untuk variabel prediktor yang diberikan adalah rasio antara peluang hasil positif saat variabel prediktor meningkat satu unit, dengan menjaga semua variabel lain tetap konstan. Secara matematis, rasio peluang untuk variabel prediktor
di mana
Interpretasi Rasio Peluang
Untuk mengilustrasikan interpretasi rasio peluang, mari pertimbangkan model logit biner hipotetis yang memprediksi kemungkinan pelanggan melakukan pembelian berdasarkan usia dan penghasilannya:
Anggaplah koefisien yang diestimasi adalah
Rasio peluang ini menunjukkan bahwa peningkatan satu tahun dalam usia dikaitkan dengan peningkatan 10% dalam peluang melakukan pembelian, dan peningkatan satu unit dalam penghasilan dikaitkan dengan peningkatan 5% dalam peluang melakukan pembelian, dengan menjaga semua variabel lain tetap konstan.
Pengujian Hipotesis dan Interval Kepercayaan
Pengujian hipotesis dapat dilakukan untuk menilai signifikansi statistik dari setiap variabel prediktor dalam model logit biner. Hipotesis nol menyatakan bahwa variabel prediktor tidak memiliki efek pada hasil biner, yang mengimplikasikan bahwa koefisien yang sesuai adalah nol. Hipotesis alternatif menyatakan bahwa variabel prediktor memiliki efek yang signifikan pada hasil biner, mengimplikasikan bahwa koefisien yang sesuai berbeda dari nol.
Uji Wald dan uji rasio kemungkinan umumnya digunakan untuk pengujian hipotesis dalam model logit biner. Selain itu, interval kepercayaan untuk koefisien atau rasio peluang dapat dihitung untuk memberikan rentang nilai yang mungkin untuk parameter populasi yang sebenarnya.
Model Logit Biner dengan R
Pada bab ini, saya akan membahas contoh tentang cara memasangkan model logit biner menggunakan R, bahasa pemrograman populer untuk komputasi statistik. Kita akan menggunakan fungsi glm()
dari paket dasar R untuk memasangkan model, mengevaluasi performanya, dan menafsirkan hasilnya.
Persiapan Data
Untuk contoh ini, kita akan menggunakan dataset mtcars
yang sudah tersedia di R. Dataset ini terdiri dari berbagai atribut mobil dan efisiensi bahan bakarnya yang diukur dalam mil per gallon (mpg) masing-masing. Kita akan membuat variabel hasil biner yang menunjukkan apakah mobil itu efisien dalam bahan bakar (1) atau tidak (0) berdasarkan ambang batas 22,5 mpg.
Pertama, muat data dan buat variabel hasil biner:
data(mtcars)
mtcars$efficient <- ifelse(mtcars$mpg > 22.5, 1, 0)
Memasangkan Model Logit Biner
Kita akan menggunakan fungsi glm()
untuk memasangkan model logit biner dengan variabel hasil efisiensi bahan bakar dan dua variabel prediktor: berat (wt
) dan tenaga kuda (hp
). Argumen family = binomial(link = "logit")
menunjukkan bahwa kita ingin memasangkan model logit biner.
logit_model <- glm(efficient ~ wt + hp, data = mtcars, family = binomial(link = "logit"))
summary(logit_model)
Fungsi summary()
akan menampilkan koefisien model, kesalahan standar, z-value, dan p-value untuk masing-masing variabel prediktor.
Call:
glm(formula = efficient ~ wt + hp, family = binomial(link = "logit"),
data = mtcars)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.72029 -0.00913 -0.00001 0.00314 1.40334
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 30.4063 18.0320 1.686 0.0917 .
wt -3.1801 1.9659 -1.618 0.1057
hp -0.2201 0.1447 -1.521 0.1283
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 38.0243 on 31 degrees of freedom
Residual deviance: 6.5068 on 29 degrees of freedom
AIC: 12.507
Number of Fisher Scoring iterations: 10
-
Call
Bagian ini menampilkan panggilan fungsi yang digunakan untuk memasangkan model. Ini menunjukkan variabel respons (efficient), variabel prediktor (wt
danhp
), dan keluarga yang ditentukan untuk model (binomial dengan logit link). -
Deviance Residuals
Ini adalah sisa dari model yang diekspresikan dalam hal deviance. Statistik ringkasan (minimum, kuartil pertama, median, kuartil ketiga, dan maksimum) memberikan indikasi seberapa baik model cocok dengan data. Idealnya, sisa harus kecil dan didistribusikan secara simetris sekitar nol. -
Coefficients
Bagian ini menyediakan koefisien yang diperkirakan, kesalahan standar, z-value, dan p-value untuk masing-masing variabel prediktor dan intercept. Koefisien mewakili perubahan dalam log-odds hasil positif (mobil yang efisien dalam bahan bakar) untuk peningkatan satu unit dalam variabel prediktor, dengan mempertahankan semua variabel lainnya konstan.- Intercept: 30,4063
- Berat (wt): -3,1801
- Tenaga Kuda (hp): -0,2201
-
Significance codes
Kode kebermaknaan menunjukkan tingkat signifikansi statistik untuk setiap variabel prediktor. Dalam model ini, tidak ada variabel prediktor yang signifikan secara statistik pada tingkat 0,05, seperti yang ditunjukkan oleh nilai p (0,0917 untuk intercept, 0,1057 untukwt
, dan 0,1283 untukhp
). -
Dispersion parameter
Nilai ini diatur menjadi 1 untuk keluarga binomial, menunjukkan bahwa model mengasumsikan varian yang konstan. -
Null deviance and Residual deviance
Deviance nol mewakili deviance untuk model tanpa variabel prediktor (yaitu, hanya intercept), sementara deviance sisa adalah deviance untuk model yang dipasangkan. Membandingkan nilai ini dapat memberikan indikasi kasar tentang kesesuaian model. Dalam kasus ini, deviance sisa (6,5068) jauh lebih kecil daripada deviance nol (38,0243), menunjukkan bahwa model dengan variabel prediktor memberikan kesesuaian yang lebih baik daripada model nol. -
AIC
Kriteria Informasi Akaike (AIC) adalah ukuran kesesuaian model yang menyeimbangkan kemungkinan model dengan jumlah parameter. Nilai AIC yang lebih kecil menunjukkan kesesuaian model yang lebih baik. AIC dapat digunakan untuk membandingkan model yang berbeda yang dipasangkan dengan data yang sama, dengan nilai AIC yang lebih rendah menunjukkan model yang lebih cocok. -
Number of Fisher Scoring iterations
Nilai ini menunjukkan jumlah iterasi yang diperlukan untuk konvergen. Dalam kasus ini, dibutuhkan 10 iterasi.
Model Diagnostics
Untuk mengevaluasi kinerja klasifikasi model, buat matriks kebingungan:
# Predict probabilities
predicted_prob <- predict(logit_model, type = "response")
# Convert probabilities to binary outcomes
predicted_outcome <- ifelse(predicted_prob > 0.5, 1, 0)
# Create confusion matrix
table(Predicted = predicted_outcome, Actual = mtcars$efficient)
Actual
Predicted 0 1
0 22 1
1 1 8
Interpretasi Hasil
Tafsirkan koefisien dan rasio odds dari variabel prediktor:
# Calculate odds ratios
exp(coef(logit_model))
(Intercept) wt hp
1.604309e+13 4.157947e-02 8.024697e-01
Rasio odds adalah sebagai berikut:
- Intercept:
1,604 \times 10^{13} - Berat (wt): 0,0416
- Tenaga Kuda (hp): 0,802
Untuk menafsirkan rasio odds ini:
-
Intercept
Intercept mewakili peluang mobil efisien dalam bahan bakar ketika berat dan tenaga kuda sama dengan nol. Karena nilai ini sangat besar, maka tidak memiliki arti praktis dalam konteks ini. Dalam praktiknya, mobil dengan berat atau tenaga kuda nol tidak realistis. -
Berat (wt)
Untuk setiap peningkatan unit dalam berat, peluang mobil yang efisien dalam bahan bakar menurun sekitar 96% (1 - 0,0416 = 0,9584), dengan mempertahankan tenaga kuda konstan. Hal ini menunjukkan bahwa mobil yang lebih berat kurang mungkin efisien dalam bahan bakar. -
Tenaga Kuda (hp)
Untuk setiap peningkatan unit dalam tenaga kuda, peluang mobil yang efisien dalam bahan bakar menurun sekitar 20% (1 - 0,802 = 0,198), dengan mempertahankan berat konstan. Hal ini menunjukkan bahwa mobil dengan tenaga kuda yang lebih tinggi kurang mungkin efisien dalam bahan bakar.