2022-12-26
Estimasi, Interpretasi, dan Evaluasi Model Logit
Pendahuluan
Artikel ini akan membahas tentang estimasi dan interpretasi koefisien logit, dengan fokus pada penggunaan estimasi likelihood maksimum (MLE) dan pengubahan koefisien ini menjadi rasio odds. Kita juga akan membahas evaluasi dan validasi model logit, menjelajahi ukuran kebaikan fit dan mengevaluasi asumsi dan batasan dari model-model ini.
Terakhir, saya akan memberikan demonstrasi praktis mengenai estimasi dan interpretasi koefisien logit dan mengevaluasi kinerjanya menggunakan R.
Estimasi dan Interpretasi Koefisien Logit
Kita akan membahas tentang estimasi koefisien logit dengan menggunakan estimasi likelihood maksimum (MLE) dan interpretasi koefisien ini sebagai rasio odds.
Estimasi Likelihood Maksimum
Pada model logit, hubungan antara variabel hasil biner
Untuk mengestimasi koefisien
Estimasi MLE adalah yang memaksimalkan fungsi likelihood. Untuk menemukan estimasi ini, biasanya kita menggunakan algoritma optimisasi numerik iteratif seperti Newton-Raphson atau iteratively reweighted least squares (IRLS).
Rasio Odds dan Interpretasi
Untuk menginterpretasi koefisien logit, kita sering mengubahnya menjadi rasio odds. Rasio odds adalah rasio antara odds variabel hasil menjadi 1 untuk dua nilai yang berbeda dari variabel prediktor. Untuk kenaikan satu unit pada prediktor
Rasio odds yang lebih besar dari 1 menunjukkan bahwa hasil lebih mungkin terjadi untuk kenaikan satu unit pada prediktor, sementara rasio odds yang kurang dari 1 menunjukkan bahwa hasil kurang mungkin terjadi. Rasio odds sebesar 1 menunjukkan tidak ada efek prediktor pada hasil.
Untuk lebih memahami interpretasi rasio odds, pertimbangkan contoh berikut. Misalkan kita memiliki model logit yang memperkirakan kemungkinan seseorang memiliki diabetes berdasarkan usia dan indeks massa tubuh (IMT). Koefisien logit yang diestimasi adalah
Rasio odds untuk usia adalah
Evaluasi dan Validasi Model
Setelah mengestimasi model logit, penting untuk mengevaluasi kinerjanya dan menilai validitasnya. Dalam bab ini, saya akan membahas ukuran kebaikan penyesuaian dan mengeksplorasi asumsi dan keterbatasan model.
Ukuran Kebaikan Penyesuaian
Beberapa ukuran dapat digunakan untuk mengevaluasi kebaikan penyesuaian model logit, termasuk uji rasio kemungkinan, kriteria informasi Akaike (AIC), kriteria informasi Bayes (BIC), dan nilai
Uji Rasio Kemungkinan
Uji rasio kemungkinan membandingkan kebaikan penyesuaian dua model bertingkat, di mana satu model adalah subkelompok dari model lainnya. Statistik uji diberikan oleh:
di mana
Kriteria Informasi Akaike (AIC)
AIC adalah ukuran kecockohan model yang seimbang antara kebaikan penyesuaian dan kompleksitas model. Nilai AIC yang lebih rendah menunjukkan model yang lebih cocok. AIC diberikan oleh:
di mana
Kriteria Informasi Bayes (BIC)
Sama dengan AIC, BIC juga menyeimbangkan kebaikan penyesuaian dan kompleksitas model, tetapi memiliki penalti yang lebih kuat untuk menambahkan parameter. Nilai BIC yang lebih rendah menunjukkan model yang lebih cocok. BIC diberikan oleh:
di mana
R2 Semu
Nilai
di mana
Asumsi dan Keterbatasan Model
Model logit memiliki beberapa asumsi dan keterbatasan yang perlu dipertimbangkan saat menginterpretasi hasilnya.
-
Linieritas Logit
Model logit mengasumsikan bahwa fungsi logit dari probabilitas variabel hasil secara linear berhubungan dengan variabel prediktor. Asumsi ini mungkin tidak berlaku dalam semua kasus, dan mungkin perlu mentransformasi atau menyertakan istilah interaksi untuk variabel prediktor. -
Independensi Observasi
Model logit mengasumsikan bahwa observasi independen. Jika ada ketergantungan antar observasi, seperti pada data longitudinal atau berkelompok, metode khusus seperti model efek campuran atau persamaan estimasi umum (GEE) harus dipertimbangkan. -
Tidak Ada Pemisahan Sempurna
Model logit mengasumsikan bahwa tidak ada pemisahan sempurna dari variabel hasil oleh kombinasi linear dari variabel prediktor. Pemisahan sempurna dapat menyebabkan perkiraan koefisien logit yang tak terhingga. -
Ukuran Sampel Besar
Model logit bergantung pada ukuran sampel yang besar untuk validitas perkiraan maksimum kemungkinan dan estimasi kesalahan standar. Ketika ukuran sampel kecil, perkiraan mungkin bias dan interval kepercayaan mungkin tidak akurat. Dalam kasus seperti itu, metode estimasi alternatif, seperti metode likelihood terpenalisasi atau metode Bayes, mungkin lebih sesuai. -
Multikolinearitas
Model logit, seperti model regresi lainnya, sensitif terhadap multikolinearitas di antara variabel prediktor. Multikolinearitas dapat menyebabkan perkiraan yang tidak stabil, kesalahan standar yang terlalu besar, dan kesulitan dalam menginterpretasi koefisien. Penting untuk memeriksa multikolinearitas dan menanganinya dengan menghapus atau menggabungkan variabel prediktor yang sangat berkorelasi atau menggunakan teknik reduksi dimensi seperti analisis komponen utama (PCA).
Estimasi dan Interpretasi Model Logit dengan R
Kita akan menunjukkan contoh estimasi dan interpretasi koefisien logit, serta mengevaluasi model menggunakan R.
Persiapan Data
Pertama, kita akan memuat perpustakaan yang diperlukan dan membuat dataset simulasi:
library(dplyr)
library(ggplot2)
library(caret)
set.seed(123)
n <- 1000
age <- rnorm(n, mean = 45, sd = 10)
bmi <- rnorm(n, mean = 25, sd = 5)
probability <- exp(0.05 * age + 0.15 * bmi) / (1 + exp(0.05 * age + 0.15 * bmi))
has_diabetes <- rbinom(n, size = 1, prob = probability)
data <- data.frame(has_diabetes, age, bmi)
Estimasi Model Logit
Selanjutnya, kita akan memperkirakan model logit menggunakan fungsi glm()
:
logit_model <- glm(has_diabetes ~ age + bmi, data = data, family = binomial(link = "logit"))
summary(logit_model)
Call:
glm(formula = has_diabetes ~ age + bmi, family = binomial(link = "logit"),
data = data)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.1832 0.0421 0.0646 0.1021 0.6158
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.13537 2.52900 -0.844 0.3985
age 0.11552 0.04915 2.350 0.0188 *
bmi 0.12255 0.09559 1.282 0.1998
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 62.958 on 999 degrees of freedom
Residual deviance: 54.338 on 997 degrees of freedom
AIC: 60.338
Number of Fisher Scoring iterations: 9
Interpretasi Koefisien
Kita dapat menginterpretasi koefisien logit dengan menghitung rasio odds:
exp(coef(logit_model))
(Intercept) age bmi
0.1182008 1.1224517 1.1303729
Evaluasi Model
Kita dapat mengevaluasi model menggunakan berbagai ukuran kecocokan model:
Uji Rasio Kemungkinan
null_model <- glm(has_diabetes ~ 1, data = data, family = binomial(link = "logit"))
anova(null_model, logit_model, test = "Chisq")
Analysis of Deviance Table
Model 1: has_diabetes ~ 1
Model 2: has_diabetes ~ age + bmi
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 999 62.958
2 997 54.338 2 8.62 0.01343 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
AIC dan BIC
AIC(logit_model)
BIC(logit_model)
[1] 60.33809
[1] 75.06135
R2 McFadden
1 - logLik(logit_model) / logLik(null_model)
'log Lik.' 0.1369171 (df=3)