Traffine I/O

Bahasa Indonesia

2022-12-26

Estimasi, Interpretasi, dan Evaluasi Model Logit

Pendahuluan

Artikel ini akan membahas tentang estimasi dan interpretasi koefisien logit, dengan fokus pada penggunaan estimasi likelihood maksimum (MLE) dan pengubahan koefisien ini menjadi rasio odds. Kita juga akan membahas evaluasi dan validasi model logit, menjelajahi ukuran kebaikan fit dan mengevaluasi asumsi dan batasan dari model-model ini.

Terakhir, saya akan memberikan demonstrasi praktis mengenai estimasi dan interpretasi koefisien logit dan mengevaluasi kinerjanya menggunakan R.

Estimasi dan Interpretasi Koefisien Logit

Kita akan membahas tentang estimasi koefisien logit dengan menggunakan estimasi likelihood maksimum (MLE) dan interpretasi koefisien ini sebagai rasio odds.

Estimasi Likelihood Maksimum

Pada model logit, hubungan antara variabel hasil biner Y dan sekumpulan variabel prediktor X_1, X_2, \dots, X_p direpresentasikan oleh fungsi logit, yaitu logaritma natural dari rasio odds:

\text{logit}(P(Y=1|X)) = \ln\left(\frac{P(Y=1|X)}{1 - P(Y=1|X)}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p

Untuk mengestimasi koefisien \beta_0, \beta_1, \dots, \beta_p, kita menggunakan metode estimasi likelihood maksimum (MLE). Fungsi likelihood untuk model logit diberikan oleh:

L(\beta) = \prod_{i=1}^n \left[ P(Y_i=1|X_i)^{Y_i} (1 - P(Y_i=1|X_i))^{(1 - Y_i)} \right]

Estimasi MLE adalah yang memaksimalkan fungsi likelihood. Untuk menemukan estimasi ini, biasanya kita menggunakan algoritma optimisasi numerik iteratif seperti Newton-Raphson atau iteratively reweighted least squares (IRLS).

Rasio Odds dan Interpretasi

Untuk menginterpretasi koefisien logit, kita sering mengubahnya menjadi rasio odds. Rasio odds adalah rasio antara odds variabel hasil menjadi 1 untuk dua nilai yang berbeda dari variabel prediktor. Untuk kenaikan satu unit pada prediktor X_j, rasio odds diberikan oleh:

\text{OR}_j = \frac{\text{Odds}(Y=1|X_j + 1)}{\text{Odds}(Y=1|X_j)} = e^{\beta_j}

Rasio odds yang lebih besar dari 1 menunjukkan bahwa hasil lebih mungkin terjadi untuk kenaikan satu unit pada prediktor, sementara rasio odds yang kurang dari 1 menunjukkan bahwa hasil kurang mungkin terjadi. Rasio odds sebesar 1 menunjukkan tidak ada efek prediktor pada hasil.

Untuk lebih memahami interpretasi rasio odds, pertimbangkan contoh berikut. Misalkan kita memiliki model logit yang memperkirakan kemungkinan seseorang memiliki diabetes berdasarkan usia dan indeks massa tubuh (IMT). Koefisien logit yang diestimasi adalah \beta_1 = 0,05 untuk usia dan \beta_2 = 0,15 untuk IMT.

Rasio odds untuk usia adalah e^{0,05} \approx 1,05, yang berarti untuk setiap tahun penambahan usia, rasio odds memiliki diabetes meningkat sekitar 5%. Rasio odds untuk IMT adalah e^{0,15} \approx 1,16, yang menunjukkan bahwa untuk setiap kenaikan satu unit pada IMT, rasio odds memiliki diabetes meningkat sekitar 16%.

Evaluasi dan Validasi Model

Setelah mengestimasi model logit, penting untuk mengevaluasi kinerjanya dan menilai validitasnya. Dalam bab ini, saya akan membahas ukuran kebaikan penyesuaian dan mengeksplorasi asumsi dan keterbatasan model.

Ukuran Kebaikan Penyesuaian

Beberapa ukuran dapat digunakan untuk mengevaluasi kebaikan penyesuaian model logit, termasuk uji rasio kemungkinan, kriteria informasi Akaike (AIC), kriteria informasi Bayes (BIC), dan nilai R^2 semu seperti R^2 McFadden. Ukuran-ukuran ini membantu membandingkan kecocokan model yang berbeda dan menentukan apakah penambahan atau penghapusan variabel prediktor meningkatkan model.

Uji Rasio Kemungkinan

Uji rasio kemungkinan membandingkan kebaikan penyesuaian dua model bertingkat, di mana satu model adalah subkelompok dari model lainnya. Statistik uji diberikan oleh:

LR = -2 \ln \left(\frac{L_0}{L_1}\right)

di mana L_0 dan L_1 adalah kemungkinan model nol dan model alternatif, masing-masing. Statistik uji mengikuti distribusi chi-kuadrat dengan derajat kebebasan sama dengan selisih jumlah parameter antara kedua model.

Kriteria Informasi Akaike (AIC)

AIC adalah ukuran kecockohan model yang seimbang antara kebaikan penyesuaian dan kompleksitas model. Nilai AIC yang lebih rendah menunjukkan model yang lebih cocok. AIC diberikan oleh:

AIC = -2\ln(L) + 2k

di mana L adalah kemungkinan model dan k adalah jumlah parameter yang diestimasi.

Kriteria Informasi Bayes (BIC)

Sama dengan AIC, BIC juga menyeimbangkan kebaikan penyesuaian dan kompleksitas model, tetapi memiliki penalti yang lebih kuat untuk menambahkan parameter. Nilai BIC yang lebih rendah menunjukkan model yang lebih cocok. BIC diberikan oleh:

BIC = -2\ln(L) + k\ln(n)

di mana n adalah ukuran sampel.

R2 Semu

Nilai R^2 semu, seperti R^2 McFadden, memberikan ukuran kecocokan model alternatif yang dapat dibandingkan dengan nilai R^2 pada regresi linear. R^2 McFadden diberikan oleh:

R^2_{McFadden} = 1 - \frac{\ln(L_1)}{\ln(L_0)}

di mana L_0 adalah kemungkinan model nol (hanya berisi intersep), dan L_1 adalah kemungkinan model yang diestimasi.

Asumsi dan Keterbatasan Model

Model logit memiliki beberapa asumsi dan keterbatasan yang perlu dipertimbangkan saat menginterpretasi hasilnya.

  • Linieritas Logit
    Model logit mengasumsikan bahwa fungsi logit dari probabilitas variabel hasil secara linear berhubungan dengan variabel prediktor. Asumsi ini mungkin tidak berlaku dalam semua kasus, dan mungkin perlu mentransformasi atau menyertakan istilah interaksi untuk variabel prediktor.

  • Independensi Observasi
    Model logit mengasumsikan bahwa observasi independen. Jika ada ketergantungan antar observasi, seperti pada data longitudinal atau berkelompok, metode khusus seperti model efek campuran atau persamaan estimasi umum (GEE) harus dipertimbangkan.

  • Tidak Ada Pemisahan Sempurna
    Model logit mengasumsikan bahwa tidak ada pemisahan sempurna dari variabel hasil oleh kombinasi linear dari variabel prediktor. Pemisahan sempurna dapat menyebabkan perkiraan koefisien logit yang tak terhingga.

  • Ukuran Sampel Besar
    Model logit bergantung pada ukuran sampel yang besar untuk validitas perkiraan maksimum kemungkinan dan estimasi kesalahan standar. Ketika ukuran sampel kecil, perkiraan mungkin bias dan interval kepercayaan mungkin tidak akurat. Dalam kasus seperti itu, metode estimasi alternatif, seperti metode likelihood terpenalisasi atau metode Bayes, mungkin lebih sesuai.

  • Multikolinearitas
    Model logit, seperti model regresi lainnya, sensitif terhadap multikolinearitas di antara variabel prediktor. Multikolinearitas dapat menyebabkan perkiraan yang tidak stabil, kesalahan standar yang terlalu besar, dan kesulitan dalam menginterpretasi koefisien. Penting untuk memeriksa multikolinearitas dan menanganinya dengan menghapus atau menggabungkan variabel prediktor yang sangat berkorelasi atau menggunakan teknik reduksi dimensi seperti analisis komponen utama (PCA).

Estimasi dan Interpretasi Model Logit dengan R

Kita akan menunjukkan contoh estimasi dan interpretasi koefisien logit, serta mengevaluasi model menggunakan R.

Persiapan Data

Pertama, kita akan memuat perpustakaan yang diperlukan dan membuat dataset simulasi:

library(dplyr)
library(ggplot2)
library(caret)

set.seed(123)

n <- 1000
age <- rnorm(n, mean = 45, sd = 10)
bmi <- rnorm(n, mean = 25, sd = 5)
probability <- exp(0.05 * age + 0.15 * bmi) / (1 + exp(0.05 * age + 0.15 * bmi))
has_diabetes <- rbinom(n, size = 1, prob = probability)

data <- data.frame(has_diabetes, age, bmi)

Estimasi Model Logit

Selanjutnya, kita akan memperkirakan model logit menggunakan fungsi glm():

logit_model <- glm(has_diabetes ~ age + bmi, data = data, family = binomial(link = "logit"))
summary(logit_model)
Call:
glm(formula = has_diabetes ~ age + bmi, family = binomial(link = "logit"),
    data = data)

Deviance Residuals:
    Min       1Q   Median       3Q      Max
-3.1832   0.0421   0.0646   0.1021   0.6158

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.13537    2.52900  -0.844   0.3985
age          0.11552    0.04915   2.350   0.0188 *
bmi          0.12255    0.09559   1.282   0.1998
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 62.958  on 999  degrees of freedom
Residual deviance: 54.338  on 997  degrees of freedom
AIC: 60.338

Number of Fisher Scoring iterations: 9

Interpretasi Koefisien

Kita dapat menginterpretasi koefisien logit dengan menghitung rasio odds:

exp(coef(logit_model))
(Intercept)         age         bmi
  0.1182008   1.1224517   1.1303729

Evaluasi Model

Kita dapat mengevaluasi model menggunakan berbagai ukuran kecocokan model:

Uji Rasio Kemungkinan

null_model <- glm(has_diabetes ~ 1, data = data, family = binomial(link = "logit"))
anova(null_model, logit_model, test = "Chisq")
Analysis of Deviance Table

Model 1: has_diabetes ~ 1
Model 2: has_diabetes ~ age + bmi
  Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1       999     62.958
2       997     54.338  2     8.62  0.01343 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

AIC dan BIC

AIC(logit_model)
BIC(logit_model)
[1] 60.33809
[1] 75.06135

R2 McFadden

1 - logLik(logit_model) / logLik(null_model)
'log Lik.' 0.1369171 (df=3)

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!