2022-12-26

Model Logit Biner

Statistics

Statistical Model

Discrete Choice Model

Apa itu Model Logit Biner

Model logit biner adalah alat statistik yang digunakan untuk memodelkan probabilitas terjadinya suatu peristiwa dalam situasi dengan dua kemungkinan hasil. Juga dikenal sebagai regresi logistik, model ini banyak digunakan dalam berbagai bidang, termasuk ilmu sosial, ekonomi, dan ilmu kesehatan, untuk memprediksi respons biner berdasarkan satu atau lebih variabel prediktor. Populeritas model ini berasal dari kemudahan interpretasi, fleksibilitas, dan landasan teoritis yang kuat.

Pusat dari model logit biner adalah fungsi logistik, yang memetakan nilai input apa pun ke probabilitas antara 0 dan 1. Fungsi ini memungkinkan untuk estimasi probabilitas yang tidak mudah dimodelkan menggunakan teknik regresi linear tradisional. Tujuan utama model logit adalah untuk menentukan hubungan antara kumpulan variabel prediktor dan hasil biner yang diminati.

Memahami Fungsi Logistik

Fungsi logistik, kadang-kadang disebut fungsi sigmoid, adalah dasar dari model logit biner. Ini adalah fungsi matematika yang memetakan setiap nilai input berupa bilangan riil ke nilai probabilitas antara 0 dan 1. Transformasi ini membuat fungsi logistik ideal untuk memodelkan hubungan antara variabel prediktor dan hasil biner.

Definisi Fungsi Logistik

Fungsi logistik didefinisikan secara formal sebagai:

f(x) = \frac{1}{1 + \exp(-x)}

di mana $x$ adalah nilai input dan $\exp()$ menunjukkan fungsi eksponensial. Fungsi logistik berbentuk S dan rentang nilainya antara 0 dan 1. Saat $x$ mendekati negatif tak hingga, $f(x)$ mendekati 0; saat $x$ mendekati positif tak hingga, $f(x)$ mendekati 1.

Properti Fungsi Logistik

Ada beberapa properti penting dari fungsi logistik yang membuatnya cocok untuk memodelkan probabilitas dalam model logit biner:

Keterbatasan
Output fungsi logistik selalu antara 0 dan 1, yang sesuai dengan rentang probabilitas.
Monotonisitas
Fungsi logistik selalu naik, yang berarti bahwa saat nilai input meningkat, nilai output juga meningkat.
Diferensialitas
Fungsi logistik diferensial, yang membuatnya dapat dioptimalkan menggunakan teknik pengoptimalan yang digunakan dalam penyesuaian model.

Transformasi Logit

Transformasi logit adalah kebalikan dari fungsi logistik dan digunakan untuk memodelkan hubungan antara variabel prediktor dan log-odds dari hasil biner. Transformasi logit didefinisikan sebagai:

\text{logit}(p) = \ln\left(\frac{p}{1 - p}\right)

di mana $p$ adalah probabilitas hasil biner, dan $\ln()$ menunjukkan logaritma alami. Transformasi logit memetakan probabilitas dari interval (0,1) ke seluruh garis bilangan riil, memungkinkan penggunaan teknik regresi linear untuk memperkirakan parameter model.

Memasukkan Variabel Prediktor

Dalam model logit biner, transformasi logit diterapkan pada kombinasi linear dari variabel prediktor, direpresentasikan sebagai:

\text{logit}(p) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n

di mana $p$ adalah probabilitas hasil biner, $\beta_0$ adalah intercept, $\beta_1$ hingga $\beta_n$ adalah koefisien untuk variabel prediktor $x_1$ hingga $x_n$ , masing-masing. Dengan menerapkan fungsi logistik pada kombinasi linear ini, kita dapat memperoleh probabilitas hasil biner sebagai fungsi dari variabel prediktor:

p(x) = \frac{1}{1 + \exp(-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n))}

Interpretasi Model dan Rasio Peluang

Setelah model logit biner dipasangkan menggunakan Estimasi Maksimum Peluang, menginterpretasikan koefisien model sangat penting untuk memahami hubungan antara variabel prediktor dan hasil biner. Dalam bab ini, saya akan membahas bagaimana menginterpretasikan koefisien model logit biner menggunakan rasio peluang dan mengeksplorasi implikasi dari interpretasi ini untuk pengambilan keputusan dan pengujian hipotesis.

Menginterpretasikan Koefisien dalam Model Logit

Dalam model logit biner, koefisien mewakili perubahan log-odds dari hasil positif untuk peningkatan satu unit dalam variabel prediktor yang sesuai, dengan menjaga semua variabel lain konstan. Meskipun interpretasi ini secara matematis akurat, hal ini tidak mudah diinterpretasikan dalam praktik. Untuk memudahkan interpretasi, kita dapat menggunakan rasio peluang.

Rasio Peluang

Rasio peluang adalah cara yang lebih intuitif untuk mengungkapkan hubungan antara variabel prediktor dan hasil biner dalam model logit. Rasio peluang untuk variabel prediktor yang diberikan adalah rasio antara peluang hasil positif saat variabel prediktor meningkat satu unit, dengan menjaga semua variabel lain tetap konstan. Secara matematis, rasio peluang untuk variabel prediktor $x_j$ adalah:

\text{OR}_j = \exp(\beta_j)

di mana $\beta_j$ adalah koefisien untuk variabel prediktor $x_j$ . Jika rasio peluang lebih besar dari 1, peningkatan satu unit dalam variabel prediktor meningkatkan peluang hasil positif; jika rasio peluang kurang dari 1, peningkatan satu unit dalam variabel prediktor mengurangi peluang hasil positif.

Interpretasi Rasio Peluang

Untuk mengilustrasikan interpretasi rasio peluang, mari pertimbangkan model logit biner hipotetis yang memprediksi kemungkinan pelanggan melakukan pembelian berdasarkan usia dan penghasilannya:

\text{logit}(p) = \beta_0 + \beta_1 \cdot \text{Age} + \beta_2 \cdot \text{Income}

Anggaplah koefisien yang diestimasi adalah $\beta_1 = 0,10$ dan $\beta_2 = 0,05$ . Rasio peluang untuk Usia dan Penghasilan adalah:

\text{OR}_{\text{Age}} = \exp(0.10) \approx 1.10

\text{OR}_{\text{Income}} = \exp(0.05) \approx 1.05

Rasio peluang ini menunjukkan bahwa peningkatan satu tahun dalam usia dikaitkan dengan peningkatan 10% dalam peluang melakukan pembelian, dan peningkatan satu unit dalam penghasilan dikaitkan dengan peningkatan 5% dalam peluang melakukan pembelian, dengan menjaga semua variabel lain tetap konstan.

Pengujian Hipotesis dan Interval Kepercayaan

Pengujian hipotesis dapat dilakukan untuk menilai signifikansi statistik dari setiap variabel prediktor dalam model logit biner. Hipotesis nol menyatakan bahwa variabel prediktor tidak memiliki efek pada hasil biner, yang mengimplikasikan bahwa koefisien yang sesuai adalah nol. Hipotesis alternatif menyatakan bahwa variabel prediktor memiliki efek yang signifikan pada hasil biner, mengimplikasikan bahwa koefisien yang sesuai berbeda dari nol.

Uji Wald dan uji rasio kemungkinan umumnya digunakan untuk pengujian hipotesis dalam model logit biner. Selain itu, interval kepercayaan untuk koefisien atau rasio peluang dapat dihitung untuk memberikan rentang nilai yang mungkin untuk parameter populasi yang sebenarnya.

Model Logit Biner dengan R

Pada bab ini, saya akan membahas contoh tentang cara memasangkan model logit biner menggunakan R, bahasa pemrograman populer untuk komputasi statistik. Kita akan menggunakan fungsi glm() dari paket dasar R untuk memasangkan model, mengevaluasi performanya, dan menafsirkan hasilnya.

Persiapan Data

Untuk contoh ini, kita akan menggunakan dataset mtcars yang sudah tersedia di R. Dataset ini terdiri dari berbagai atribut mobil dan efisiensi bahan bakarnya yang diukur dalam mil per gallon (mpg) masing-masing. Kita akan membuat variabel hasil biner yang menunjukkan apakah mobil itu efisien dalam bahan bakar (1) atau tidak (0) berdasarkan ambang batas 22,5 mpg.

Pertama, muat data dan buat variabel hasil biner:

data(mtcars)
mtcars$efficient <- ifelse(mtcars$mpg > 22.5, 1, 0)

Memasangkan Model Logit Biner

Kita akan menggunakan fungsi glm() untuk memasangkan model logit biner dengan variabel hasil efisiensi bahan bakar dan dua variabel prediktor: berat (wt) dan tenaga kuda (hp). Argumen family = binomial(link = "logit") menunjukkan bahwa kita ingin memasangkan model logit biner.

logit_model <- glm(efficient ~ wt + hp, data = mtcars, family = binomial(link = "logit"))
summary(logit_model)

Fungsi summary() akan menampilkan koefisien model, kesalahan standar, z-value, dan p-value untuk masing-masing variabel prediktor.

Call:
glm(formula = efficient ~ wt + hp, family = binomial(link = "logit"),
    data = mtcars)

Deviance Residuals:
     Min        1Q    Median        3Q       Max
-1.72029  -0.00913  -0.00001   0.00314   1.40334

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept)  30.4063    18.0320   1.686   0.0917 .
wt           -3.1801     1.9659  -1.618   0.1057
hp           -0.2201     0.1447  -1.521   0.1283
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 38.0243  on 31  degrees of freedom
Residual deviance:  6.5068  on 29  degrees of freedom
AIC: 12.507

Number of Fisher Scoring iterations: 10

Call
Bagian ini menampilkan panggilan fungsi yang digunakan untuk memasangkan model. Ini menunjukkan variabel respons (efficient), variabel prediktor (wt dan hp), dan keluarga yang ditentukan untuk model (binomial dengan logit link).
Deviance Residuals
Ini adalah sisa dari model yang diekspresikan dalam hal deviance. Statistik ringkasan (minimum, kuartil pertama, median, kuartil ketiga, dan maksimum) memberikan indikasi seberapa baik model cocok dengan data. Idealnya, sisa harus kecil dan didistribusikan secara simetris sekitar nol.
Coefficients
Bagian ini menyediakan koefisien yang diperkirakan, kesalahan standar, z-value, dan p-value untuk masing-masing variabel prediktor dan intercept. Koefisien mewakili perubahan dalam log-odds hasil positif (mobil yang efisien dalam bahan bakar) untuk peningkatan satu unit dalam variabel prediktor, dengan mempertahankan semua variabel lainnya konstan.
- Intercept: 30,4063
- Berat (wt): -3,1801
- Tenaga Kuda (hp): -0,2201
Significance codes
Kode kebermaknaan menunjukkan tingkat signifikansi statistik untuk setiap variabel prediktor. Dalam model ini, tidak ada variabel prediktor yang signifikan secara statistik pada tingkat 0,05, seperti yang ditunjukkan oleh nilai p (0,0917 untuk intercept, 0,1057 untuk wt, dan 0,1283 untuk hp).
Dispersion parameter
Nilai ini diatur menjadi 1 untuk keluarga binomial, menunjukkan bahwa model mengasumsikan varian yang konstan.
Null deviance and Residual deviance
Deviance nol mewakili deviance untuk model tanpa variabel prediktor (yaitu, hanya intercept), sementara deviance sisa adalah deviance untuk model yang dipasangkan. Membandingkan nilai ini dapat memberikan indikasi kasar tentang kesesuaian model. Dalam kasus ini, deviance sisa (6,5068) jauh lebih kecil daripada deviance nol (38,0243), menunjukkan bahwa model dengan variabel prediktor memberikan kesesuaian yang lebih baik daripada model nol.
AIC
Kriteria Informasi Akaike (AIC) adalah ukuran kesesuaian model yang menyeimbangkan kemungkinan model dengan jumlah parameter. Nilai AIC yang lebih kecil menunjukkan kesesuaian model yang lebih baik. AIC dapat digunakan untuk membandingkan model yang berbeda yang dipasangkan dengan data yang sama, dengan nilai AIC yang lebih rendah menunjukkan model yang lebih cocok.
Number of Fisher Scoring iterations
Nilai ini menunjukkan jumlah iterasi yang diperlukan untuk konvergen. Dalam kasus ini, dibutuhkan 10 iterasi.

Model Diagnostics

Untuk mengevaluasi kinerja klasifikasi model, buat matriks kebingungan:

# Predict probabilities
predicted_prob <- predict(logit_model, type = "response")

# Convert probabilities to binary outcomes
predicted_outcome <- ifelse(predicted_prob > 0.5, 1, 0)

# Create confusion matrix
table(Predicted = predicted_outcome, Actual = mtcars$efficient)

        Actual
Predicted  0  1
        0 22  1
        1  1  8

Interpretasi Hasil

Tafsirkan koefisien dan rasio odds dari variabel prediktor:

# Calculate odds ratios
exp(coef(logit_model))

 (Intercept)           wt           hp
1.604309e+13 4.157947e-02 8.024697e-01

Rasio odds adalah sebagai berikut:

Intercept: $1,604 \times 10^{13}$
Berat (wt): 0,0416
Tenaga Kuda (hp): 0,802

Untuk menafsirkan rasio odds ini:

Intercept
Intercept mewakili peluang mobil efisien dalam bahan bakar ketika berat dan tenaga kuda sama dengan nol. Karena nilai ini sangat besar, maka tidak memiliki arti praktis dalam konteks ini. Dalam praktiknya, mobil dengan berat atau tenaga kuda nol tidak realistis.
Berat (wt)
Untuk setiap peningkatan unit dalam berat, peluang mobil yang efisien dalam bahan bakar menurun sekitar 96% (1 - 0,0416 = 0,9584), dengan mempertahankan tenaga kuda konstan. Hal ini menunjukkan bahwa mobil yang lebih berat kurang mungkin efisien dalam bahan bakar.
Tenaga Kuda (hp)
Untuk setiap peningkatan unit dalam tenaga kuda, peluang mobil yang efisien dalam bahan bakar menurun sekitar 20% (1 - 0,802 = 0,198), dengan mempertahankan berat konstan. Hal ini menunjukkan bahwa mobil dengan tenaga kuda yang lebih tinggi kurang mungkin efisien dalam bahan bakar.

Estimasi, Interpretasi, dan Evaluasi Model Logit

Model Logit Multinomial

Descriptive Statistics

Differential Equation

Dimensionality Reduction

Discrete Choice Model

Google Search Console

Hugging Face

Hypothesis Testing

Inferential Statistics

Probability Distribution

Ryusei Kakujo

Weave the future of cities through data

Transportation modeling/ Urban planning/ Machine learning/ Computer science/ GIS