Traffine I/O

Bahasa Indonesia

Apa itu Model Logit Ordinal

Model Logit Ordinal, juga dikenal sebagai Regresi Logistik Ordinal atau Model Odds Proporsional, adalah metode statistik yang banyak digunakan untuk memodelkan variabel dependen ordinal. Di banyak bidang penelitian, seperti ilmu sosial, kesehatan, dan bisnis, hasil yang diminati bersifat ordinal, yang berarti memiliki urutan alami, tetapi jarak antara kategori tidak selalu sama. Model Logit Ordinal berfungsi sebagai solusi ideal untuk menganalisis variabel ordinal ini, dengan memperhatikan fitur-fitur unik dari data.

Model ini memungkinkan peneliti untuk menguji hubungan antara serangkaian variabel prediktor dan hasil ordinal, memberikan wawasan yang berharga tentang faktor-faktor yang mempengaruhi kemungkinan setiap kategori hasil. Misalnya, Model Logit Ordinal dapat diterapkan untuk memahami bagaimana faktor demografi, sosioekonomi, dan lingkungan mempengaruhi kemungkinan berkembangnya tahap-tahap berbeda dari suatu penyakit atau memprediksi tingkat kepuasan pelanggan berdasarkan fitur produk dan strategi pemasaran.

Asumsi dan Persyaratan

Sebelum menerapkan Model Logit Ordinal pada data Anda, penting untuk memastikan bahwa data memenuhi asumsi dan persyaratan yang diperlukan. Pelanggaran asumsi ini dapat mengarah pada hasil yang bias atau tidak konsisten. Pada bab ini, saya akan membahas empat asumsi kunci dari Model Logit Ordinal: asumsi proporsi odds, sifat ordinal dari variabel dependen, kemandirian pengamatan, dan linearitas logit.

Asumsi Proporsi Odds

Asumsi proporsi odds, juga dikenal sebagai asumsi garis sejajar, adalah asumsi utama dari Model Logit Ordinal. Ini menyiratkan bahwa hubungan antara variabel prediktor dan log odds dari kategori hasil sama di semua kategori. Secara matematis, dapat diungkapkan sebagai:

\log\frac{P(Y \leq j | X)}{P(Y > j | X)} = \alpha_j - \beta X

Di mana:

-P(Y \leq j | X) mewakili probabilitas hasil Y berada dalam kategori j atau lebih rendah, diberikan variabel prediktor X. -P(Y > j | X) mewakili probabilitas hasil Y berada dalam kategori yang lebih tinggi dari j, diberikan variabel prediktor X. -\alpha_j adalah ambang batas (atau titik potong) untuk kategori j. -\beta adalah vektor koefisien untuk variabel prediktor X.

Asumsi ini menyiratkan bahwa koefisien \beta sama di semua kategori hasil, sementara ambang batas \alpha_j berbeda.

Sifat Ordinal dari Variabel Dependen

Model Logit Ordinal mensyaratkan bahwa variabel dependen bersifat ordinal, yang berarti memiliki urutan alami tetapi jarak antara kategori tidak selalu sama. Contoh dari variabel ordinal meliputi pencapaian pendidikan, keparahan penyakit, dan tingkat kepuasan. Penting untuk dicatat bahwa model ini tidak cocok untuk variabel nominal atau variabel kontinu tanpa kategori yang bermakna.

Kemandirian Pengamatan

Asumsi kemandirian pengamatan menyatakan bahwa setiap pengamatan dalam dataset harus independen satu sama lain. Ini menyiratkan bahwa tidak ada hubungan atau ketergantungan yang mendasar di antara pengamatan, seperti korelasi time-series atau spasial. Pelanggaran asumsi ini dapat mengakibatkan estimasi yang bias dan kesimpulan yang salah.

Linearitas Logit

Model Logit Ordinal mensyaratkan bahwa hubungan antara log odds dari variabel dependen ordinal dan variabel prediktor adalah linear. Ini berarti bahwa peningkatan satu unit pada variabel prediktor akan memiliki efek konstan pada log odds dari kategori hasil, dengan menjaga semua variabel lain tetap konstan. Penting untuk menilai asumsi linearitas dengan memeriksa plot sebaran atau plot residu, dan jika perlu, mentransformasikan variabel prediktor untuk mencapai linearitas.

Estimasi Model Logit Ordinal

Pada bab ini, saya akan membahas estimasi Model Logit Ordinal. Kita akan membahas estimasi maximum likelihood, interpretasi koefisien, serta ambang batas dan titik potong.

Estimasi Maximum Likelihood

Model Logit Ordinal diestimasi menggunakan metode maximum likelihood, yang mencari nilai koefisien yang memaksimalkan probabilitas untuk mengamati data yang diberikan. Fungsi likelihood untuk Model Logit Ordinal dapat diungkapkan sebagai:

L(\beta, \alpha | Y, X) = \prod_{i=1}^{n} \prod_{j=1}^{J} \left[ F(\alpha_j - \beta X_i) - F(\alpha_{j-1} - \beta X_i) \right]^{I(Y_i = j)}

Di mana:

  • L(\beta, \alpha | Y, X) adalah fungsi likelihood.
  • \beta adalah vektor koefisien untuk variabel prediktor X.
  • \alpha adalah vektor parameter ambang batas untuk setiap kategori j.
  • Y_i adalah hasil pengamatan ke-i.
  • X_i adalah vektor variabel prediktor untuk pengamatan ke-i.
  • F(\cdot) adalah fungsi distribusi kumulatif dari distribusi logistik.
  • I(\cdot) adalah fungsi indikator, yang sama dengan 1 jika kondisi di dalam tanda kurung benar, dan 0 sebaliknya.

Estimasi maximum likelihood dari koefisien dan ambang batas dapat diperoleh menggunakan algoritma optimasi, seperti metode Newton-Raphson atau algoritma ekspektasi-maksimum.

Interpretasi Koefisien

Koefisien dalam Model Logit Ordinal merepresentasikan efek variabel prediktor pada log odds dari variabel dependen ordinal. Koefisien positif menunjukkan bahwa peningkatan variabel prediktor berkaitan dengan peningkatan log odds dari kategori hasil yang lebih tinggi, sementara koefisien negatif mengindikasikan bahwa peningkatan variabel prediktor berkaitan dengan penurunan log odds dari kategori hasil yang lebih tinggi.

Untuk menginterpretasi koefisien, kita dapat menghitung rasio odds untuk setiap variabel prediktor, yang merepresentasikan perubahan pada odds dari kategori hasil yang lebih tinggi jika terjadi peningkatan satu unit pada variabel prediktor, dengan menjaga semua variabel lain konstan:

\text{Odds Ratio} = e^{\beta}

Penting untuk dicatat bahwa interpretasi koefisien dan rasio odds dalam Model Logit Ordinal bersyarat pada asumsi proporsi odds.

Ambang Batas dan Titik Potong

Ambang batas, atau titik potong, dalam Model Logit Ordinal merepresentasikan titik di mana log odds dari variabel dependen ordinal berubah antara kategori. Setiap ambang batas sesuai dengan kategori tertentu dan menunjukkan tingkat prediktor linear, \beta X, di mana probabilitas variabel hasil berada pada kategori tersebut atau kategori yang lebih rendah sama dengan probabilitas berada pada kategori yang lebih tinggi.

Ambang batas yang diestimasi dapat digunakan untuk menghitung probabilitas hasil yang diprediksi untuk suatu set variabel prediktor:

\hat{P}(Y = j | X) = F(\hat{\alpha}_j - \hat{\beta} X) - F(\hat{\alpha}_{j-1} - \hat{\beta} X)

Model Logit Ordinal dalam R

Pada bab ini, saya akan menjelaskan bagaimana melakukan estimasi Model Logit Ordinal dengan menggunakan R. Kita akan menggunakan paket MASS, yang menyediakan fungsi polr() untuk memodelkan model proporsi kesempatan.

Install dan muat paket yang diperlukan

Pertama-tama, kita perlu menginstal paket MASS dan ordinal jika belum terinstal, lalu memuatnya.

# Install packages if not already installed
if (!requireNamespace("MASS", quietly = TRUE)) {
  install.packages("MASS")
}

if (!requireNamespace("ordinal", quietly = TRUE)) {
  install.packages("ordinal")
}

# Load packages
library(MASS)
library(ordinal)

Muat dataset wine

Muat dataset wine.

r
wine <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv", sep = ";")

# Convert the dependent variable to an ordered factor
wine$quality <- factor(wine$quality, ordered = TRUE)

Estimasi Model Logit Ordinal

Sekarang, kita akan melakukan estimasi Model Logit Ordinal menggunakan fungsi polr() dari paket MASS. Kita akan memodelkan hubungan antara kualitas anggur dan variabel penjelas.

r
# Estimate the Ordered Logit Model
ordered_logit_model <- polr(quality ~ ., data = wine)

# Display the model summary
summary(ordered_logit_model)
Call:
polr(formula = quality ~ ., data = wine)

Coefficients:
                          Value Std. Error    t value
fixed.acidity         2.314e-01  0.0382399     6.0519
volatile.acidity     -4.982e+00  0.3070888   -16.2231
citric.acid           1.238e-01  0.2425520     0.5105
residual.sugar        2.307e-01  0.0067782    34.0288
chlorides            -6.080e-01  1.3680802    -0.4444
free.sulfur.dioxide   1.193e-02  0.0022344     5.3394
total.sulfur.dioxide -9.073e-04  0.0009539    -0.9512
density              -4.623e+02  0.4622070 -1000.2657
pH                    2.068e+00  0.2125885     9.7296
sulphates             1.815e+00  0.2467479     7.3565
alcohol               4.299e-01  0.0314096    13.6865

Intercepts:
    Value      Std. Error t value
3|4  -451.8844     0.4703  -960.8466
4|5  -449.5243     0.4686  -959.3266
5|6  -446.4853     0.4727  -944.6359
6|7  -443.8967     0.4816  -921.7029
7|8  -441.6433     0.4908  -899.7778
8|9  -437.9633     0.6607  -662.8715

Residual Deviance: 10900.89
AIC: 10934.89

Keluaran dari fungsi summary() akan menampilkan koefisien yang diestimasi, kesalahan standar, nilai z, dan nilai p untuk setiap variabel penjelas, serta ambang batas yang diestimasi.

  • Coefficients
    Ini merepresentasikan efek dari masing-masing variabel prediktor pada log-odds dari pengamatan kualitas anggur yang lebih tinggi, dengan mempertahankan semua variabel lain tetap konstan.

    • Misalnya, volatile.acidity memiliki koefisien -4,982. Ini berarti peningkatan kadar asam yang mudah menguap berkorelasi dengan penurunan log-odds dari pengamatan kualitas anggur yang lebih tinggi, dengan mempertahankan semua variabel lain tetap konstan. Hal ini diharapkan, karena kadar asam yang mudah menguap yang lebih tinggi umumnya dianggap tidak menguntungkan untuk kualitas anggur.
    • alcohol memiliki koefisien 0,430, menunjukkan bahwa peningkatan kadar alkohol berkorelasi dengan peningkatan log-odds dari pengamatan kualitas anggur yang lebih tinggi, dengan mempertahankan semua variabel lain tetap konstan.
  • Intercepts
    Ini adalah ambang batas yang diestimasi antara kategori penilaian kualitas anggur yang berdekatan. Misalnya, ambang batas antara kualitas 3 dan 4 adalah -451,8844. Ambang batas dinyatakan pada skala log-odds yang sama dengan koefisien.

Interpretasi hasil

Untuk menginterpretasi koefisien, kita dapat menghitung rasio peluang menggunakan fungsi exp().

r
# Calculate the odds ratios
exp(ordered_logit_model$coefficients)
       fixed.acidity     volatile.acidity          citric.acid       residual.sugar
        1.260395e+00         6.860867e-03         1.131825e+00         1.259422e+00
           chlorides  free.sulfur.dioxide total.sulfur.dioxide              density
        5.444452e-01         1.012002e+00         9.990931e-01        1.631987e-201
                  pH            sulphates              alcohol
        7.912119e+00         6.142251e+00         1.537083e+00

Berikut adalah interpretasi rasio peluang tersebut:

  • fixed.acidity
    Untuk setiap peningkatan satu unit pada tingkat keasaman tetap, peluang pengamatan kualitas anggur yang lebih tinggi akan meningkat sebesar 1,260 kali, dengan mempertahankan semua variabel lain tetap konstan.

  • volatile.acidity
    Untuk setiap peningkatan satu unit pada tingkat keasaman yang mudah menguap, peluang pengamatan kualitas anggur yang lebih tinggi akan menurun sebesar faktor 0,0069, dengan mempertahankan semua variabel lain tetap konstan. Hal ini menunjukkan bahwa keasaman yang mudah menguap yang lebih tinggi berdampak negatif pada penilaian kualitas anggur.

  • citric.acid
    Untuk setiap peningkatan satu unit pada tingkat asam sitrat, peluang pengamatan kualitas anggur yang lebih tinggi akan meningkat sebesar 1,132 kali, dengan mempertahankan semua variabel lain tetap konstan.

  • residual.sugar
    Untuk setiap peningkatan satu unit pada tingkat gula sisa, peluang pengamatan kualitas anggur yang lebih tinggi akan meningkat sebesar 1,259 kali, dengan mempertahankan semua variabel lain tetap konstan.

  • chlorides
    Untuk setiap peningkatan satu unit pada tingkat klorida, peluang pengamatan kualitas anggur yang lebih tinggi akan menurun sebesar faktor 0,544, dengan mempertahankan semua variabel lain tetap konstan.

  • free.sulfur.dioxide
    Untuk setiap peningkatan satu unit pada tingkat sulfur dioksida bebas, peluang pengamatan kualitas anggur yang lebih tinggi akan meningkat sebesar 1,012 kali, dengan mempertahankan semua variabel lain tetap konstan.

  • total.sulfur.dioxide
    Untuk setiap peningkatan satu unit pada tingkat sulfur dioksida total, peluang pengamatan kualitas anggur yang lebih tinggi akan menurun sebesar faktor 0,999, dengan mempertahankan semua variabel lain tetap konstan.

  • density
    Untuk setiap peningkatan satu unit pada tingkat densitas, peluang pengamatan kualitas anggur yang lebih tinggi akan menurun sebesar faktor 1,63e-201, dengan mempertahankan semua variabel lain tetap konstan. Nilai ini sangat kecil dan mungkin disebabkan oleh masalah numerik atau multikolinearitas dalam model.

  • pH
    Untuk setiap peningkatan satu unit pada tingkat pH, peluang pengamatan kualitas anggur yang lebih tinggi akan meningkat sebesar 7,912 kali, dengan mempertahankan semua variabel lain tetap konstan.

  • sulphates
    Untuk setiap peningkatan satu unit pada tingkat sulfat, peluang pengamatan kualitas anggur yang lebih tinggi akan meningkat sebesar 6,142 kali, dengan mempertahankan semua variabel lain tetap konstan.

  • alcohol
    Untuk setiap peningkatan satu unit pada kadar alkohol, peluang pengamatan kualitas anggur yang lebih tinggi akan meningkat sebesar 1,537 kali, dengan mempertahankan semua variabel lain tetap konstan.

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!