Traffine I/O

Bahasa Indonesia

2022-12-27

Model Logit Multinomial

Apa itu Model Logit Multinomial

Model Logit Multinomial (MNL) adalah model statistik yang banyak digunakan dalam bidang pemodelan pilihan. Model ini termasuk dalam keluarga model pilihan diskrit dan sangat berguna untuk memahami dan memprediksi pilihan individu di antara sekumpulan alternatif yang terbatas. Model MNL memiliki akar dari teori utilitas acak dan didasarkan pada asumsi bahwa individu membuat keputusan dengan memaksimalkan kegunaan mereka. Model ini sering digunakan dalam berbagai bidang seperti transportasi, pemasaran, dan ekonomi untuk memprediksi dan memahami perilaku konsumen, permintaan perjalanan, dan dampak kebijakan.

Matematika di Balik MNL

Pada bab ini, saya akan menjelajahi dasar-dasar matematika dari MNL. Kita akan memulai dengan membahas konsep teori probabilitas dan maksimisasi utilitas, kemudian menerapkan model MNL, dan akhirnya, membahas bagaimana mengestimasi parameter-parameter model tersebut.

Teori Probabilitas dan Maksimisasi Utilitas

MNL didasarkan pada teori utilitas acak, yang mengasumsikan bahwa utilitas individu untuk setiap alternatif dapat didekomposisi menjadi komponen deterministik dan komponen stokastik. Secara matematis, hal ini dapat diungkapkan sebagai:

U_{ij} = V_{ij} + \epsilon_{ij}

Di sini, U_{ij} merepresentasikan kegunaan alternatif j bagi individu i, V_{ij} adalah komponen deterministik (teramati) dan \epsilon_{ij} adalah komponen stokastik (tidak teramati). Komponen deterministik biasanya terdiri dari kombinasi linear dari atribut-atribut yang relevan dari alternatif dan karakteristik individu, sebagai berikut:

V_{ij} = \beta_1 X_{1ij} + \beta_2 X_{2ij} + ... + \beta_k X_{kij} = \sum_{n=1}^k \beta_n X_{nij}

Dalam persamaan ini, X_{nij} mewakili atribut ke-n dari alternatif j bagi individu i, dan \beta_n adalah parameter yang sesuai yang harus diestimasi, yang mencerminkan pentingnya relatif dari atribut tersebut.

Mendapatkan Model MNL

Untuk mendapatkan model MNL, kita mulai dengan mempertimbangkan probabilitas bahwa individu i memilih alternatif j. Ini terjadi ketika utilitas alternatif j lebih besar daripada utilitas semua alternatif lain dalam set pilihan C_i. Secara matematis, ini dapat dinyatakan sebagai:

P_{ij} = P(U_{ij} > U_{il} \; \forall l \in C_i, l \neq j)

Dengan mengasumsikan bahwa komponen stokastik \epsilon_{ij} mengikuti distribusi Gumbel independen dan identik (IID), kita dapat mendapatkan model MNL sebagai berikut:

P_{ij} = \frac{e^{V_{ij}}}{\sum_{l \in C_i} e^{V_{il}}}

Persamaan ini merupakan inti dari MNL. Probabilitas individu i memilih alternatif j diberikan oleh utilitas deterministik alternatif j yang dieksponensiasi dibagi dengan jumlah utilitas deterministik alternatif lain di set pilihan C_i yang dieksponensiasi.

Mengestimasi Parameter Model

Parameter \beta_n dari model MNL dapat diestimasi menggunakan estimasi maksimum kemungkinan (MLE). Fungsi likelihood untuk model MNL diberikan oleh hasil kali probabilitas pengamatan pilihan yang dibuat oleh masing-masing individu dalam sampel:

L(\beta) = \prod_{i=1}^N \prod_{j \in C_i} P_{ij}^{y_{ij}}

Dalam persamaan ini, y_{ij} adalah variabel indikator yang mengambil nilai 1 jika individu i memilih alternatif j, dan 0 sebaliknya. Untuk mengestimasi parameter model, kita memaksimalkan fungsi log-likelihood:

l(\beta) = \ln L(\beta) = \sum_{i=1}^N \sum_{j \in C_i} y_{ij} \ln P_{ij}

Maksimalkan fungsi log-kemungkinan dapat dicapai menggunakan algoritma optimisasi seperti metode Newton-Raphson, metode Broyden-Fletcher-Goldfarb-Shanno (BFGS), atau metode Limited-memory BFGS (L-BFGS). Algoritma optimisasi ini secara iteratif memperbarui perkiraan parameter hingga konvergensi dicapai, biasanya ketika perubahan log-kemungkinan antara iterasi di bawah tingkat toleransi yang ditentukan.

Setelah parameter model diestimasi, model MNL hasilnya dapat digunakan untuk memprediksi probabilitas pemilihan untuk pengamatan baru dan menghitung elastisitas probabilitas pemilihan terhadap atribut alternatif atau karakteristik individu. Elastisitas berguna untuk memahami sensitivitas probabilitas pemilihan terhadap perubahan dalam atribut atau karakteristik dan sering digunakan untuk menginformasikan keputusan kebijakan, strategi pemasaran, dan perencanaan infrastruktur.

Asumsi dan Keterbatasan MNL

Pada bab ini, saya akan membahas asumsi dan keterbatasan utama dari Model Logit Multinomial. Memahami aspek-aspek ini sangat penting untuk interpretasi model dan pengambilan keputusan. Kita akan membahas asumsi Independence of Irrelevant Alternatives (IIA), homoskedastisitas, dan keseragaman selera, serta keterbatasan fleksibilitas model.

Independence of Irrelevant Alternatives (IIA)

Asumsi paling signifikan dari model MNL adalah Independence of Irrelevant Alternatives (IIA). Asumsi ini menyatakan bahwa rasio probabilitas pemilihan untuk dua alternatif apa pun tidak tergantung pada alternatif lain dalam set pemilihan. Secara matematis, ini dapat diekspresikan sebagai:

P_{ij} / P_{ik} = e^{V_{ij} - V_{ik}}

Asumsi IIA menyiratkan bahwa preferensi relatif antara dua alternatif tidak berubah ketika alternatif lain ditambahkan atau dihapus dari set pemilihan. Hal ini dapat menyebabkan hasil yang kontra-intuitif dalam situasi tertentu, seperti masalah "Red Bus / Blue Bus" yang terkenal, di mana menambahkan alternatif ketiga yang tampaknya tidak relevan dapat mempengaruhi probabilitas pemilihan alternatif asli.

Homoskedastisitas dan Homogenitas Selera

Asumsi penting lain dari model MNL adalah bahwa istilah kesalahan \epsilon_{ij} homoskedastis, yang berarti bahwa mereka memiliki variansi yang sama untuk semua alternatif dan individu. Asumsi ini menyiratkan bahwa tidak ada heteroskedastisitas, atau perbedaan tingkat variasi dalam komponen utilitas yang tidak teramati di seluruh alternatif atau individu.

Model MNL juga mengasumsikan homogenitas selera, yang berarti bahwa preferensi untuk atribut yang berbeda sama untuk semua individu dalam populasi. Asumsi ini mungkin tidak berlaku dalam praktik, karena individu sering menunjukkan preferensi yang heterogen. Dalam kasus seperti itu, model MNL dapat memberikan perkiraan bias dari preferensi populasi yang sebenarnya.

Batasan dalam Fleksibilitas Model

Model MNL, meskipun kuat dan banyak digunakan, memiliki beberapa batasan dalam hal fleksibilitas. Karena asumsi yang ketat, model mungkin tidak cocok untuk semua situasi pilihan. Misalnya, asumsi IIA mungkin tidak berlaku dalam kasus di mana alternatif adalah pengganti dekat atau menunjukkan kesamaan yang kuat, menyebabkan pelanggaran properti IIA dan hasil yang bias.

Selain itu, model MNL tidak mempertimbangkan heterogenitas yang tidak teramati dalam preferensi, karena mengasumsikan bahwa semua individu memiliki struktur preferensi yang sama. Batasan ini dapat menghasilkan perkiraan parameter yang bias dan inferensi yang salah tentang hubungan antara atribut alternatif dan probabilitas pilihan.

MNL di R

Dalam bab ini, saya akan menunjukkan bagaimana mengimplementasikan Model Logit Multinomial menggunakan bahasa pemrograman R. Kita akan menggunakan paket mlogit untuk mengestimasi parameter model dan membuat prediksi. Untuk tujuan contoh ini, kita akan menggunakan dataset hipotetikal pemilihan moda individu untuk bekerja, di mana alternatifnya adalah mobil, bus, dan sepeda.

Persiapan Data

Pertama, kita perlu menginstal dan memuat paket yang diperlukan:

install.packages("mlogit")
library(mlogit)

Anggaplah kita memiliki dataset bernama commute_data dengan struktur berikut:

  • id: Identitas individu
  • choice: Moda transportasi yang dipilih (mobil, bus, atau sepeda)
  • travel_time: Waktu tempuh dalam menit
  • cost: Biaya perjalanan dalam dolar
  • age: Usia individu
  • income: Pendapatan individu
id choice travel_time_car travel_time_bus travel_time_bicycle cost_car cost_bus cost_bicycle age income
1 car 20 30 45 5 2 0 35 55000
2 bus 25 28 50 6 1.5 0 28 48000
3 bicycle 22 40 38 4 3 0 42 62000
4 car 30 35 60 7 2.5 0 31 50000
5 bus 28 33 55 5.5 1.8 0 26 45000

Kita perlu mengonversi dataset menjadi format yang sesuai untuk paket mlogit. Kita akan menggunakan fungsi mlogit.data:

commute_data_mlogit <- mlogit.data(commute_data, choice = "choice", shape = "long", id.var = "id", alt.levels = c("car", "bus", "bicycle"))

Estimasi Model

Sekarang kita dapat mengestimasi model MNL. Kita akan memasukkan travel_time, cost, age, dan income sebagai variabel penjelas:

mnl_model <- mlogit(choice ~ 1 + travel_time + cost + age + income, data = commute_data_mlogit)
summary(mnl_model)

Fungsi summary menyediakan perkiraan koefisien, kesalahan standar, z-value, dan p-value untuk parameter model.

Interpretasi Model

Koefisien perkiraan mewakili dampak setiap variabel penjelas pada utilitas deterministik dari alternatif.

Misalnya, jika koefisien untuk travel_time negatif, itu mengimplikasikan bahwa seiring waktu perjalanan meningkat, utilitas alternatif tersebut menurun, dan dengan demikian probabilitas memilih alternatif juga menurun.

Prediksi Model

Untuk membuat prediksi menggunakan model MNL yang diperkirakan, kita dapat menggunakan fungsi predict:

predicted_probabilities <- predict(mnl_model, newdata = commute_data_mlogit)

Objek predicted_probabilities akan berisi probabilitas pilihan yang diperkirakan untuk setiap individu dan alternatif dalam dataset.

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!