2022-12-26

ロジットモデルとは

ロジットモデルとは

ロジットモデルは、ロジスティック回帰としても知られる統計的手法で、1つまたは複数の独立変数に基づいて、バイナリ、順序、名義的な結果を分析および予測するために広く使用されています。これは一般化線形モデル(GLM)の広いクラスに属し、独立変数と従属変数の関係が直線的でない場合に特に適しています。

モデル名「logit」は、オッズの対数(log of odds)に由来しており、これがモデルの中心的な概念です。オッズは、あるイベントが発生する確率と発生しない確率の比率として定義されます。ロジットモデルでは、オッズの自然対数を応答変数として使用して、0から1の範囲の確率を予測することができます。

様々な分野での応用

ロジットモデルは、経済学、政治学、マーケティング、医療、社会科学、交通計画など、さまざまな分野で応用されています。ロジットモデルの一般的な応用には以下があります。

経済学
消費者の選択や好みの分析、市場シェアの予測、労働市場の結果の研究など
政治学
投票行動の調査、政治参加の決定要因の分析、選挙結果の分析など
マーケティング
顧客の選択の予測、広告の影響の理解、市場分割など
医療
疾患の発生率の分析、患者の結果の予測、リスク要因の評価など
社会科学
教育達成度の決定要因の調査、社会的流動性の分析、犯罪と再犯の分析など。
交通計画
交通モード、ルート、目的地の選択モデル、交通政策とインフラ投資の評価、土地利用パターンが交通行動に与える影響の評価など

ロジットモデルの主要概念

ロジットモデルでは、独立変数と従属変数の関係は、ロジスティック関数を使用して確立されます。ロジスティック関数は、次のように表されます。

P(Y=1 | X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k)}}

この式は、独立変数の線形結合を0から1の範囲の確率に変換します。ここで、 $P(Y=1 | X)$ は、独立変数 $X$ が与えられたときの従属変数 $Y$ が1の確率を表し、 $\beta_0、\beta_1、\dots、\beta_k$ は推定する必要のある係数です。

ロジットモデルの利点と限界

利点

ロジットモデルはバイナリ、順序、名義的な従属変数を扱えるため、様々な研究設定で使える汎用性が高い
線形回帰と異なり、ロジットモデルの出力は0から1の確率であり、実際の応用でより解釈しやすい
モデルは、連続的、離散的、カテゴリカルな変数を含む複数の独立変数を収容することができる

限界

ロジットモデルは、独立変数と対数オッズの関係が常に線形であると仮定しており、それが必ずしも正しいとは限らない
安定で信頼性の高い推定値を生成するには、大きなサンプルサイズが必要
モデルは、観測値の独立性を仮定しており、パネルデータや縦断的データなどの場合にはその限りではない

効用関数

効用関数は、個人の好みを数学的に表現したもので、特定の選択肢や結果から得られる満足度や有用性の高いレベルを表します。効用関数はロジットモデルの重要な構成要素であり、利用可能な選択肢の認識価値に基づいて、個人がどのように決定を下すかを量化するのに役立ちます。

ロジットモデルの文脈において、効用関数は、個人またはエンティティが、その特性や制約を考慮して、選択肢を最大化するという前提に基づいて、決定を下す方法をモデル化するために使用されます。

ロジットモデルの文脈で、効用関数は次のように表されます。

U_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \dots + \beta_k X_{ki} + \varepsilon_i

ここで、 $U_i$ は選択肢 $i$ の効用を示し、 $\beta_0$ は切片、 $\beta_1、\beta_2、\dots、\beta_k$ は独立変数 $X_{1i}、X_{2i}、\dots、X_{ki}$ の係数であり、 $\varepsilon_i$ は誤差項です。

ランダム効用モデルとロジットモデル

ランダム効用モデル（RUM）では、効用関数は決定論的な成分と確率的な成分から構成され、個人の好みに影響を与える観測不可能な要因を反映します。決定論的成分は、観察された独立変数で説明できる効用の系統的な部分を捕捉します。確率的成分は、効用に影響する観測不可能な要因を表します。

ロジットモデルは、確率的成分がGumbel分布に従うランダム効用モデルの特別なケースです。この分布の仮定により、ロジットモデルは選択確率の閉形式表現を導出することができ、計算的に扱いやすく、より簡単に推定することができます。

間接効用と選択確率

ロジットモデルでは、特定の選択肢を選択する確率は、間接効用関数から導出されます。間接効用関数は、利用可能な選択肢とその特性を考慮した場合に、個人が得られる最大の効用を反映します。

二項ロジットモデルの場合、選択確率は次のように表されます。

P(Y=1 | X) = \frac{e^{U_1}}{e^{U_1} + e^{U_0}}

ここで、 $U_1$ と $U_0$ はそれぞれ、選択肢1および0の間接効用関数です。

二項ロジットモデル

二項ロジットモデルは、もっとも単純なロジットモデルの形式であり、バイナリ結果をモデル化するために使用されます。1つまたは複数の独立変数に基づいて、イベントが発生する（例：成功、存在、または選択肢1の選択）確率を予測します。独立変数とバイナリ依存変数の関係が線形でない場合に特に有用です。

二項ロジットモデルでは、選択確率は次のように計算されます。

P(Y=1 | X) = \frac{e^{U_1}}{e^{U_1} + e^{U_0}}

ここで、 $U_1$ と $U_0$ はそれぞれ、選択肢1および0の間接効用関数です。

多項ロジットモデル

多項ロジットモデルは、2つ以上の無順序の選択肢（つまり、名義的結果）の状況に二項ロジットモデルを拡張したものです。1つまたは複数の独立変数に基づいて、各選択肢の確率を予測します。

多項ロジットモデルでは、選択肢 $j$ の選択確率は次のように計算されます。

P(Y=j | X) = \frac{e^{U_j}}{\sum_{i=1}^{J} e^{U_i}}

ここで、 $U_j$ は選択肢 $j$ の効用関数であり、 $J$ は選択肢の総数です。

序数ロジットモデル

序数ロジットモデルは、満足度や同意のレベルなどの順序付けられたカテゴリを持つ依存変数がある場合に使用されます。このモデルでは、独立変数の関数として観測されるあるカテゴリ次の結果を観測する累積確率がモデル化されます。

序数ロジットモデルは次のように表されます。

P(Y \leq j | X) = \frac{e^{\alpha_j - (\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k)}}{1 + e^{\alpha_j - (\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k)}}

ここで、 $\alpha_j$ はカテゴリ $j$ のしきい値パラメータであり、 $\beta_0、\beta_1、\dots、\beta_k$ は独立変数の係数です。

モデル選択と考慮事項

バイナリ、多項、および序数ロジットモデルの間で選択する際には、依存変数の性質と対象となる研究問題を考慮することが重要です。二項ロジットモデルはバイナリ結果に適しており、多項ロジットモデルは順序を持たないカテゴリカル結果に、序数ロジットモデルは順序付きカテゴリカル結果に適しています。

さらに、モデルの仮定が満たされていることを確認することが重要です。多項ロジットモデルにおける無関係な選択肢の独立性（IIA）や、序数ロジットモデルにおける比例オッズなどがその例です。

多重共線性

ロジットモデルの推定、解釈、評価

Descriptive Statistics

Differential Equation

Dimensionality Reduction

Discrete Choice Model

Google Search Console

Hugging Face

Hypothesis Testing

Inferential Statistics

Probability Distribution

Ryusei Kakujo

Weave the future of cities through data

Transportation modeling/ Urban planning/ Machine learning/ Computer science/ GIS