2022-12-26

ロジットモデルの推定、解釈、評価

Statistics

Statistical Model

Discrete Choice Model

はじめに

この記事では、最尤推定法（MLE）を用いたロジット係数の推定と、これらの係数をオッズ比に変換する方法について詳しく説明し、ロジットモデルの評価と検証についても紹介します。

また、モデルの推定・解釈・評価をRを使用して実践的なデモンストレーションを行います。

ロジット係数の推定と解釈

この章では、最尤推定法（MLE）を用いたロジット係数の推定と、これらの係数をオッズ比に変換する方法について説明します。

最尤推定法

ロジットモデルでは、2値の結果変数 $Y$ と一連の予測変数 $X_1, X_2, \dots, X_p$ の関係は、オッズ比率の自然対数であるロジット関数で表されます。

\text{logit}(P(Y=1|X)) = \ln\left(\frac{P(Y=1|X)}{1 - P(Y=1|X)}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_p X_p

係数 $\beta_0, \beta_1, \dots, \beta_p$ を推定するには、最尤法（MLE）を用います。ロジットモデルの尤度関数は次のようになります。

L(\beta) = \prod_{i=1}^n \left[P(Y_i=1|X_i)^{Y_i} (1 - P(Y_i=1|X_i))^{(1 - Y_i)} \right]

最尤推定量は、尤度関数を最大にする係数の値となります。これらの推定量を求めるために、通常、Newton-Raphson法や反復重み付き最小二乗法（IRLS）などの反復的な数値最適化アルゴリズムが用いられます。

オッズ比と解釈

ロジット係数を解釈するために、しばしばオッズ比に変換します。オッズ比は、予測変数の2つの異なる値に対する応答変数が1であるオッズの比率です。予測変数 $X_j$ の1単位増加に対するオッズ比は次のようになります。

\text{OR}_j = \frac{\text{Odds}(Y=1|X_j + 1)}{\text{Odds}(Y=1|X_j)} = e^{\beta_j}

1より大きいオッズ比率は、予測変数の1単位増加により結果がより起こりやすくなることを示し、1より小さいオッズ比率は、結果がより起こりにくくなることを示します。オッズ比率が1の場合、予測変数が結果変数に影響を与えないことを示します。

オッズ比率の解釈を理解するために、次の例を考えてみます。年齢と体重指数（BMI）に基づいて、糖尿病を持つ可能性を推定するロジットモデルがあるとします。推定されたロジットモデルの係数が $\beta_1 = 0.05$ （年齢）および $\beta_2 = 0.15$ （BMI）であるとします。

年齢のオッズ比率は $e^{0.05} \approx 1.05$ であり、1年の年齢が増えるごとに、糖尿病の発症率が約5％増加することを示します。BMIのオッズ比率は $e^{0.15} \approx 1.16$ であり、BMIが1単位増加するごとに、糖尿病の発症率が約16％増加することを示します。

モデル評価と検証

ロジットモデルを推定した後、パフォーマンスを評価し、妥当性を評価することが重要です。この章では、適合度の良し悪しを示す尺度について説明し、モデルの仮定や限界を検討します。

適合度の良し悪しを示す尺度

ロジットモデルの適合度を評価するためには、尤度比検定、アカイケ情報量基準（AIC）、ベイズ情報量基準（BIC）などの尺度が使用されます。これらの尺度は、異なるモデルの適合度を比較し、予測変数を追加または削除することでモデルを改善するかどうかを判断するのに役立ちます。

尤度比検定

尤度比検定は、1つのモデルが他のモデルの部分集合である、2つの入れ子のモデルの適合度を比較します。検定統計量は次のように与えられます。

LR = -2 \ln \left(\frac{L_0}{L_1}\right)

ここで、 $L_0$ および $L_1$ は、それぞれヌルモデルと代替モデルの尤度です。検定統計量は、2つのモデル間のパラメータ数の差に等しい自由度を持つカイ二乗分布に従います。

アカイケ情報量基準（AIC）

AICは、適合度とモデルの複雑さをバランスするモデル適合度の尺度です。AICの値が小さいほど、適合度が良いモデルです。AICは次のように与えられます。

AIC = -2\ln(L) + 2k

ここで、 $L$ はモデルの尤度、 $k$ は推定されたパラメータ数です。

ベイズ情報量基準（BIC）

AICと同様に、BICも適合度とモデルの複雑さをバランスする尺度ですが、パラメータの追加に対してより強いペナルティを課します。BICの値が小さいほど、適合度が良いモデルです。BICは次のように与えられます。

BIC = -2\ln(L) + k\ln(n)

ここで、 $n$ はサンプルサイズです。

疑似R2

疑似 $R^2$ 値は、McFaddenの $R^2$ など、線形回帰の $R^2$ と比較できるモデル適合度の代替尺度を提供します。McFaddenの $R^2$ は次のように与えられます。

ロジットモデルの推定、解釈、評価

はじめに

ロジット係数の推定と解釈

最尤推定法

オッズ比と解釈

モデル評価と検証

適合度の良し悪しを示す尺度

尤度比検定

アカイケ情報量基準（AIC）

ベイズ情報量基準（BIC）

疑似R2

モデルの仮定と限界

R によるロジットモデルの推定と解釈

データの準備

ロジットモデルの推定

ロジット係数の解釈

モデルの評価

尤度比検定

AIC と BIC

McFadden の擬似R2

ロジットモデルとは

二項ロジットモデル

Ryusei Kakujo