2022-12-26

二項ロジットモデル

Statistics

Statistical Model

Discrete Choice Model

二項ロジットモデルとは

二項ロジットモデルは、2つの可能な結果がある状況における事象が発生する確率をモデル化するための統計ツールです。ロジスティック回帰としても知られており、社会科学、経済学、健康科学などのさまざまな分野で、1つまたは複数の予測変数に基づいてバイナリ応答を予測するために広く使用されています。このモデルの人気の理由は、解釈の容易さ、柔軟性、そして強い理論的な基盤にあります。

二項ロジットモデルの中心にあるのは、任意の入力値を0から1の確率にマップするロジスティック関数です。この関数により、伝統的な線形回帰技術を使用して簡単にモデル化できない確率の推定が可能になります。ロジットモデルの主な目的は、予測変数のセットと興味のあるバイナリ結果の関係を決定することです。

ロジスティック関数の理解

ロジスティック関数は、二項ロジットモデルの基礎となる関数であり、任意の実数値の入力を0から1の確率値にマップする数学関数です。この変換により、予測変数とバイナリ結果の関係をモデル化するのに理想的なものとなります。

ロジスティック関数の定義

ロジスティック関数は、次のように形式的に定義されます。

f(x) = \frac{1}{1 + \exp(-x)}

ここで、 $x$ は入力値を表し、 $\exp()$ は指数関数を示します。ロジスティック関数はS字形をしており、0から1の範囲にあります。 $x$ が負の無限大に近づくと、 $f(x)$ は0に近づきます。一方、 $x$ が正の無限大に近づくと、 $f(x)$ は1に近づきます。

ロジスティック関数の性質

二項ロジットモデルで確率をモデル化するために、ロジスティック関数のいくつかの重要な性質があります。

有界性
ロジスティック関数の出力は常に0から1の間にあり、確率の範囲に一致します。
単調性
ロジスティック関数は厳密に増加するため、入力値が増加すると出力値も増加します。
微分可能性
ロジスティック関数は微分可能であり、モデルの適合に使用される最適化技術に適しています。

ロジット変換

ロジット変換は、ロジスティック関数の逆関数であり、予測変数とバイナリ結果の対数オッズの関係をモデル化するために使用されます。ロジット変換は次のように定義されます。

\text{logit}(p) = \ln\left(\frac{p}{1 - p}\right)

ここで、 $p$ はバイナリ結果の確率を表し、 $\ln()$ は自然対数を示します。ロジット変換は、確率を(0,1)の間から実数全体にマップするため、線形回帰技術を使用してモデルパラメータを推定することができます。

予測変数の組み込み

二項ロジットモデルでは、ロジット変換が予測変数の線形結合に適用されます。式で表すと次のようになります。

\text{logit}(p) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n

ここで、 $p$ はバイナリ結果の確率を表し、 $\beta_0$ は切片、 $\beta_1$ から $\beta_n$ は、それぞれ予測変数 $x_1$ から $x_n$ の係数です。この線形結合にロジスティック関数を適用することで、予測変数の関数としてバイナリ結果の確率を得ることができます。

p(x) = \frac{1}{1 + \exp(-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n))}

モデルの解釈とオッズ比

最尤推定を使用して二項ロジットモデルを適合させた後、予測変数とバイナリ結果の関係を理解するためにモデルの係数を解釈することが重要です。この章では、オッズ比を使用して二項ロジットモデルの係数を解釈する方法について説明し、その解釈の意思決定や仮説検定における示唆を探ります。

ロジットモデルでの係数の解釈

二項ロジットモデルでは、係数は、対応する予測変数が1単位増加した場合の陽性結果の対数オッズの変化を表します。この解釈は数学的に正確ですが、実用的には容易に解釈することはできません。解釈を容易にするために、オッズ比を使用することができます。

オッズ比

オッズ比は、ロジットモデルにおける予測変数とバイナリ結果の関係を直感的に表現する方法です。ある予測変数のオッズ比は、その予測変数が1単位増加した場合に陽性結果のオッズが何倍になるかを表します。数学的には、予測変数 $x_j$ のオッズ比は次のように表されます：

\text{OR}_j = \exp(\beta_j)

ここで、 $\beta_j$ は予測変数 $x_j$ の係数です。オッズ比が1より大きい場合、予測変数の1単位増加により陽性結果のオッズが増加することを示し、オッズ比が1より小さい場合、予測変数の1単位増加により陽性結果のオッズが減少することを示します。

オッズ比の解釈

オッズ比の解釈を説明するために、年齢と収入に基づいて顧客の購入確率を予測する架空の二項ロジットモデルを考えてみます。

\text{logit}(p) = \beta_0 + \beta_1 \cdot \text{Age} + \beta_2 \cdot \text{Income}

推定された係数が $\beta_1 = 0.10$ 、 $\beta_2 = 0.05$ であると仮定します。年齢と収入のオッズ比は次のようになります。

\text{OR}_{\text{Age}} = \exp(0.10) \approx 1.10

\text{OR}_{\text{Income}} = \exp(0.05) \approx 1.05

これらのオッズ比は、他の変数を一定にした状態で、年齢が1歳増加すると購入確率が10%増加し、収入が1単位増加すると購入確率が5%増加することを示しています。

仮説検定と信頼区間

2項モデルでは、各予測変数の統計的有意性を評価するために仮説検定を実行することができます。帰無仮説は、予測変数がバイナリ結果に影響を与えないということであり、対応する係数が0であることを意味します。対立仮説は、予測変数がバイナリ結果に有意な影響を与えることを示し、対応する係数が0と異なることを意味します。

2項モデルでの仮説検定には、ウォルド検定や尤度比検定がよく使われます。また、信頼区間を計算して、真の母集団パラメータの範囲を提供することができます。係数またはオッズ比の信頼区間を計算することで、モデルの精度を評価することができます。

Rによる二項ロジットモデル

この章では、統計解析のためによく用いられるプログラミング言語であるRを使用して、二項ロジットモデルの当てはめを例に進めていきます。当モデルは、Rパッケージのglm()関数を使用して当てはめ、性能を評価し、結果を解釈します。

データの準備

今回は、Rに組み込まれたmtcarsデータセットを使用します。このデータセットには、様々な車の属性とそれぞれの燃費（mpg）が含まれています。22.5mpgの閾値に基づいて、車が燃費効率の高い車（1）かそうでない車（0）かを示す二項結果変数を作成します。

まず、データをロードして二項結果変数を作成します。

data(mtcars)
mtcars$efficient <- ifelse(mtcars$mpg > 22.5, 1, 0)