2022-12-27

順序ロジットモデル

Statistics

Statistical Model

Discrete Choice Model

順序ロジットモデルとは

順序ロジットモデルは、順序的な従属変数をモデル化するための一般的な統計手法であり、序数的なデータを扱う社会科学、健康、ビジネスなどの研究領域で広く使用されています。興味のある結果が順序的であり、自然な順序があるが、カテゴリ間の距離が必ずしも等しくない場合、順序ロジットモデルは、データのユニークな特徴を考慮して、これらの序数的な変数を分析するための理想的な解決策を提供します。

このモデルにより、一連の予測変数と順序的な結果の関係を調べ、各結果カテゴリの発生確率に影響を与える要因について貴重な洞察を得ることができます。例えば、順序ロジットモデルは、人口統計的、社会経済的、環境的要因が異なる疾患の段階を発症する可能性にどのように影響するかを理解するために適用されたり、製品の特徴やマーケティング戦略に基づいて顧客満足度レベルを予測するために使用されたりします。

仮定と要件

順序ロジットモデルをデータに適用する前に、必要な仮定と要件が満たされていることを確認することが重要です。これらの仮定が違反されると、バイアスや不一致の結果が生じる可能性があります。この章では、順序ロジットモデルの4つの主要な仮定である、比例オッズ仮定、従属変数の順序性、観測の独立性、およびロジットの線形性について説明します。

比例オッズ仮定

比例オッズ仮定は、順序ロジットモデルの中心的な仮定であり、全てのカテゴリで予測変数と結果カテゴリの対数オッズの関係が同じであることを意味します。数学的には、次のように表すことができます。

\log\frac{P(Y \leq j | X)}{P(Y > j | X)} = \alpha_j - \beta X

ここで、

$P(Y \leq j | X)$ は、予測変数 $X$ が与えられた条件下で、結果 $Y$ がカテゴリ $j$ 以下になる確率を表します。
$P(Y > j | X)$ は、予測変数 $X$ が与えられた条件下で、結果 $Y$ がカテゴリ $j$ よりも高いカテゴリになる確率を表します。
$\alpha_j$ は、カテゴリ $j$ の閾値（またはカットポイント）を表します。
$\beta$ は、予測変数 $X$ の係数のベクトルを表します。

この仮定は、 $\beta$ 係数が全ての結果カテゴリで同じであるということを意味し、一方で $\alpha_j$ 閾値が異なることを示します。

従属変数の順序性

順序ロジットモデルでは、従属変数が順序的であることが必要です。つまり、自然な順序があるが、カテゴリ間の距離が必ずしも等しくないことを意味します。教育水準、疾患の重症度、満足度レベルなどが順序的な変数の例です。重要なことは、モデルは名義尺度の変数や意味のないカテゴリを持つ連続変数には適していないということです。

観測の独立性

観測の独立性仮定は、データセット内の各観測が他の観測と独立していることを示しています。これは、時系列や空間的な相関などの観測間に潜在的な関係や依存関係がないことを意味します。この仮定が違反されると、バイアスのある推定値や不正確な推論が生じる可能性があります。

ロジットの線形性

順序ロジットモデルは、順序的な従属変数の対数オッズと予測変数の間の関係が線形であると仮定します。つまり、予測変数の1単位の増加が、他の変数を一定に保ったまま、結果カテゴリの対数オッズに一定の効果を与えるということを意味します。線形性の仮定を評価するためには、散布図や残差プロットを視覚的に調べたり、必要に応じて予測変数を変換したりする必要があります。

順序ロジットモデルの推定

この章では、順序ロジットモデルの推定について説明します。最尤推定、係数の解釈、閾値とカットオフポイントについて説明します。

最尤推定

順序ロジットモデルは、与えられたデータを観測する確率を最大化する係数の値を求める最尤法を使用して推定されます。順序ロジットモデルの尤度関数は次のように表されます。

L(\beta, \alpha | Y, X) = \prod_{i=1}^{n} \prod_{j=1}^{J} \left[F(\alpha_j - \beta X_i) - F(\alpha_{j-1} - \beta X_i) \right]^{I(Y_i = j)}

ここで、

$L(\beta, \alpha | Y, X)$ は、尤度関数を表します。
$\beta$ は、予測変数 $X$ の係数ベクトルを表します。
$\alpha$ は、各カテゴリ $j$ の閾値パラメータを表すベクトルです。
$Y_i$ は、 $i$ 番目の観測の結果を表します。
$X_i$ は、 $i$ 番目の観測の予測変数ベクトルを表します。
$F(\cdot)$ は、ロジスティック分布の累積分布関数を表します。
$I(\cdot)$ は、インジケータ関数であり、括弧内の条件が真である場合には1、そうでない場合には0に等しくなります。

最尤法により、係数と閾値の最尤推定値を求めることができます。最尤推定値を得るためには、ニュートン・ラフソン法や期待値最大化アルゴリズムなどの最適化アルゴリズムが用いられます。

係数の解釈

順序ロジットモデルにおける係数は、予測変数が順序的な結果変数の対数オッズに与える影響を表します。係数が正である場合、予測変数の増加がより高い結果カテゴリになる対数オッズの増加と関連しています。一方、係数が負である場合は、予測変数の増加がより高い結果カテゴリに属する確率の減少と関連しています。

係数を解釈するために、各予測変数に対するオッズ比を計算することができます。オッズ比は、他の変数を一定に保ったまま、予測変数が1単位増加した場合に、より高い結果カテゴリのオッズがどのように変化するかを示します。

\text{Odds Ratio} = e^{\beta}

重要なことは、順序ロジットモデルにおける係数とオッズ比の解釈は、比例オッズの仮定に依存しているということです。

閾値とカットオフポイント

順序ロジットモデルにおける閾値、またはカットオフポイントは、結果変数の対数オッズがカテゴリ間で変化するポイントを表します。各閾値は、特定のカテゴリに対応し、線形予測子 $\beta X$ のレベルを示します。それにより、結果変数がそのカテゴリまたはそれ以下である確率と、それよりも高いカテゴリにある確率が等しくなるレベルを示します。

推定された閾値は、特定の予測変数セットに対する結果変数の予測確率を計算するために使用することができます。

\hat{P}(Y = j | X) = F(\hat{\alpha}_j - \hat{\beta} X) - F(\hat{\alpha}_{j-1} - \hat{\beta} X)

Rにおける順序ロジットモデル

この章では、Rを使用して順序ロジットモデルを推定する方法を示します。プロポーショナルオッズモデルを適合させるためのpolr()関数を提供するMASSパッケージを使用します。

必要なパッケージをインストールして読み込む

まず、MASSとordinalパッケージをインストールしていない場合はインストールし、次にロードする必要があります。

# Install packages if not already installed
if (!requireNamespace("MASS", quietly = TRUE)) {
  install.packages("MASS")
}

if (!requireNamespace("ordinal", quietly = TRUE)) {
  install.packages("ordinal")
}

# Load packages
library(MASS)
library(ordinal)

ワインのデータセットを読み込む

`wineデータセットを読み込みます。

wine <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv", sep = ";")

# Convert the dependent variable to an ordered factor
wine$quality <- factor(wine$quality, ordered = TRUE)