2022-04-15

因果効果

因果効果とは

因果効果とは、因果推論の核心であり、特定の介入や処置による結果の変化を指します。処置とは、患者に与えられる薬、国で実施される政策変更、教室で適用される教授法などが考えられます。

ルビン因果モデル（RCM）

ルビン因果モデルは、統計学者ドナルド・ルビンにちなんで名付けられた、因果推論のための潜在的結果フレームワークを形式化したものです。個人 $i$ の因果効果は、処置の下での潜在的結果を $Y_i(1)$ 、対照の下での潜在的結果を $Y_i(0)$ とすると、潜在的結果の差として定義されます。

CE_i = Y_i(1) - Y_i(0)

この個人レベルの因果効果はしばしば興味の対象とされますが、因果推論の根本的な問題のため、多くの場合、個々の個人については同定できません。その代わりに、集団や部分集団全体の平均的な因果効果に焦点を当てます。

平均処置効果（ATE）

平均処置効果（ATE）は、因果推論における基本的な測定値の一つです。これは、処置のための結果の期待値の違いを表します。

数学的には、ATEは次のように定義されます。

ATE = E[Y_i(1) - Y_i(0)]

ここで、 $E[]$ は期待値を示します。これは、処置を受けたグループと受けていないグループの全ての単位における処置の平均効果を測定します。

しかし、因果推論の根本的な問題のため、同じ単位 $i$ に対して $Y_i(1)$ と $Y_i(0)$ の両方を直接観察することはできません。したがって、実際の推定では、処置群と対照群の平均的な結果を比較することによってATEを推定することがよくあります。

\hat{ATE} = \frac{1}{N_t}\sum_{i \in T}Y_i - \frac{1}{N_c}\sum_{i \in C}Y_i

ここで、 $T$ は処置群の集合、 $C$ は対照群の集合、 $N_t$ は処置群の数、 $N_c$ は対照群の数を表します。

ATEの例

新しい薬の効果を調べるランダム化比較試験を考えてみます。各患者は新しい薬（処置群）または偽薬（対照群）のいずれかを投与されます。試験後、回復率などの健康結果を測定します。この場合のATEは、新薬を服用した患者と偽薬を服用した患者との間の平均的な回復率の差となります。

試験が完全にランダム化されている場合、処置群と対照群の間の観察された結果の差はATEの不偏推定量となります。しかし、観察研究や完全にランダム化されていない実験では、ATEの推定は潜在的な交絡要因の存在によってより複雑になることがあります。こうした交絡要因を修正し、ATEの不偏推定値を得るためには、高度な統計手法がしばしば必要です。

条件付き平均処置効果（CATE）

条件付き平均処置効果（CATE）は、平均処置効果（ATE）の概念を拡張し、単位の観測された特徴量（共変量）に条件付けた処置の効果を考慮するものです。これは、処置効果が異なるサブグループ間で変動する場合に特に有用です。

数学的には、特定の共変量の値 $x$ に対するCATEは次のように定義されます。

CATE(x) = E[Y_i(1) - Y_i(0) | X_i = x]

ここで、 $X_i$ は単位 $i$ の共変量を表します。

実践的には、因果推論の根本的な問題のため、CATEを推定する必要があります。これは、層別化、回帰調整、またはより高度な機械学習技術などの方法を使用して行われることが一般的です。

CATEの例

新しい教授法の効果を調査する教育研究を考えてみます。CATEを使用すると、高い事前実績を持つ生徒と低い事前実績を持つ生徒など、異なる学生グループにおけるこの教授法の効果を調べることができます。

例えば、共変量 $X_i$ が事前実績を表し、「high」または「low」という値を取るとします。その場合、各グループのCATEを次のように推定することができます。

\hat{CATE}("high") = \frac{1}{N*t^h}\sum*{i \in T^h}Y*i - \frac{1}{N_c^h}\sum*{i \in C^h}Y_i

\hat{CATE}("low") = \frac{1}{N*t^l}\sum*{i \in T^l}Y*i - \frac{1}{N_c^l}\sum*{i \in C^l}Y_i

ここで、 $T^h$ と $C^h$ は高い事前実績を持つ処置群と対照群の集合を、 $N_t^h$ と $N_c^h$ はその数を表し、同様に、 $T^l$ と $C^l$ は低い事前実績を持つ処置群と対照群の集合を、 $N_t^l$ と $N_c^l$ はその数を表します。

局所平均処置効果（LATE）

局所平均処置効果（Local Average Treatment Effect、LATE）は、特定の処置に影響を受ける個人、すなわち「コンプライヤー」と呼ばれる個人の処置効果を推定することに焦点を当てています。コンプライヤーは、処置群に割り当てられるか、処置プロトコルに従う意思がある場合にのみ処置を受ける個人のことを指します。

バイナリ処置変数 $D$ を考えてみます。 $D$ は個人が処置を受けた場合に1の値を取り、それ以外の場合は0を取ります。さらに、私たちは興味のある応答を表すアウトカム変数 $Y$ を持っています。潜在的結果は $Y(0)$ および $Y(1)$ として示され、それぞれ処置が行われなかった場合と処置が行われた場合の結果を示します。

処置の結果への因果効果は次のように定義されます。

LATE = \frac{E[Y(1)|Z = 1]- E[Y(0)|Z = 1]}{E[D|Z = 1]- E[D|Z = 0]}

ここで、

$D$ はバイナリ処置指標であり、 $D = 1$ は処置を、 $D = 0$ は対照群を表します。
$Y(D)$ は、個人が処置レベル $D$ を受ける場合の潜在的なアウトカムを示します。
$Z$ は処置を受ける可能性に影響を与えるが、アウトカムに直接影響を与えない操作変数です。

この式の分母、 $E[D|Z = 1]- E[D|Z = 0]$ は、操作変数 $Z$ が処置 $D$ に与える影響を測定します。分子、 $E[Y(1)|Z = 1]- E[Y(0)|Z = 1]$ は、操作変数が処置を変更する個人における処置と対照の潜在的結果の差を測定するものです。したがって、LATEは、操作変数 $Z$ に応答して処置の状態を変更するコンプライヤーの部分集団における処置の因果効果を測定します。

ATEとの比較

ATEは、処置を人口全体の全ての人に適用した場合と対照を人口全体の全ての人に適用した場合の、結果の期待値の差を測定します。

ATEとLATEの重要な違いは、対象とする人口にあります。ATEは、処置を常に受ける人、処置を受けない人、および操作変数に影響される人（コンプライヤー）を含む人口全体における処置の平均効果を示します。一方、LATEは特にコンプライヤーに焦点を当てています。

処置群における平均処置効果（ATT）

処置の対象となる単位に焦点を当てたものとして、処置群における平均処置効果（ATT）があります。

数学的には、ATTは次のように定義されます。

ATT = E[Y_i(1) - Y_i(0) | D_i = 1]

ここで、 $D_i$ は単位 $i$ が処置を受けるかどうかを示す指標です（ $D_i = 1$ は単位 $i$ が処置を受けたことを意味します）。

因果推論の根本的な問題のため、処置対象の単位に対して $Y_i(0)$ を直接観測することはできません。そのため、しばしば対照群のデータを使用してそれを推定する必要があります。ただし、処置対象者と対照群の単位が系統的に異なる場合、これによってバイアスが発生する可能性があります。傾向スコアに基づいたマッチングや重み付けなどの様々な方法を使用して、この選択バイアスを修正し、ATTを推定することが行われます。

ATTの例

就業の見通しを改善するために設計された職業訓練プログラムを考えてみます。もしも実際に受けた訓練の効果に特に関心がある場合、ATTを見ることになります。

ATTを計算するために、訓練を受けた個人の雇用結果を、訓練を受けなかった類似した個人の結果と比較することがあります。類似した個人に焦点を当てることで、処置対象の単位における反事実的な結果 $Y_i(0)$ を近似し、ATTを推定することを目指します。ただし、処置割り当てが無作為ではない場合、ATTの推定は課題となり、潜在的な交絡変数を慎重に考慮する必要があります。

対照群における平均処置効果（ATC）

対照群における平均処置効果（ATC）は、因果推論におけるもう一つの興味深い測定値であり、処置を受けなかった単位に対して処置が行われた場合の処置の平均効果を示します。

数学的には、ATCは次のように定義されます。

ATC = E[Y_i(1) - Y_i(0) | D_i = 0]

ここで、 $D_i$ は単位 $i$ が処置を受けるかどうかを示す指標です（ $D_i = 0$ は単位 $i$ が対照群に属していることを意味します）。

他の因果効果の測定値と同様に、ATCを計算する際には因果推論の根本的な問題に直面します。つまり、対照群の単位に対する処置の潜在的な結果 $Y_i(1)$ を直接観測することはできません。したがって、しばしば処置群の観測された結果を使用してこれを推定する必要があります。ただし、対照群と処置群の単位が系統的に異なる場合、これによってバイアスが発生する可能性があります。傾向スコアに基づくマッチングや重み付けなどの方法を使用して、このバイアスを修正し、ATCを推定することが行われます。

ATCの例

選択された学生の授業料を免除する奨学金プログラムを考えてみます。もしも私たちが非奨学金受給者が奨学金を受けた場合の学業成績について知りたいと思った場合、それはATCとなります。

ATCを推定するためには、奨学金を受けた学生と受けていない類似した学生の学業成績を比較することがあります。類似した学生に焦点を当てることで、対照群の単位における反事実的な結果 $Y_i(1)$ を近似し、ATCを推定することを目指します。ただし、処置割り当て（奨学金の配分）が無作為ではない場合、ATCの推定は課題となり、潜在的な交絡変数を注意深く扱う必要があります。

相関と因果関係

ランダム化比較試験（RCT）

Descriptive Statistics

Differential Equation

Dimensionality Reduction

Discrete Choice Model

Google Search Console

Hugging Face

Hypothesis Testing

Inferential Statistics

Probability Distribution

Ryusei Kakujo

Weave the future of cities through data

Transportation modeling/ Urban planning/ Machine learning/ Computer science/ GIS