2022-04-30

傾向スコアマッチング（PSM）

傾向スコアマッチング（PSM）とは

傾向スコアマッチング（PSM）は、観察研究において、処置や介入の因果効果を推定するための統計的手法です。この手法は、処置を受ける要因を予測する共変量を考慮し、特定の介入や処置の因果効果を推定します。PSMは、特定の変数の効果が他の変数と混同される問題を解決することで、より正確な結果を得ることができます。

PSMの理論

傾向スコアは、観測された共変量の条件付き確率であり、処置を受ける確率を示します。処置の状態を $T$ （ $T=1$ は処置を示し、 $T=0$ は対照群を示す）とし、観測された共変量を $X$ とします。傾向スコア $e(X)$ は次のように定義されます。

e(X) = P(T=1|X)

これは、共変量に基づいて処置を受ける確率を表します。

傾向スコアはバランススコアとして機能し、同じ傾向スコアを持つ処置群と対照群の観測された共変量の分布が類似していることを意味します。数学的には、この特性は次のように表されます。

T \perp X | e(X)

この式は、傾向スコアに条件付けた場合、処置割当 $T$ は共変量 $X$ と独立であることを意味します。

観察研究では、平均処置効果（ATE）を推定することが目標である場合が多いです。ATEは次のように定義されます。

ATE = E[Y(1) - Y(0)]

ここで、 $Y(1)$ は処置を受けた場合の潜在的な結果を、 $Y(0)$ は処置を受けなかった場合の潜在的な結果を示します。

しかし、各対象について1つの潜在的な結果しか観測できないため、ATEを直接推定することは困難です。PSMは、傾向スコアが類似している処置群と対照群のペアを作成することで、無作為化実験を模倣します。このプロセスは、まず各対象の傾向スコアを計算し、その後、傾向スコアに基づいて処置群と対照群の対象をマッチングします。マッチング後、共変量のバランスを確認して、処置群と対照群の共変量の分布が類似していることを確認します。最後に、マッチングされたサンプルに基づいて処置効果を推定します。

このプロセスを説明するために、次の簡単な仮想的な例を考えます。

Subject ID	Treatment Status	Covariate X1	Covariate X2	Propensity Score
1	1	5	2	0.75
2	0	4	2	0.72
3	1	7	3	0.80
4	0	5	3	0.78

傾向スコアに基づいてマッチングすると、Subject 1とSubject 2をペアにし、Subject 3とSubject 4をペアにすることができます。これにより、観測された共変量に基づいてバランスの取れたマッチングサンプルが作成されます。

PSMの前提条件

PSMの適用には2つの主要な前提条件があります。

無関心仮定（条件付き独立仮定）
オーバーラップ仮定（共通サポート仮定）

無関心仮定

無関心仮定（または条件付き独立仮定）とも呼ばれるこの仮定は、観測された共変量が与えられた場合、潜在的な結果は処置割当と独立であることを述べています。数学的には、次のように表されます。

\{Y(0), Y(1)\} \perp T | X

この式は、共変量 $X$ に条件付けられた場合、潜在的な結果 $Y(0)$ と $Y(1)$ は処置割当 $T$ と独立であることを意味します。無関心仮定により、処置群と対照群の間の結果と処置との関係に影響を与える可能性のある観測された共変量が制御されます。

しかし、この仮定の重要な制約は、検証不可能であるということです。全ての潜在的な交絡因子に関する知識がないか、無作為化実験が行われない場合、この仮定が成立するかどうかを明確に確認することはできません。

オーバーラップ仮定

オーバーラップ仮定、または共通サポート仮定は、各共変量の値セットに対して、処置群または対照群に属する確率が正の値を取ることを主張しています。傾向スコアの観点からは、各傾向スコアにおいて、処置群と対照群のいずれかが存在する必要があります。数学的には次のように表されます。

0 < P(T=1|X=x) < 1 \quad \text{for all } x

この仮定により、各処置群の対応する対照群が存在できるようになります。この仮定がない場合、特に類似した非処置対象が存在しない処置対象に対しては、処置効果の推定が困難になります。

PSMを使用する際には、共通サポート仮定を確認することが重要です。一般的な方法は、処置群と対照群の傾向スコアまたは共変量の分布をプロットし、重なりの度合いを視覚的に確認することです。処置群の範囲外（または逆も同様）の処置対象は通常、マッチングプロセスで除外され、この仮定を満たすために削除されます。

PSMのプロセス

PSMのプロセスは、次の3つのステップに分けることができます：傾向スコアの定義、これらのスコアに基づく参加者のマッチング、およびマッチの品質の評価です。

傾向スコアの定義

PSMの最初のステップは、研究の各個人に対して傾向スコアを計算することです。傾向スコアは、観測された共変量に基づいて処置を受ける確率の条件付き確率です。これは通常、ロジスティック回帰を用いて推定されますが、他の方法も使用することができます。

2値の処置 $T$ と観測された共変量 $X$ に対して、傾向スコアは次のように定義されます。

e(X) = P(T=1|X)

参加者のマッチング

傾向スコアが計算された後、次のステップは、これらのスコアに基づいて処置を受けた参加者と処置を受けていない参加者をマッチングすることです。目標は、傾向スコアが類似している処置を受けた参加者と処置を受けていない参加者のセットを作成し、無作為化実験を模倣することです。

もっとも一般的に使用されるマッチング手法には以下があります。

最近傍マッチング
処置を受けた参加者は、もっとも近い傾向スコアを持つ処置を受けていない参加者とマッチングされます。
キャリパーマッチング
処置を受けた参加者は、一定の範囲（キャリパー）内の傾向スコアを持つ処置を受けていない参加者とマッチングされます。
層別マッチング
傾向スコアの範囲を区間（層）に分割し、同じ層内の処置を受けた参加者と処置を受けていない参加者をマッチングします。
カーネルマッチング
傾向スコアに基づいて、処置を受けていない参加者の加重平均を使用して、処置を受けた参加者に対するマッチを作成します。重みは傾向スコアによって決定されます。

これらの方法のそれぞれには利点と欠点があり、使用する方法は研究の具体的な内容によって異なります。

マッチの品質の評価

PSMの最後のステップは、マッチの品質を評価することです。これには、マッチング後に処置群と対照群の共変量の分布が類似しているかどうかを確認することが含まれます。

バランスを評価するための一般的な方法は、各共変量の平均の標準化差を計算することです。マッチングプロセスが成功していれば、マッチング後の各共変量の標準化差は小さい（通常は0.1未満）はずです。

また、グラフィカルな方法を使用してバランスを視覚的に評価することもできます。例えば、処置群と対照群の傾向スコアや共変量の分布をマッチング前後にプロットし、重なりの度合いを比較することができます。

マッチング後に共変量のバランスが崩れている場合、マッチングプロセスの調整（キャリパーマッチングのキャリパーの変更など）や傾向スコアモデルに追加の共変量を含める必要があるかもしれません。傾向スコアの定義、参加者のマッチング、マッチの品質の評価のプロセスは、適切なバランスを達成するために何度か繰り返す必要がある場合があります。

PSMの制限と落とし穴

多くの応用と利点があるにもかかわらず、PSMにはいくつかの制限と落とし穴があります。これらを理解することは、結果の正しい解釈やPSMの使用方法について正しい知識を持つために重要です。

未測定の交絡因子による隠れたバイアス
PSMの主な制限の1つは、未測定の交絡因子による隠れたバイアスの可能性です。PSMは観測された共変量のバランスをとることができますが、処置群と対照群の間の結果に影響を与える可能性がある未観測の共変量が存在する場合、推定される処置効果にはバイアスが生じる可能性があります。この問題は、未観測の交絡因子を無視した無関心仮定が検証できないという点が特に問題です。
傾向スコアモデルへの過度の依存
傾向スコアモデル（通常はロジスティック回帰）は、観測された共変量に基づいて処置割当の確率を推定するために使用されます。このモデルが誤っている場合（例：重要な相互作用項や非線形関係が見落とされている場合）、結果として得られる傾向スコアはバイアスが生じる可能性があり、処置効果の推定にもバイアスが生じます。
データサイズの削減
マッチングにより、データサイズが減少する可能性があります。特に、完全一致またはキャリパーマッチングが使用される場合、マッチングされなかった対象は分析から除外される傾向があります。これはサンプルサイズを減らすだけでなく、除外された対象が含まれた対象と系統的に異なる場合にバイアスを導入する可能性もあります。最悪の場合、オーバーラップ仮定が破られ、類似の非処置対象が存在しない処置対象（またはその逆）が存在する可能性があります。
マッチングアルゴリズムの選択への感度
マッチングアルゴリズムの選択は、推定される処置効果に大きな影響を与える可能性があります。異なるアルゴリズム（最近傍法、キャリパーマッチング、カーネルマッチングなど）にはそれぞれ異なる利点と欠点があり、普遍的に「最良の」選択肢は存在しません。アルゴリズムの選択は、研究の具体的な内容に基づいて行う必要があります。研究者は理想的には、アルゴリズムの選択に対する結果の堅牢性を確認するために、結果を検証するべきです。

PSMのケーススタディ

教育研究の文脈で仮想のケーススタディを考えてみます。

背景

新しい教育戦略（処置）が学生の最終試験の成績に与える効果を評価したいとします。この教育戦略は一部の教室（処置群）に実施されましたが、他の教室（対照群）には実施されませんでした。これは無作為割り当て試験ではなかったため、学生の以前の学業成績や社会経済的地位などの交絡因子が存在する可能性があります。データセットには、学生の最終試験の成績、新しい教育戦略への露出の有無、以前の年のGPA（成績点平均）、および社会経済的指標の指標などの情報が含まれています。

次の表は、データの一部を示しています。

学生ID	処置の状態	以前のGPA	社会経済的指標	最終試験の成績
1	1	3.5	7	85
2	0	3.2	5	80
3	1	3.8	8	88
4	0	3.0	6	78
5	0	3.1	6	81
6	1	3.7	7	87

傾向スコアの推定

まず、各学生のために傾向スコアを推定することから始めます。これは、以前のGPAと社会経済的指標を基に、処置を受ける確率の条件付き確率を推定することです。一般的には、ロジスティック回帰モデルを使用して推定されます。

マッチング

次に、傾向スコアに基づいて、処置群の学生と対照群の学生をマッチングします。この場合、非復元的な最近傍マッチングを使用します。つまり、対照群の学生は処置群の学生と1対1でマッチングされます。

バランスの確認

マッチング後、処置群と対照群の共変量のバランスを確認します。共変量の標準化差の計算によって、バランスが達成されているかどうかを評価します。共変量の標準化差は、マッチング後の処置群と対照群のそれぞれの共変量の平均の差を、その標準偏差で割った値です。バランスが達成されている場合、共変量の標準化差は小さくなります。

処置効果の推定

最後に、処置群と対照群の平均最終試験の成績を比較することによって、処置効果を推定します。平均の差は、新しい教育戦略が学生の最終試験の成績に与える平均効果の推定値となります。

回帰不連続性デザイン（RDD）

機械学習

Descriptive Statistics

Differential Equation

Dimensionality Reduction

Discrete Choice Model

Google Search Console

Hugging Face

Hypothesis Testing

Inferential Statistics

Probability Distribution

Ryusei Kakujo

Weave the future of cities through data

Transportation modeling/ Urban planning/ Machine learning/ Computer science/ GIS