2022-11-18

多重共線性

Statistics

Statistical Model

多重共線性とは

ある説明変数同士が強く相関している状態を共線性が生じていると表現します。例えばあるモデルの説明変数として身長と体重が組み込まれている場合、身長と体重は相関関係にあるため、このモデルには共線性が生じていると言えます。

多重共線性とは、重回帰分析などの多変量解析において、共線性が複数生じている状態のことを指します。つまり、説明変数の中に相関関係が高い組み合わせが複数存在している状態になります。

多重共線性の問題点

データ分析をする際には多重共線性を考慮する必要があります。多重共線性を考慮しないと誤った結論を導いてしまうからです。

多重共線性の問題点は、β エラーが発生し、目的変数と有意に影響を与える変数を見逃してしまいやすくなってしまう点です。

例えば足の速さを目的変数とし、説明変数に身長と体重が含まれているとします。ここで、身長は足の速さを決定する因子になり得ますが、体重は足の速さには直接的には関係しない因子です。しかし、身長と体重は互いに相関しているため、体重は足の速さを決定する因子とみなされてしまいます。そのため、相関関係にある身長と体重のどちらが足の速さを決定する因子であるかが分からなくなり、誤差を大きくしてしまいます。誤差が大きくなるほど有意な関係が得られにくくなります。そのため、身長と体重はどちらも足の速さの因子ではないとみなされてしまいます。

つまり、多重共線性の問題は、共線性が生じている説明変数の標準誤差が異常に大きくなってしまうため、本来有意であるはずの説明変数に対して有意性を得られなくなってしまうということです。

多重共線性の判断基準 VIF

多重共線性の有無はVIF(Variance Inflation Factor)という指標をから判断することができます。VIFは説明変数間ごとに算出する値で、次の式で求めることができます。

VIF_i = \frac{1}{1- R^2_i}

$R^2_i$ はVIFを求めたい説明変数 $x_i$ を目的変数，その他の説明変数を説明変数として回帰したときの決定係数になります。

VIFの正確な基準値は意見が分かれますが、最低ラインとしてVIF < 10がよく使われる値になります。つまり、VIFが10を超えると多重共線性が生じていると判定します。しかし、多変量解析は、本来説明変数同士の相関が全くないことを前提としていますので、VIFが3を超えたあたりからモデルの結果は歪み始めていると言えます。