多重共線性とは
ある説明変数同士が強く相関している状態を共線性が生じていると表現します。例えばあるモデルの説明変数として身長と体重が組み込まれている場合、身長と体重は相関関係にあるため、このモデルには共線性が生じていると言えます。
多重共線性とは、重回帰分析などの多変量解析において、共線性が複数生じている状態のことを指します。つまり、説明変数の中に相関関係が高い組み合わせが複数存在している状態になります。
多重共線性の問題点
データ分析をする際には多重共線性を考慮する必要があります。多重共線性を考慮しないと誤った結論を導いてしまうからです。
多重共線性の問題点は、β エラー が発生し、目的変数と有意に影響を与える変数を見逃してしまいやすくなってしまう点です。
例えば足の速さを目的変数とし、説明変数に身長と体重が含まれているとします。ここで、身長は足の速さを決定する因子になり得ますが、体重は足の速さには直接的には関係しない因子です。しかし、身長と体重は互いに相関しているため、体重は足の速さを決定する因子とみなされてしまいます。そのため、相関関係にある身長と体重のどちらが足の速さを決定する因子であるかが分からなくなり、誤差を大きくしてしまいます。誤差が大きくなるほど有意な関係が得られにくくなります。そのため、身長と体重はどちらも足の速さの因子ではないとみなされてしまいます。
つまり、多重共線性の問題は、共線性が生じている説明変数の標準誤差が異常に大きくなってしまうため、本来有意であるはずの説明変数に対して有意性を得られなくなってしまうということです。
多重共線性の判断基準 VIF
多重共線性の有無はVIF(Variance Inflation Factor)という指標をから判断することができます。VIFは説明変数間ごとに算出する値で、次の式で求めることができます。
VIFの正確な基準値は意見が分かれますが、最低ラインとしてVIF < 10がよく使われる値になります。つまり、VIFが10を超えると多重共線性が生じていると判定します。しかし、多変量解析は、本来説明変数同士の相関が全くないことを前提としていますので、VIFが3を超えたあたりからモデルの結果は歪み始めていると言えます。
多重共線性の判定に相関係数が使えない理由
多重共線性の有無の判断として相関係数は不十分になります。理由としては、相関係数は2変数間の関係のみを表現しているためです。例えば2変数間では相関しないけれども、3変数間だと互い相関する場合などがあります。その場合に相関係数だと3変数間の相関を表現することはできません。
多重共線性をなくすには
多重共線性を回避する方法として,大きく次の2種類があります。
- 該当する説明変数を除去する
今回の例であれば、体重を説明変数から取り除くことで多重共線性を回避することができます。 - PCA で次元削減する
PCA(Principal Component Analysis)により生成される主成分と呼ばれる合成変数は、それぞれが独立であるため、多重共線性の心配がなくなります。