Traffine I/O

日本語

2022-04-13

相関と因果関係

相関とは

相関は、2つ以上の変数間の関係の大きさと方向を表す統計的な指標です。相関係数は通常、rで示され、-1から+1の範囲で表されます。+1に近い相関係数は強い正の相関を示し、両変数が同じ方向に動くことを意味します。一方、-1に近い相関係数は強い負の相関を示し、変数が逆方向に動くことを意味します。相関係数が0の場合、変数間には線形の関係がないことを示します。

相関は統計学において重要なツールであり、2つの変数の関連度を定量化する役割を果たします。しかし、相関は因果関係を暗示するものではありません。変数が一緒に動く理由を説明することはできず、ただ動くことだけを示すことができます。

因果関係とは

因果関係は、より複雑な概念です。これは変数間の原因と結果の関係を指します。因果関係を確立するためには、通常、次の3つの基準を満たす必要があります。

  • 原因は結果の前に起こる(時間的優位性)
  • 原因と結果は統計的に相関している
  • 原因以外の説明が可能な結果の原因が存在しない(非偶発性)

因果関係は相関よりも確立するのが難しいです。通常、原因と結果の両方に影響を与える可能性のある交絡変数(第三の変数)を制御するために、注意深く設計された実験が必要となります。このような交絡変数が存在すると、原因と結果の変数間に見かけの相関が生じる可能性があります。

相関と因果関係の違い

相関と因果関係の主な違いは、変数間の関係について何を教えてくれるかです。相関は、2つの変数が一緒に変動することを教えてくれますが、なぜ一緒に変動するのかは教えてくれません。因果関係は、2つの変数が一緒に変動するだけでなく、一方の変数の変化が他方の変数の変化を引き起こすことも教えてくれます。

この概念を理解するために、統計学でよく知られている言葉「Correlation does not imply causation.(相関は因果関係を意味しない)」を考えてみます。これは、2つの変数が相関しているからといって、片方の変数が他方の変化を引き起こしているわけではないことを意味します。

例えば、ある地域でアイスクリームの販売量とサメの攻撃件数の間に高い相関があるかもしれません。しかし、これはアイスクリームを買うことがサメの攻撃を引き起こすか、逆にサメの攻撃がアイスクリームの販売量に影響を与えるということを意味しません。実際には、暖かい気候のような第三の要因が両方に影響を与えている可能性があります。

相関と因果関係の誤解と誤用

相関と因果関係の誤解や誤用は、これら2つの概念の重要な違いを見落とすことによって生じます。その結果、公衆衛生や経済、政策立案など、さまざまな分野での無害な誤解から、潜在的に害を及ぼす誤った判断まで、さまざまな影響をもたらす可能性があります。

よくある誤解

一つのよくある誤解は、相関から因果関係を推測することです。例えば、子供の靴のサイズと読書能力の間に正の相関があるとした場合、靴のサイズが大きいからといって子供がより良く読めると結論付けるのは誤りです。実際には、年齢という第三の要素が靴のサイズと読書能力の両方に影響を与えているのです。

日常生活での誤用

もう一つのよくある誤用は、因果関係が存在すると想定することです。例えば、ある企業が売上高がもっとも高い月は広告費がもっとも多い月であることに気付くかもしれません。しかし、このような誤用を避けるためには、休日シーズンなどの他の要因も考慮する必要があります。これらの要因によって、売上高と広告費の両方が増加している可能性があります。

メディアや政策立案の誤用

メディアや政策立案も、このような誤解を犯すことがあります。例えば、特定の食事と特定の疾患のリスクの間に相関があるとする研究を強調するニュースレポートがあるかもしれません。これはその食事が直接的に疾患リスクを減少させるという意味ではなく、参加者の全体的なライフスタイルや遺伝的な傾向などの交絡要因を考慮していない場合、誤解を招く可能性があります。

擬似相関

擬似相関は、見かけ上2つの変数の関係が存在するが、詳細に調べるとそれが偶発的なものであるか交絡変数によるものであるとわかる関係を指します。このような相関は意味のある関係ではなく、交絡変数や偶然の要素によって存在しているだけです。

擬似相関の前提は、相関が因果関係を意味しないという点にあります。2つの変数が相関しているように見える場合、一方の変数の変化が他方の変化を引き起こすと仮定するのは誤りです。厳密な統計的または実験的な調査がない場合、このような仮定は擬似相関を引き起こし、最善の場合でも誤解を招き、最悪の場合は不正確な結論につながる可能性があります。

擬似相関の例

擬似相関の典型的な例は、ある年にニコラス・ケイジが出演した映画の数と同じ年にプールに転落して溺れた人の数との関係です。これら2つの変数の間に相関があるように見えますが、純粋に偶然の一致です。

もう一つの例は、Internet Explorerの使用率と米国の殺人率の相関です。これらの変数は一定の期間に強く相関しているように見えますが、特定のウェブブラウザの使用が犯罪率に影響を与えると主張するのは論理的には不可能です。

擬似相関の影響

擬似相関は、特定されない限り、誤った結論や誤った判断につながる可能性があります。例えば、ビジネスの場合、あるマーケティングキャンペーンの開始と売上の増加の間に相関があると気付くかもしれません。しかし、売上の増加が実際には季節的な傾向など他の要因によるものであった場合、この擬似相関に基づいて将来のマーケティング戦略を立てることは誤った意思決定につながる可能性があります。

擬似相関の特定と回避

擬似相関を避けるためには、健全な懐疑心と批判的思考をもって相関にアプローチすることが最善です。相関は単独で終わりではなく、さらなる調査の出発点として使用するべきです。交絡変数を制御し、統計的なテストを利用することで、真の相関と擬似相関を区別するのに役立ちます。

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!