Traffine I/O

日本語

2022-12-16

i.i.d.

i.i.d.とは

i.i.d.とはIndependent and Identically Distributedの略で、確率変数 X_1, X_2, \cdots, X_n が互いに独立で、全て同一の確率分布に従うこと意味します。i.i,d.という確率分布が存在するわけではないことにご注意ください。

コイントスを10回行い、表が6回、裏が4回出たとします。そして11回目のコイントスを行うとします。このとき、表か裏が出る確率はそれぞれ \frac{1}{2} であり、10回目までの結果に影響されません。つまり、1から11回目までのコイントスで得られる結果は互いに独立しており、一貫して同じ分布です。したがって、このコイントスはi.i.d.に従うと言えます。

ここで注意点として、i.i.d.とは等確率という意味ではありません。2つの確率変数がそれぞれ \frac{1}{2} の確率でなければならないであったり、4つの確率変数がそれぞれ \frac{1}{4} の確率でなければi.i.d.と言えないというわけではありません。

i.i.d.に従わない例としてトランプカードの例を紹介します。52枚のトランプカードから1枚カードの引くとハートのエースであったとします。このとき、エースを引く確率は \frac{4}{52} になります。ここで、先ほど引いたハートののエースを戻さずにもう一枚カードを引く場合、エースを引く確率は \frac{3}{51} になります。このように、エースを引く確率は、互いに独立ではなく、同じ確率分布でもないため、i.i.d.に従っているとは言えません。

i.i,d.は、相関を考慮する(共分散など)必要がなく、非常に計算がしやすくなるため、統計処理や仮説検定、機械学習においてよく使われる仮定です。

同一分布(Identically Distributed)

同一分布とは、全体的な傾向がないこと、つまり分布に変動がなく、サンプルの全ての項目が同じ確率分布から抽出されていることを意味します。

例えば、ある製品の強度を測定し、サンプルを多く集めると強度の平均が高くなる場合、強度についての結論を導くことは困難です。製品の強度の平均は測定するタイミングに依存してしまうことになります。時間の経過とともに傾向がある測定値を評価するには時系列分析などを行う必要があります。

分析でグループを比較する場合、グループの平均値、比率、その他の特性は異なっていても問題ないですが、各グループは同一分布である必要があります。

i.i.d.の確認方法

データが独立同一分布かどうかを知るにはデータの独立性と傾向を確認します。

データの独立性

データの独立性を確認するには、データの収集プロセスを理解します。データ収集に無作為抽出を行ったのか、それとも便宜的なサンプリングを行ったのかといった観察方法を整理します。

データの傾向

データの傾向を確認するには、比率、平均、ばらつきといった各項目を測定した順番にデータをグラフ化し、パターンを探します。データが単一の確率分布に従わないことを示唆する問題のある傾向がサンプルにあるかどうかを調べます。

参考

https://towardsdatascience.com/independent-and-identically-distributed-ce250ad1bfa8
https://statisticsbyjim.com/basics/independent-identically-distributed-data/

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!