i.i.d.とは
i.i.d.とはIndependent and Identically Distributedの略で、確率変数
コイントスを10回行い、表が6回、裏が4回出たとします。そして11回目のコイントスを行うとします。このとき、表か裏が出る確率はそれぞれ
ここで注意点として、i.i.d.とは等確率という意味ではありません。2つの確率変数がそれぞれ
i.i.d.に従わない例としてトランプカードの例を紹介します。52枚のトランプカードから1枚カードの引くとハートのエースであったとします。このとき、エースを引く確率は
i.i,d.は、相関を考慮する(共分散など)必要がなく、非常に計算がしやすくなるため、統計処理や仮説検定、機械学習においてよく使われる仮定です。
同一分布(Identically Distributed)
同一分布とは、全体的な傾向がないこと、つまり分布に変動がなく、サンプルの全ての項目が同じ確率分布から抽出されていることを意味します。
例えば、ある製品の強度を測定し、サンプルを多く集めると強度の平均が高くなる場合、強度についての結論を導くことは困難です。製品の強度の平均は測定するタイミングに依存してしまうことになります。時間の経過とともに傾向がある測定値を評価するには時系列分析などを行う必要があります。
分析でグループを比較する場合、グループの平均値、比率、その他の特性は異なっていても問題ないですが、各グループは同一分布である必要があります。
i.i.d.の確認方法
データが独立同一分布かどうかを知るにはデータの独立性と傾向を確認します。
データの独立性
データの独立性を確認するには、データの収集プロセスを理解します。データ収集に無作為抽出を行ったのか、それとも便宜的なサンプリングを行ったのかといった観察方法を整理します。
データの傾向
データの傾向を確認するには、比率、平均、ばらつきといった各項目を測定した順番にデータをグラフ化し、パターンを探します。データが単一の確率分布に従わないことを示唆する問題のある傾向がサンプルにあるかどうかを調べます。
参考