Traffine I/O

日本語

2022-11-25

サンプルサイズの決め方

サンプルサイズとは

サンプルサイズとは、母集団から抽出した標本におけるデータの総数になります。最小限のコストで母集団の実態を適切に表すようにサンプルサイズを決定する必要があります。サンプルサイズが小さすぎると、データが偏ってしまい、母集団を適切に把握することができません。一方、サンプルサイズが大きすぎると、調査費用や時間が増加してしまいます。このように、サンプルサイズの決定はコスト面、調査の正確性の担保の観点で非常に重要です。

サンプルサイズの決め方

サンプルサイズを求めるためには以下を設定する必要があります。

  • 許容誤差
  • 信頼水準

許容誤差(信頼区間)

許容誤差とは、標本の平均値と母集団の平均値との間にどれだけの差を許容するかを示す指標です。信頼区間とも呼ばれたりします。許容誤差が大きいほど、母集団の実態とのズレが大きくなる可能性が高くなります。

信頼水準

信頼水準とは、許容誤差内の結果になる確率を示した指標です。一般的に信頼水準は90%、95%、99%のいずれかの値を設定します。例えば信頼水準が99%というのは、調査を何度も繰り返すと99%の確率で母集団から得られる結果と一致することを意味します。

サンプルサイズの計算

母集団の標準偏差を \sigma とすると、標本平均の標準偏差は中心極限定理より以下になります。

\frac{\sigma}{\sqrt{n}}

今回は信頼水準は95%とします。信頼水準が95%のときのz値は1.96になります。

信頼水準 z 値
80% 1.28
85% 1.44
90% 1.65
95% 1.96
99% 2.58

よって95%信頼区間は次のようになります。

許容誤差 = 1.96 * \frac{\sigma}{\sqrt{n}}

n を移項すると、サンプルサイズ n を求める式は以下になります。

n = (\frac{1.96 * \sigma}{許容誤差})^2

例として、ある製品のサイズを計測して母集団平均を推定したいときに必要なサンプルサイズを計算します。標準偏差を \sigma = 6mm、許容誤差を2mmとすると、サンプルサイズは次のようになります。

n = (\frac{1.96 * 6}{2})^2 = 34.6

95%の信頼水準、2mmの誤差で区間推定をするためには、35サンプルが必要であることが分かります。

また、母平均の比率を推定したい場合は、比率を p とすると比率の標準偏差は以下になります。

\sqrt{p(1-p)}

標本比率の誤差は以下になります。

\sqrt{\frac{p(1-p)}{n}}

よってサンプルサイズ n を求める式は以下になります。

n = (\frac{1.96 * \sqrt{p(1-p)}}{許容誤差})^2

例として、パソコン普及率が60%のとある町にて95%の確率で普及率の誤差が10%になるために必要なサンプルサイズを計算します。

n = (\frac{1.96 * \sqrt{0.6(1-0.6)}}{0.1})^2 = 68.5

95%の信頼水準、10% の誤差で区間推定をするためには、69サンプルが必要であることが分かります。

参考

https://www.qualtrics.com/au/experience-management/research/determine-sample-size/?rid=ip&prevsite=en&newsite=au&geo=JP&geomatch=au
https://www.geopoll.com/blog/sample-size-research/

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!