Traffine I/O

日本語

2022-04-04

母比率の区間推定

母比率の区間推定

統計的推論では、観察されたサンプルに基づいて、より大きな母集団の特性についての記述や予測を行うことがしばしば目的とされます。そのような特性の一つに、母比率があります。

母比率は、母集団のメンバー間で共有される特定の特性の尺度であり、pと表されます。例えば、ある国の有権者の母集団を考える場合、pは特定の候補者を支持する有権者の割合を表すかもしれません。

区間推定は、パラメータの推定値が存在する範囲を提供します。点推定ではパラメータの単一のもっとも確からしい値を提供しますが、区間推定ではパラメータを含む可能性のある値の範囲を提供します。この範囲は、パラメータが与えられた範囲内に存在する確信度を定量化する信頼水準とともに表示されることが一般的です。

母比率の区間推定では、真の母比率がおそらく含まれる値の範囲(または区間)を決定することが目標です。これは、サンプルデータと、サンプリングの変動性を考慮した統計的な手法を使用して行われます。

母比率の区間推定の手順

母比率の区間推定の手順について説明します。

サンプルからの推定量の計算

区間推定の最初のステップは、サンプルから推定量を計算することです。推定量は通常、\hat{p}(読み方は"pハット")と表され、単純に興味のある特性を持つサンプルの割合です。数学的には、次のように計算されます。

\hat{p} = \frac{X}{n}

ここで、Xはサンプル中の成功(特定の特性を持つ個体の数)、nは総サンプルサイズです。

信頼区間の設定

2番目のステップは、所望の信頼水準を設定することです。この信頼水準は、推定された区間内に真の母比率が存在する確信度を示します。重要なことは、信頼水準は信頼区間の計算に使用されるZスコアも決定することです。一般的に使用される信頼水準には、90%、95%、99%などがあり、それぞれに対応するZスコアは約1.645、1.96、2.576です。

推定量のサンプル分布の考慮

区間推定の重要な側面は、推定量の分布を理解することです。データの性質によって、異なる分布が適用される場合があります。

二項分布

同じサイズの多数のサンプルを母集団から抽出し、それぞれのサンプルについて\hat{p}を計算すると、得られる値はサンプリング分布を形成します。一定の条件の下では、このサンプリング分布は二項分布に従います。

二項分布の確率質量関数は次のように与えられます。

P(X=k) = C(n,k) * p^k * (1-p)^(n-k)

ここで、P(X=k)n回の試行中のk回の成功の確率を示し、C(n,k)は二項係数、pは個々の試行での成功確率です。

正規分布への近似

実際には、二項分布は扱いにくい場合があります、特にサンプルサイズが大きい場合です。ただし、サンプルサイズが十分に大きい場合(通常はnp\hat{p}n(1 - \hat{p})が5以上である場合)、中心極限定理によって、二項分布を正規分布で近似することができます。

区間の計算

最後に、区間推定の計算を行います。母比率の場合、通常は\hat{p} \pm Z \times SE(\hat{p})の形式で表されます。ここで、Zは所望の信頼水準に対応するZスコア、\hat{p}はサンプル比率、SE(\hat{p})は比率の標準誤差です。

標準誤差は次のように計算されます。

SE(\hat{p}) = \sqrt{\frac{\hat{p} \ast (1 - \hat{p})}{n}}

したがって、母比率の信頼区間は次のようになります。

CI = \hat{p} \pm Z \ast \sqrt{\frac{\hat{p} \ast (1 - \hat{p})}{n}}

これが母比率の区間推定の最終結果です。これにより、ある信頼水準で真の母比率を含む値の範囲が得られます。

実践例

比率の区間推定の理解を深めるために、実践的な例を考えます。

1000人の患者のうち、治療後に500人が回復(成功)し、残りの人は回復しなかった(失敗)とする臨床試験を考えます。広範な人口における成功割合を推定したいとします。

  1. サンプルからの推定量の計算

サンプルの成功割合は次のように計算されます。

\text{成功割合} = \frac{\text{成功の数}}{\text{総サンプル数}} = \frac{500}{1000} = 0.5
  1. 信頼区間の設定

95%の信頼水準を設定します。

  1. 推定量のサンプル分布の考慮

データが2値(成功/失敗)であるため、二項分布が適用されます。ただし、サンプルサイズが大きいため、正規分布の近似を使用できます。

  1. 区間の計算

この場合、二項比率の標準誤差は次の式を使って計算できます。

SE = \sqrt{\frac{p(1-p)}{n}}

ここで、pは成功のサンプル比率(0.5)、nはサンプルサイズ(1000)です。これにより、標準誤差は約0.0158となります。

信頼区間は次のように計算されます。

CI = 1 \pm 1.96 \times 0.0158 = (0.469, 0.531)

この結果から、95%の信頼水準で、真の成功割合がこの区間に含まれることが言えます。

Pythonコード

以下にPythonコードを示します。

python
import numpy as np
from scipy.stats import norm

# Sample data
successes = 500
failures = 500
total = successes + failures

# Step 1: Calculation of Estimator from Sample
estimator = successes / total

# Step 3: Consideration of Sample Distribution of Estimator
# Calculation of standard error
p = successes / total
se = np.sqrt(p * (1 - p) / total)

# Step 4: Calculation of Interval
z_value = norm.ppf(0.975)  # For 95% confidence level
confidence_interval = (estimator - z_value*se, estimator + z_value*se)

print(f"95% confidence interval for the success proportion is: {confidence_interval}")

# If we use binomial distribution
from scipy.stats import binom
ci_lower, ci_upper = binom.interval(0.95, n=total, p=estimator)
print(f"95% confidence interval for the success proportion is: ({ci_lower/n}, {ci_upper/n})")
95% confidence interval for the success proportion is: (0.4690102483847719, 0.5309897516152281)
95% confidence interval for the success proportion is: (0.469, 0.531)

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!