2022-03-26

母分散の推定量としての不偏分散

母分散と標本分散

統計学において、分散はデータセット内のデータポイントがどの程度散らばっているかを示す指標です。異なるデータセットを分析し比較する際には重要な概念です。

母分散は、全母集団の真の分散を表します。研究やデータ分析を行う際には、理想的には全母集団にアクセスできることが望ましいとされていますが、実際には全ての個体からデータを収集することは不可能または非現実的であることがほとんどです。そこで、標本分散が使用されます。

標本分散は、標本として知られる母集団の部分集合を用いて計算されます。標本は母集団全体についての推測、つまり母分散の推定を含めるために使用されます。正確な推定を行うためには、代表的な標本を選択することが重要です。

母分散の推定

母分散の式

母分散は、データセット内の分散を示す指標です。各データポイントと母集団平均( $\mu$ )の差の二乗の平均を取ることで求められます。母分散の式は次のとおりです。

$\sigma^2 = \frac{\sum(x - \mu)^2}{N}$

ここで、 $x$ は各データポイント、 $\mu$ は母集団平均、 $N$ は母集団の大きさを表します。

標本分散の式

標本分散は、母分散と同様の方法で計算されますが、標本平均( $\bar{x}$ )を母集団平均の代わりに使用し、標本の大きさ( $n$ )を母集団の大きさの代わりに使用します。

$s^2 = \frac{\sum(x - \bar{x})^2}{n}$

標本分散は母分散を過小評価する傾向があるため、不偏な母分散の推定を得るために、補正係数が必要です。この補正はベッセルの補正と呼ばれ、分母に $n$ の代わりに $n-1$ を使用することで行われます。

$s^2 = \frac{\sum(x - \bar{x})^2}{n - 1}$

この補正された標本分散式を使用することで、より正確で不偏母分散の推定値を得ることができます。

n-1を使用する数学的根拠

標本分散式の分母に $n-1$ を使用する数学的根拠について説明します。この補正は、標本平均を使用することによって1自由度が失われることを考慮して、母分散の不偏推定値を提供するために使用されます。

数学的期待値と不偏推定量

統計学において、推定量は、サンプルに基づいて母集団パラメータの推定値を計算する関数です。不偏推定量とは、平均的には母集団パラメータの真の値と等しい推定値を提供するものです。数学的には、母集団パラメータ $\theta$ の不偏推定量 $\hat{\theta}$ に対して、次のように表されます。

$E[\hat{\theta}]= \theta$

分母に $n$ を使用して計算された標本分散は、母分散の偏りのある推定量です。その理由は次のとおりです。

母平均が $\mu$ で分散が $\sigma^2$ の母集団からのランダムサンプルを $X_1, X_2, ..., X_n$ とし、標本平均が $\bar{X}$ であるとすると、偏りのある標本分散 $S_n^2$ は次のように定義されます。

$S_n^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n}$

ここで、 $\bar{X}$ は標本平均です。偏りのある推定量であることを示すためには、 $S_n^2$ の期待値を計算する必要があります。

$E[S_n^2]= E\left[\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n}\right]$

この式をいくつかの代数的操作によって変形することで、次のように示されます。

$E[S_n^2]= \frac{n-1}{n}\sigma^2$

不偏標本分散式の導出

母分散の不偏推定量を得るためには、標本分散式を $n-1$ を分母に使用するように調整する必要があります。不偏標本分散式 $S_{n-1}^2$ は次のように定義されます。

$S_{n-1}^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n-1}$

この新しい推定量の期待値を計算することで、不偏推定量であることが示されます。

$E[S_{n-1}^2]= E\left[\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n-1}\right]$

前述の代数的操作を行うことで、次のように示されます。

$E[S_{n-1}^2]= \sigma^2$

この結果から、分母に $n-1$ を使用する不偏標本分散式が、平均的に真の母分散を正確に推定することが示されます。

標本分散が母分散よりも小さくなる理由

標本分散は、母分散を過小評価する傾向があります。これは、標本平均 $\bar{x}$ が標本分散の計算に使用されるデータポイントと同じデータポイントから計算されるため、各データポイントと標本平均の二乗の差が一般に小さいため、分散値が小さくなるためです。この系統的な過小評価は、偏りとして知られています。

以下は、Pythonを使用した標本分散の偏りを示す例です。

python

import numpy as np

population = np.random.normal(50, 10, 10000)  # Simulate a population with mean=50 and std_dev=10
biased_variances = []

for _ in range(1000):
    sample = np.random.choice(population, 30)  # Draw a sample of size 30
    sample_variance = np.var(sample, ddof=0)  # Compute biased sample variance
    biased_variances.append(sample_variance)

mean_biased_variance = np.mean(biased_variances)
population_variance = np.var(population)

print("Mean Biased Variance:", mean_biased_variance)
print("Population Variance:", population_variance)

Mean Biased Variance: 97.12419679509834
Population Variance: 99.90071273636632

この例から、過小評価された標本分散が平均的に真の母分散よりも小さいことが示されます。

不偏分散推定量としての標本分散

母分散の不偏推定値を得るためには、ベッセルの補正を標本分散式に適用する必要があります。この補正は、母集団平均の代わりに標本平均を使用することによって導入される偏りを補正するために、分母に $n-1$ を使用することを含みます。

$s^2 = \frac{\sum(x - \bar{x})^2}{n - 1}$

この補正された標本分散式を使用することで、より正確で不偏母分散の推定値を得ることができます。この補正は、偏りがより顕著に現れる小さなサンプルサイズで作業する場合に特に重要です。

ベッセルの補正の効果をさらに説明するために、前の章で使用されたPythonの例を修正して、不偏標本分散を計算するようにします。

python

import numpy as np

population = np.random.normal(50, 10, 10000)  # Simulate a population with mean=50 and std_dev=10
unbiased_variances = []

for _ in range(1000):
    sample = np.random.choice(population, 30)  # Draw a sample of size 30
    sample_variance = np.var(sample, ddof=1)  # Compute unbiased sample variance
    unbiased_variances.append(sample_variance)

mean_unbiased_variance = np.mean(unbiased_variances)
population_variance = np.var(population)

print("Mean Unbiased Variance:", mean_unbiased_variance)
print("Population Variance:", population_variance)

Mean Unbiased Variance: 101.69170154048732
Population Variance: 101.5789887073244

この例から、ベッセルの補正を使用した不偏標本分散式を使用することで、真の母分散のより正確な推定値を得ることができることが示されます。分母に $n$ の代わりに $n-1$ を使用することで、計算に標本平均を使用することによって導入される偏りを効果的に補正できます。

分散と標準偏差

Zスコア

Descriptive Statistics

Differential Equation

Dimensionality Reduction

Discrete Choice Model

Google Search Console

Hugging Face

Hypothesis Testing

Inferential Statistics

Probability Distribution

Ryusei Kakujo

Weave the future of cities through data

Transportation modeling/ Urban planning/ Machine learning/ Computer science/ GIS