2022-11-20

Z検定

Statistics

Inferential Statistics

Hypothesis Testing

Z検定とは

Z検定は、統計学者、研究者、データアナリストなどにとって基本的なツールであり、もっとも一般的に使用される統計手法の一つです。この手法は、サンプルデータの分析に基づいて、母集団の特性に関する推論や結論を導くための仮説検定の一種です。

Z検定という用語は、標準正規分布（別名Z-分布）に由来しています。これは平均が0で標準偏差が1である正規分布の特殊な場合です。「Z」はZ-スコアから派生しており、統計学において確率変数を標準化する方法です。

Z検定の基本的なアイデアは、観測された標本平均が仮説となる母平均からどれだけ離れているかを、標準偏差の単位で評価することです。標本平均が十分に母平均と異なる場合、帰無仮説を棄却し、対立仮説を採択します。つまり、標本平均と母平均との間に統計的に有意な差があると結論します。

例えば、靴の製造業者が靴の寿命が平均で12ヶ月であると主張しています。これが正確ではない可能性があるため、靴のサンプルを収集し、その寿命をテストします。Z検定を使用することで、サンプルの平均寿命が主張された12ヶ月と統計的に異なるのかどうかを判断することができます。

Z検定の仮定

Z検定は、他の多くの統計手法と同様に、特定の仮定に基づいています。これらの仮定が満たされない場合、テストから得られる結果は妥当性や信頼性がない可能性があります。したがって、Z検定を実施する前に、データが次の仮定を満たしているかを確認することが重要です。

母集団が正規分布に従う
Z検定が妥当であるためには、サンプルを抽出する母集団が正規分布に従っている必要があります。しかし、中心極限定理のおかげで、十分に大きなサンプルサイズ（通常は30以上とされる）であれば、母集団が正規分布に従っていなくても問題ありません。標本平均の分布は依然として正規分布に近似します。
既知の母集団標準偏差
これはZ検定のもっとも厳しい仮定の一つです。Z検定では、母集団の標準偏差が既知であると仮定します。実際には、これはしばしば現実的ではなく、サンプルの標準偏差が母集団の標準偏差の推定値として使用されます。この場合、Z検定の代わりにT検定を使用する方が適切です。

Z検定の種類

データの性質や調査したい問いによって、使用するZ検定の種類は異なります。以下にもっとも一般的な3つのタイプを紹介します。

1標本Z検定
1標本Z検定は、サンプルが特定の母集団から抽出されたかどうかを知りたい場合に使用されます。母集団の平均値と標準偏差は以前の研究から既知です。この母集団からサンプルを抽出し、サンプルの平均値を求め、これを母集団の平均値と比較します。標本平均が母平均と十分に異なる場合、サンプルがその母集団から来た可能性は低いと結論付けることができます。
2標本Z検定
2標本Z検定は、2つの独立したグループを比較し、それらが同じ母集団から来ているかどうかを調べる場合に使用されます。例えば、男性の平均身長と女性の平均身長が異なるかどうかを知りたい場合です。男性と女性から無作為にサンプルを抽出し、男性の平均身長と女性の平均身長を比較します。差が統計的に有意であれば、男性と女性の身長は統計的に異なると結論付けられます。
対応のあるZ検定
対応のあるZ検定は、同じ被験者群における2つの変数の差を調べる場合に使用されます。例えば、トレーニングプログラムがパフォーマンスを改善するかどうかに興味があるとします。トレーニングプログラムの前後でパフォーマンスを測定し、2つのスコアを比較します。平均の差が統計的に有意であれば、トレーニングプログラムには効果があると結論付けられます。

Z検定の実施手順

Z検定を実施するには、いくつかの手順が必要です。以下では、1標本Z検定の一般的なプロセスを概説します。ただし、これは簡略化された例であり、データの性質やZ検定のタイプによって具体的な手順が異なる場合があります。

帰無仮説と対立仮説を述べる

帰無仮説（ $H_0$ ）は、標本平均と母平均の差がゼロである、つまり効果や差がないことを述べる文です。対立仮説（ $H_1$ ）は、効果や差があることを述べる文です。

例:

$H_0$ : $\mu$ = $\mu_0$
$H_1$ : $\mu$ ≠ $\mu_0$

ここで、 $\mu$ は母平均であり、 $\mu_0$ は仮説となる母平均です。

有意水準を選択

有意水準（ $\alpha$ と表記される）は、帰無仮説が真である場合に誤って帰無仮説を棄却する確率です。通常、0.05の有意水準が使用されます。つまり、帰無仮説を誤って棄却する確率を5%まで受け入れることを意味します。

Zスコアを計算

Zスコアは次の式を使用して計算されます。

Z = \frac{(\bar{X} - \mu_0)}{\frac{\sigma}{\sqrt{n}}}

ここで、

$\bar{X}$ は標本平均
$\mu_0$ は仮説となる母平均
$\sigma$ は母集団の標準偏差
$n$ はサンプルサイズ

臨界Zスコアを決定

臨界Zスコアは、正規分布の曲線下の領域を有意水準に関連付ける値です。両側検定の場合、有意水準0.05では通常、臨界Zスコアは±1.96となります。

判断を下す

もしZ > 臨界Zスコアであれば、帰無仮説を棄却します。
もしZ ≤ 臨界Zスコアであれば、帰無仮説を棄却できません。

帰無仮説を棄却できないという結論は、帰無仮説を受け入れたという意味ではありません。これは単に、対立仮説を支持する十分な証拠がないことを意味します。

結果を報告

最後に、結果を報告する必要があります。これには、Z値、p値（帰無仮説が真である場合にデータを観測する確率）、帰無仮説を棄却したかどうかが含まれます。

PythonによるZ検定の実装

この章では、Pythonを使用して1標本Z検定を実施します。

まず、必要なライブラリをインポートする必要があります。

python

import numpy as np
from scipy import stats

次に、サンプルデータセットがあり、その平均が仮説となる母平均と異なるかどうかを検定したいとします。母集団の標準偏差が既知であるとします。

python

# Sample data
sample_data = np.array([2, 3, 5, 6, 9, 11, 12, 15, 18, 20, 22, 24, 26, 27, 30])

# Known population standard deviation
population_std_dev = 5.0

# Hypothesized population mean
population_mean = 20.0

次に、サンプルの平均とサンプルサイズを計算します。

python

# Calculate sample mean and size
sample_mean = np.mean(sample_data)
sample_size = len(sample_data)

次に、Zスコアを計算します。

python

# Calculate Z-score
Z = (sample_mean - population_mean) / (population_std_dev / np.sqrt(sample_size))

臨界Zスコアは、scipy.statsライブラリを使用して見つけることができます。両側検定で有意水準0.05の場合、臨界Zスコアは通常、±1.96です。

python

# Two-tailed test for 95% confidence level
Z_critical = stats.norm.ppf(0.975)  # 0.975 = 1 - (0.05/2)

最後に、計算されたZスコアと臨界Zスコアを比較して判断を下します。

python

# Make a decision
if np.abs(Z) > Z_critical:
    print("Reject the null hypothesis.")
else:
    print("Fail to reject the null hypothesis.")

このコードは、計算されたZスコアの絶対値が臨界Zスコアよりも大きい場合に「Reject the null hypothesis.」または「Fail to reject the null hypothesis.」と出力します。

p値

カイ二乗検定

Descriptive Statistics

Differential Equation

Dimensionality Reduction

Discrete Choice Model

Google Search Console

Hugging Face

Hypothesis Testing

Inferential Statistics

Probability Distribution

Ryusei Kakujo

Weave the future of cities through data

Transportation modeling/ Urban planning/ Machine learning/ Computer science/ GIS