2022-03-25

分散と標準偏差

はじめに

統計学において、平均偏差、分散、標準偏差の概念は、データセット内のデータの分布を記述するための重要な指標です。これらは、データ点が平均値からどの程度ずれているかを示すため、データのばらつきや変動性について洞察を提供します。この記事では、これらの指標の定義、例、式、およびPythonを使ってそれらを計算する方法について説明します。

平均偏差

平均偏差は、各データ点とデータセットの平均値の絶対差の平均値です。平均偏差は次の式で表されます。

MD = \frac{1}{n} \sum_{i=1}^n |x_i - \bar{x}|

ここで、 $n$ はデータ点の数、 $x_i$ は各データ点を表し、 $\bar{x}$ はデータセットの平均値です。

例

データセット：{4, 6, 8, 10}を考えます。

平均値 $\bar{x} = \frac{4+6+8+10}{4} = 7$

平均偏差 $MD = \frac{|4-7| + |6-7| + |8-7| + |10-7|}{4} = \frac{3+1+1+3}{4} = 2$

分散 (Variance)

分散は、各データ点とデータセットの平均値の差の2乗の平均値です。分散は次の式で表されます。

\sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2

ここで、 $n$ はデータ点の数、 $x_i$ は各データ点を表し、 $\bar{x}$ はデータセットの平均値です。

例

先程のデータセット：{4, 6, 8, 10}を使用します。

分散 $\sigma^2 = \frac{(4-7)^2 + (6-7)^2 + (8-7)^2 + (10-7)^2}{4} = \frac{9+1+1+9}{4} = 5$

標準偏差 (Standard Deviation)

標準偏差は、分散の平方根であり、データセット内のデータ点の分布またはばらつきの指標です。標準偏差は次の式で表されます。

\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}

例

先程のデータセット：{4, 6, 8, 10}を使用します。

標準偏差 $\sigma = \sqrt{5} \approx 2.24$

分散と標準偏差の関係

分散と標準偏差は、データセットの分布やばらつきを表すために使用される、密接に関連する統計的な指標です。どちらも、各データ点がデータセットの平均値からどの程度ずれているかを示します。分散は、データ点と平均値の差の2乗の平均値であり、標準偏差は分散の平方根です。

分散と標準偏差の関係は、次の式で表されます。

\sigma = \sqrt{\sigma^2}

ここで、 $\sigma$ は標準偏差を表し、 $\sigma^2$ は分散を表します。

この関係は、標準偏差は常に非負の値であることを示しています。これは、標準偏差が非負の値である分散の平方根であるためです。また、分散と標準偏差は、それぞれ二乗したり平方根を取ったりすることで、データ点と同じ単位を持ちます。つまり、標準偏差は、元のデータと同じ単位を持ち、データセットの文脈でより簡単に解釈できることを意味します。

分散と標準偏差

はじめに

平均偏差

例

分散 (Variance)

例

標準偏差 (Standard Deviation)

例

分散と標準偏差の関係

Pythonを使った分散と標準偏差の計算

範囲と四分位数

母分散の推定量としての不偏分散

Ryusei Kakujo