Traffine I/O

日本語

2022-03-25

分散と標準偏差

はじめに

統計学において、平均偏差、分散、標準偏差の概念は、データセット内のデータの分布を記述するための重要な指標です。これらは、データ点が平均値からどの程度ずれているかを示すため、データのばらつきや変動性について洞察を提供します。この記事では、これらの指標の定義、例、式、およびPythonを使ってそれらを計算する方法について説明します。

平均偏差

平均偏差は、各データ点とデータセットの平均値の絶対差の平均値です。平均偏差は以下の式で表されます。

MD = \frac{1}{n} \sum_{i=1}^n |x_i - \bar{x}|

ここで、nはデータ点の数、x_iは各データ点を表し、\bar{x}はデータセットの平均値です。

データセット:{4, 6, 8, 10}を考えます。

平均値\bar{x} = \frac{4+6+8+10}{4} = 7

平均偏差MD = \frac{|4-7| + |6-7| + |8-7| + |10-7|}{4} = \frac{3+1+1+3}{4} = 2

分散 (Variance)

分散は、各データ点とデータセットの平均値の差の2乗の平均値です。分散は以下の式で表されます。

\sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2

ここで、nはデータ点の数、x_iは各データ点を表し、\bar{x}はデータセットの平均値です。

先程のデータセット:{4, 6, 8, 10}を使用します。

分散\sigma^2 = \frac{(4-7)^2 + (6-7)^2 + (8-7)^2 + (10-7)^2}{4} = \frac{9+1+1+9}{4} = 5

標準偏差 (Standard Deviation)

標準偏差は、分散の平方根であり、データセット内のデータ点の分布またはばらつきの指標です。標準偏差は以下の式で表されます。

\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}

先程のデータセット:{4, 6, 8, 10}を使用します。

標準偏差\sigma = \sqrt{5} \approx 2.24

分散と標準偏差の関係

分散と標準偏差は、データセットの分布やばらつきを表すために使用される、密接に関連する統計的な指標です。どちらも、各データ点がデータセットの平均値からどの程度ずれているかを示します。分散は、データ点と平均値の差の2乗の平均値であり、標準偏差は分散の平方根です。

分散と標準偏差の関係は、以下の式で表されます。

\sigma = \sqrt{\sigma^2}

ここで、\sigmaは標準偏差を表し、\sigma^2は分散を表します。

この関係は、標準偏差は常に非負の値であることを示しています。これは、標準偏差が非負の値である分散の平方根であるためです。また、分散と標準偏差は、それぞれ二乗したり平方根を取ったりすることで、データ点と同じ単位を持ちます。つまり、標準偏差は、元のデータと同じ単位を持ち、データセットの文脈でより簡単に解釈できることを意味します。

Pythonを使った分散と標準偏差の計算

Pythonを使って分散と標準偏差を計算するには、以下のコードを使用できます。

python
import numpy as np

data = np.array([4, 6, 8, 10])

# Calculate variance
variance = np.var(data)

# Calculate standard deviation
std_dev = np.std(data)

print("Variance:", variance)
print("Standard Deviation:", std_dev)

このコードを実行すると、以下のように出力されます。

Variance: 5.0
Standard Deviation: 2.23606797749979

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!