はじめに
統計学において、平均偏差、分散、標準偏差の概念は、データセット内のデータの分布を記述するための重要な指標です。これらは、データ点が平均値からどの程度ずれているかを示すため、データのばらつきや変動性について洞察を提供します。この記事では、これらの指標の定義、例、式、およびPythonを使ってそれらを計算する方法について説明します。
平均偏差
平均偏差は、各データ点とデータセットの平均値の絶対差の平均値です。平均偏差は次の式で表されます。
ここで、
例
データセット:{4, 6, 8, 10}を考えます。
平均値
平均偏差
分散 (Variance)
分散は、各データ点とデータセットの平均値の差の2乗の平均値です。分散は次の式で表されます。
ここで、
例
先程のデータセット:{4, 6, 8, 10}を使用します。
分散
標準偏差 (Standard Deviation)
標準偏差は、分散の平方根であり、データセット内のデータ点の分布またはばらつきの指標です。標準偏差は次の式で表されます。
例
先程のデータセット:{4, 6, 8, 10}を使用します。
標準偏差
分散と標準偏差の関係
分散と標準偏差は、データセットの分布やばらつきを表すために使用される、密接に関連する統計的な指標です。どちらも、各データ点がデータセットの平均値からどの程度ずれているかを示します。分散は、データ点と平均値の差の2乗の平均値であり、標準偏差は分散の平方根です。
分散と標準偏差の関係は、次の式で表されます。
ここで、
この関係は、標準偏差は常に非負の値であることを示しています。これは、標準偏差が非負の値である分散の平方根であるためです。また、分散と標準偏差は、それぞれ二乗したり平方根を取ったりすることで、データ点と同じ単位を持ちます。つまり、標準偏差は、元のデータと同じ単位を持ち、データセットの文脈でより簡単に解釈できることを意味します。
Pythonを使った分散と標準偏差の計算
Pythonを使って分散と標準偏差を計算するには、次のコードを使用できます。
import numpy as np
data = np.array([4, 6, 8, 10])
# Calculate variance
variance = np.var(data)
# Calculate standard deviation
std_dev = np.std(data)
print("Variance:", variance)
print("Standard Deviation:", std_dev)
このコードを実行すると、次のように出力されます。
Variance: 5.0
Standard Deviation: 2.23606797749979