はじめに
統計学において、変動性(variability)という概念は基本的なものの一つであり、観測値間のデータのばらつきを示します。統計学において変動性を示す指標として、範囲(range)と四分位数(quartiles)があります。
範囲
範囲はデータセットの最大値と最小値の差を示します。
計算方法
範囲を計算するには、最小値から最大値を引きます。
範囲 = 最大値 - 最小値
例
ある学生グループのテストスコアのデータセットがあり、得点は65, 70, 75, 80, 85であるとします。最小値は65であり、最大値は85です。したがって、このデータセットの範囲は次のようになります。
範囲 = 85 - 65 = 20
四分位数
四分位数はデータセットを4等分する値を示します。
計算方法
四分位数を計算するには、まずデータセットを最小値から最大値の順に並べ替えます。次に、データセット全体の中央値を求めます。中央値によってデータセットが2つの部分に分かれます。第一四分位数(Q1)は、下位の半分の中央値であり、第三四分位数(Q3)は、上位の半分の中央値です。第二四分位数(Q2)は、データセット全体の中央値と同じです。
例
前述のテストスコアのデータセットを使用して、四分位数を計算します。データセットは65, 70, 75, 80, 85です。まず、データセットを昇順に並べ替えます。並べ替えたデータセットは65, 70, 75, 80, 85となります。このデータセットの中央値は75であり、第二四分位数(Q2)となります。下位の半分は65, 70, 75で構成され、この下位の半分の中央値は70であり、第一四分位数(Q1)となります。上位の半分は80, 85で構成され、この上位の半分の中央値は82.5であり、第三四分位数(Q3)となります。
範囲と四分位数のPython実装
以下は、Pythonで範囲と四分位数を実装した例です。
data = [65, 70, 75, 80, 85]
range = max(data) - min(data)
print("範囲:", range)
# 四分位数
data_sorted = sorted(data)
n = len(data_sorted)
Q1 = data_sorted[n//4]
Q2 = data_sorted[n//2]
Q3 = data_sorted[(3*n)//4]
print("Q1:", Q1)
print("Q2:", Q2)
print("Q3:", Q3)
範囲: 20
Q1: 70
Q2: 75
Q3: 85
この実装では、まず最小値と最大値の差を範囲として計算します。次に、データをソートして、中央値(Q2)を求め、下位と上位の半分の中央値を求めてQ1とQ3を算出しています。