2022-03-27

Zスコア

Zスコアとは

Zスコア（標準化得点）とは、データの1つの値または観測値が、その分布の平均から何個の標準偏差離れているかを示す指標です。Zスコアは、異なるデータセットや分布間でデータを比較することを可能にする記述統計学の概念であり、データを標準化・正規化するのに役立ちます。

Zスコアを計算するための式は次のとおりです。

Z = \frac{X-\mu}{\sigma}

ここで、

$Z$ = Zスコア
$X$ = 1つのデータ値または観測値
$\mu$ = 分布の平均
$\sigma$ = 分布の標準偏差

Zスコアの重要性と応用

Zスコアは、教育、金融、スポーツ、医療などのさまざまな分野で、データを理解し解釈する上で重要な役割を果たしています。Zスコアによってデータを標準化することで、異なる集団や測定値間でデータポイントを簡単に比較することができ、外れ値の特定、パフォーマンスの評価、および分布内での観測の相対的な位置を評価することができます。

Zスコアの一般的な応用には、次のようなものがあります。

異なる学校や教育システムの学生のテストスコアの比較
株式、債券、その他の金融商品のパフォーマンスの評価
異なるスポーツや競技のアスリートのパフォーマンスの評価
製造業や医療などの様々な業界での異常なイベントや発生の検出

Zスコアの計算方法

データポイントのZスコアを計算するには、次の手順を実行します。

分布の平均（ $\mu$ ）を決定
分布の標準偏差（ $\sigma$ ）を計算
個々のデータポイントから平均を引く（ $X - \mu$ ）
ステップ3の結果を標準偏差（ $\sigma$ ）で除算

その結果得られた値が、データポイントのZスコアを表し、その値を使用して、データポイントの分布内での相対的な位置を決定し、他のデータポイントや分布と比較することができます。

Pythonを使ったZスコアの視覚化

この章では、Pythonを使ってZスコアを視覚化する方法を説明します。ランダムなデータセットを生成し、データポイントのZスコアを計算し、matplotlibとseabornを使用してデータをプロットし、データポイントの上位5％を強調表示します。

まず、numpyを使用してランダムなデータセットを作成し、データポイントのZスコアを計算する必要があります。

python

import numpy as np

# Generate a random dataset of 1000 normally distributed data points
np.random.seed(42)
data = np.random.normal(loc=50, scale=10, size=1000)

# Calculate mean and standard deviation
mean = np.mean(data)
std_dev = np.std(data)

# Calculate z-scores
z_scores = (data - mean) / std_dev

# Calculate the threshold for the top 5% (95th percentile)
threshold = np.percentile(z_scores, 95)

データポイントのZスコアを計算したら、matplotlibとseabornを使用してそれらを視覚化します。

python

import matplotlib.pyplot as plt
import seaborn as sns

# Set seaborn plot style
sns.set(style="whitegrid")

# Create a scatter plot of the data points
plt.figure(figsize=(12, 6))
plt.scatter(data, z_scores, c="blue", label="Data points")

# Highlight the top 5% of data points in red
top_5_percent = data[z_scores >= threshold]
top_5_percent_z_scores = z_scores[z_scores >= threshold]
plt.scatter(top_5_percent, top_5_percent_z_scores, c="red", label="Top 5%")

# Add labels and title
plt.xlabel("Data Points")
plt.ylabel("Z-Scores")
plt.title("Z-Scores Visualization")

# Add a horizontal line representing the threshold for the top 5%
plt.axhline(y=threshold, linestyle="--", color="black", label=f"Threshold (Top 5%): {threshold:.2f}")

# Add a legend
plt.legend()

# Show the plot
plt.show()

Z score

次のコードは、データポイントの散布図を生成し、それらの対応するZスコアをy軸に表示します。データポイントの上位5％は赤で強調表示され、上位5％のしきい値を表す水平破線がプロットに追加されます。

Zスコア

Zスコアとは

Zスコアの重要性と応用

Zスコアの計算方法

Pythonを使ったZスコアの視覚化

母分散の推定量としての不偏分散

共分散

Ryusei Kakujo