2022-03-22

統計学

統計学とは

統計学とは、データの収集、分析、解釈、表示、整理に関する研究領域であり、データから学ぶ科学です。現代の世界では、データの利用可能性が急速に増加しており、統計学の重要性は急速に高まっています。統計学は、個人や組織がデータに基づいた意思決定を行い、意義深い洞察を得て、証拠に基づく政策を策定することを可能にします。

統計学の種類

統計学には、記述統計学と推測統計学の2つの主要な分野があります。記述統計学は、数値的およびグラフィカルな尺度を提供してデータの主要な特徴を要約し、整理することを目的とします。対照的に、推測統計学は、データのサンプルに基づいて、母集団について一般的な結論や予測を導くことを目的とします。推測統計学は、確率論やその他の数学的ツールを用いて結論を導き、それらの結論に伴う不確実性を評価します。

記述統計学

記述統計学とは、データセットの主要な特徴を要約、整理、説明することに重点を置いた統計学の分野です。大量のデータをより簡単に理解できるように簡素化する方法を提供します。記述統計学では、中心傾向、ばらつき、形状の尺度を計算し、データのグラフィカルな表現を作成します。

中心傾向の尺度

中心傾向の尺度は、データセットの中央位置または平均値の概要を提供します。もっとも一般的な3つの尺度は平均値、中央値、および最頻値です。

平均値 (Mean)
平均値または算術平均は、データの全ての値の合計を値の数で割ったものです。データセットの典型的な値を表し、極端な値や外れ値に強く影響を受けます。
中央値 (Median)
中央値は、データ値が昇順または降順に並べられたときのデータセットの中央の値です。値の数が偶数の場合、中央値は2つの中央値の平均値になります。平均値に比べて外れ値に強く反応しません。
最頻値 (Mode)
最頻値は、データセットでもっとも頻繁に現れる値です。データセットには、最頻値がない場合、1つの最頻値（単峰性）または複数の最頻値（多峰性）がある場合があります。最頻値は、カテゴリカルデータを分析したり、データセットでもっとも一般的な値を特定するために有用です。

ばらつきの尺度

ばらつきの尺度は、データセットの散らばりまたは変動を表します。これらは、データ値が中心傾向からどの程度離れているかを理解するのに役立ちます。ばらつきの主要な尺度には、範囲、分散、および標準偏差が含まれます。

範囲
範囲は、データセットの最大値と最小値の差です。ばらつきの単純な尺度ですが、外れ値に大きく影響される可能性があります。
分散 (Variance)
分散は、各データ値と平均値の差の二乗の平均値です。データ値が平均値の周りにどの程度分布しているかを定量化し、異なるデータセットの変動性を比較するのに役立ちます。
標準偏差 (Standard Deviation)
標準偏差は、分散の平方根です。各データ値と平均値の差の平均的な距離を示します。分散と同様に、異なるデータセットの変動性を比較するのに役立ちますが、元のデータと同じ単位で表示されるため、より直感的な解釈が可能です。

形状の尺度

形状の尺度は、データセットの分布を表します。もっとも一般的な形状の尺度には、歪度と尖度があります。

歪度 (Skewness)
歪度は、データセットの分布の非対称性を測定します。右側に長い尾を持つ分布は、正の歪度を持ちます。一方、左側に長い尾を持つ分布は、負の歪度を持ちます。対称的な分布は歪度が0です。
尖度 (Kurtosis)
尖度は、データセットの分布の「尾の太さ」を測定します。尖度が高い場合、分布には極端な値や外れ値が多く含まれています。尖度が低い場合、分布にはそれらの値が少なく含まれています。正規分布の場合、尖度は0です。

グラフィカルな表現

データのグラフィカルな表現は、データセットの構造を探索し、理解するのに役立つ視覚的なツールです。記述統計学で使用される一般的なグラフの種類には、ヒストグラム、箱ひげ図、散布図があります。

ヒストグラム
ヒストグラムは、データセットの度数分布を表すグラフィカルな表現です。データを間隔、つまりビンに分割し、各ビンの出現頻度を垂直棒で表します。ヒストグラムは、データセットの形状、中心傾向、ばらつきを分析するのに役立ちます。
箱ひげ図
箱ひげ図は、最小値、第1四分位数（Q1）、中央値、第3四分位数（Q3）、最大値の5つの値でデータセットの要約統計量を表示するグラフです。箱は第1四分位数と第3四分位数の範囲であり、中央の線は中央値を表します。ひげは、範囲内の最小値と最大値を表し、外れ値を示すことができます。箱ひげ図は、外れ値の特定、分布の比較、中心傾向とばらつきの視覚化に役立ちます。
散布図
散布図は、2つの連続変数の間の関係を表すグラフです。各データポイントは、カートジアン座標系上の点としてプロットされます。x軸は1つの変数を表し、y軸はもう1つの変数を表します。散布図は、変数間の相関関係、傾向、外れ値の検出に役立ちます。

推測統計学

推測統計学は、サンプルデータに基づいて人口に関する一般的な情報や予測を行うことに焦点を当てた統計学の一分野です。確率理論やその他の数学的なツールを用いて、人口パラメータの推定、仮説検定、およびこれらの結論に関連する不確実性の量化を行います。推測統計学は、より小さなサンプルから得られた情報を元により大きなグループに関する推測を行うことができます。

確率と標本分布

確率は推測統計学において基本的な概念の1つであり、あるイベントや結果が起こる確率を量化します。確率を理解することにより、データに基づく情報をもとに、合理的な意思決定や予測を行うことができます。

標本分布は、同じサイズの複数のランダムサンプルから得られた標本統計量（例えば、標本平均や標本比率）の確率分布を表します。推測統計学の基盤である中心極限定理により、サンプルサイズが増加するにつれて、標本平均の標本分布が正規分布に近づくことが示されています。

仮説検定

仮説検定は、サンプルデータに基づいて、母集団に関する統計的な仮説を検証する方法です。仮説は、検証される主張や予測です。仮説検定は、帰無仮説と対立仮説を設定し、テスト統計量を計算し、帰無仮説の下でテスト統計量を観察する確率（p値）を決定することで、帰無仮説を棄却するかどうかを決定します。

信頼区間

信頼区間は、真の人口パラメータが確率的に含まれる範囲を表す推定です。指定された信頼水準（例えば、95％）で信頼区間を計算することができます。信頼区間は、サンプル統計量のばらつきに基づいて計算され、真のパラメータの推定に伴う不確実性を考慮します。

パラメトリックおよびノンパラメトリックなテスト

パラメトリックなテストは、データが特定の確率分布（例えば、正規分布）に従うと仮定する統計的テストです。これらのテストは、データが特定の形をしている場合に、より高い統計的パワーを持ちますが、データが特定の形をしていることを前提とするため、適用する前にデータの分布を確認する必要があります。ノンパラメトリックなテストは、データの分布について特定の仮定をしない統計的テストです。これらのテストは、データが正確な形をしていない場合により強力ですが、より大きなサンプルサイズが必要になる場合があります。

回帰分析

回帰分析は、1つまたは複数の独立変数と1つの従属変数の間の関係をモデル化するために使用される技術です。独立変数は、従属変数に影響を与える要因を表します。回帰分析は、独立変数が従属変数にどのように影響するかを理解し、予測、推定、仮説検定に使用できます。