2022-12-01

正規分布

Statistics

Probability Distribution

Python

正規分布とは

正規分布（ガウス分布）とは、もっとも汎用的に活用される確率分布の一つであり、自然現象や社会現象などを表現するために利用されています。正規分布は次の基本的な性質があります。

平均値、中央値、最頻値が一致する
平均値をピークとし、平均値を中心に曲線は左右対称となる
標準偏差により曲線のピークや分布の幅が変化する
x軸が漸近線である
曲線とx軸に囲まれた面積は1になる

正規分布の実例としては、成人男性（女性）の身長などが挙げられます。

確率密度関数

一変量の確率変数 $X$ が平均 $\mu$ 、分散 $\sigma^2$ の正規分布に従うとき、その確率密度関数（RDF）は次の式で表されます。

f(X) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\quad(x \in \mathbb{R})

正規分布は平均 $\mu$ 、分散 $\sigma^2$ に従うとき、 $N(\mu, \sigma^2)$ に従うと表現されます。また、正規分布の確率密度関数の総和は1になります。つまり、この確率密度関数を全区間で積分すると1になります。

確率密度関数の求め方

世の中の現象の多くは、平均値をピークとして平均値から遠ざかるにつれて出現確率は小さくなっていきます。これらの現象は次の関数で表現することができます。

f(x) = e^{-x^2}

y=e(-x^2)

上記の関数をベースにより汎用的な関数に修正していきます。まずは任意の平均値を設定できるようにします。次のように $\mu$ の値によって平均値を左右に平行移動できるようにします。

f(x) = e^{-(x - \mu)^2}

次に任意に分布の幅を設定できるようにするため、次の式に変形します。

f(x) = e^{-\frac{(x - \mu)^2}{2\sigma^2}}

$\sigma$ の値によって分布の幅をコントロールできるようになりました。ここで、 $2\sigma^2$ の $\sigma^2$ は、 $\sigma$ の値によらず、常に正の値を取るようにするために二乗されています。また、係数の2は後の積分の結果をシンプルにするためにつけられています。

密度関数は全区間の積分の和が１になります。そのため式の先頭に定数 $c$ をつけて調整します。

\int^{\infty}_{\infty} ce^{-\frac{(x - \mu)^2}{2\sigma^2}}dx= 1

上式を計算すると定数 $c$ は次の値となります。

c = \frac{1}{\sqrt{2\pi}\sigma}

よって、正規分布の確率密度関数は次の式になります。

f(X) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

正規分布の確率

正規分布であれば、平均 $\mu$ と標準偏差 $\sigma$ が分かると、確率変数 $X$ の発生確率が分かります。

下図の正規分布のグラフに標準偏差（± $\sigma$ 、±1.96 $\sigma$ 、±2 $\sigma$ ）の範囲を示しています。

Python normal distribution

確率変数 $X$ の範囲とその発生確率は以下になります。

確率変数 $X$ の範囲	$X$ の発生確率
– $\sigma$ <= $X$ <= $\sigma$	全体の 68%
– 1.96 $\sigma$ <= $X$ <= 1.96 $\sigma$	全体の 95%
– 2 $\sigma$ <= $X$ <= 2 $\sigma$	全体の 95.5%
– 3 $\sigma$ <= $X$ <= 3 $\sigma$	全体の 99.7%

仮設検定でよく使われる1.96 $\sigma$ は、95%の有意水準として扱われます。

標準正規分布

確率変数 $X$ が正規分布 $N(\mu,\sigma^2)$ に従うとき、 $aX+b$ は正規分布 $N(a\mu+b,a^2\sigma^2)$ に従います。

この性質を利用して、 $Z=X−\mu\sigma$ と変換すると、 $Z$ は平均0、分散1の正規分布に従います。この変換を正規分布の標準化といい、平均0、分散1の正規分布を標準正規分布といいます。

正規分布の再生性

正規分布の再生性とは、確率変数 $X$ と $Y$ が独立に正規分布 $N(\mu_1,\sigma^2_1)$ , $N(\mu_2,\sigma^2_2)$ にそれぞれ従うとき、 $X$ + $Y$ の分布は正規分布 $N(\mu_1+\mu_2,\sigma^2_1+\sigma^2_2)$ に従うという性質のことです。

例として、互いに独立な確率変数 $X$ 、 $Y$ がそれぞれ $N(2, 2^2)$ 、 $N(5, 3^2)$ に従うとして、確率変数 $3X + 2Y$ が従う確率分布を求めます。

正規分布

正規分布とは

確率密度関数

確率密度関数の求め方

正規分布の確率

標準正規分布

正規分布の再生性

Python コード

y=e^{-x^2}を描画

正規分布を描画

多項分布

ベータ分布

Ryusei Kakujo