正規化と標準化とは
正規化と標準化は、異なるスケールのデータを扱う際の課題に対処するために使用される2つの人気のある特徴量スケーリング技術です。両方の技術は、入力特徴量を共通のスケールに変換することを目的としていますが、アプローチや仮定には違いがあります。
正規化技術は、通常、[0,1]または[-1,1]など、特定の範囲に入力特徴量をスケールすることによって実現されます。これは、データを最小値と最大値に基づいてスケーリングする、L1またはL2正規化を使用する、またはlog、Box-Cox、またはYeo-Johnson変換など、さまざまな変換を適用することによって実現されます。これらの技術は、既知または必要な範囲を持つデータに最適であり、非ガウス分布を扱う場合に特に有用です。
一方、標準化技術は、入力特徴量を平均が0、分散が1になるように変換します。これは、平均を引き、標準偏差で除算することによって実現され、効果的に分布をゼロ周りに配置します。Zスコア標準化、中央値と中央値絶対偏差(MAD)標準化、およびロバストスケーリングなどの標準化技術は、分布が不明な場合や、ガウス分布の仮定が妥当な場合に適しています。
正規化技術
Min-Max正規化
Min-Max正規化は、データセットの特徴量を[0,1]などの特定の範囲にスケーリングする、シンプルで広く使用されている技術です。Min-Max正規化の式は次のとおりです。
ここで、
利点
- 理解しやすく実装しやすい
- 既知または必要な範囲を持つデータに最適
- データの元の分布を維持する
欠点
- 外れ値に敏感であり、大半のデータが小さな範囲に圧縮される可能性がある
- 範囲が不明または無限のデータには適していない
L1およびL2正規化
L1およびL2正規化は、それぞれL1またはL2ノルムに基づいてデータをスケーリングする技術です。L1ノルムは特徴量ベクトルの絶対値の和であり、L2ノルムは特徴量ベクトルの値の二乗和の平方根です。L1およびL2正規化の式は次のとおりです。
- L1 Normalization:
x_{normalized} = \frac{x}{||x||1} - L2 Normalization:
x{normalized} = \frac{x}{||x||_2}
ここで、
利点
- Min-Max正規化に比べて外れ値に対して少なく敏感
- L1正規化は、特徴選択や次元削減に有用な疎な特徴ベクトルを作成することができる
- L2正規化は、入力データのスケールと回転に対して不変
欠点
- L1正規化は、ゼロ値の多いデータに適していない場合がある
- L2正規化は、データに非常に大きな値がある場合に敏感である
対数変換
対数変換は、入力データに対して対数関数を適用する正規化技術の一種です。この技術は、外れ値の影響を軽減するのに役立ち、スキューしている分布を持つデータを変換するのに役立ちます。対数変換の式は次のとおりです。
ここで、
対数変換は、一般的に使用される機械学習ライブラリまたは標準プログラミングライブラリを使用して簡単に実装できます。
利点
- 外れ値の影響を軽減する
- スケビューの分布を持つデータを対称的に変換する
- データの分散を安定化させる
- 異なるスケールのデータに適用できる
欠点
- 入力データが厳密に正である必要がある(そうでない場合は定数の追加が必要)
- 対数の底の選択に敏感である
- ゼロ値が多数含まれるデータに適していない場合がある
Box-Cox変換
Box-Cox変換は、分散を安定化し、データを正規分布に近づけるために使用できる正規化技術のファミリーです。Box-Cox変換の式は次のとおりです。
ここで、
利点
- 分散を安定化し、データを正規分布に近づけることができる
- スケビューの分布を持つデータに適している
- 最適な
の値は、よく確立された最適化技術を使用して見つけることができる\lambda
欠点
- 入力データが厳密に正である必要がある
- 変換は
の選択に敏感である\lambda
Yeo-Johnson変換
Yeo-Johnson変換は、正および負のデータの両方に適用できるBox-Cox変換の拡張版です。Yeo-Johnson変換の式は次のとおりです。
ここで、
利点
- 正および負のデータの両方に適用できる
- 分散を安定化し、データを正規分布に近づけることができる
- 最適な
の値は、よく確立された最適化技術を使用して見つけることができる\lambda
欠点
- Box-Cox変換よりも複雑である
- 変換は
の選択に敏感である\lambda
標準化技術
Zスコア標準化
Zスコア標準化、または標準スコア正規化とも呼ばれるこの技術は、入力特徴量を平均値が0で分散が1になるように変換する方法です。これは、平均値を引き、標準偏差で割ることによって行われます。Zスコア標準化の式は次のとおりです。
ここで、
利点
- 分布をゼロに中心化し、単位分散にスケーリングする
- 分布が未知である場合や、ガウス分布の仮定が合理的な場合に適している
- 勾配ベースの最適化アルゴリズムのパフォーマンスと収束を改善する
欠点
- 外れ値に敏感であり、平均値と標準偏差に影響を与える可能性がある
- データが正規分布に従うという仮定が必要
中央値と中央値絶対偏差(MAD)標準化
中央値と中央値絶対偏差(MAD)標準化は、Zスコア標準化に代わるアウトライアに強い手法です。この技術は平均値と標準偏差の代わりに、中央値と中央値絶対偏差を使用します。MAD標準化の式は次のとおりです。
ここで、
利点
- Zスコア標準化に比べて外れ値に強い
- 非ガウス分布または重尾分布を持つデータに適している
欠点
- データが中央値を中心として対称であることを仮定している
- 大規模なデータセットに対してZスコア標準化より効率的でない場合がある
ロバストスケーリング
ロバストスケーリングは、外れ値に強いようにデータのスケールを変更する標準化技術です。この技術は、四分位範囲(IQR)を使用してデータをスケーリングし、極端な値に対して感度が低くなります。ロバストスケーリングの式は次のとおりです。
ここで、
利点
- Zスコア標準化に比べて外れ値に強い
- 非ガウス分布または重尾分布を持つデータに適している
- 極端な値に対して感度が低いIQRを使用する
欠点
- 強い偏りを持つデータには適していない場合がある
- データが中央値を中心として対称であることを仮定している