2022-07-02

機械学習における正則化

正則化とは

正則化とは、機械学習や統計モデリングにおいて、損失関数にペナルティ項を追加することでモデルの複雑さを減らす技術です。このペナルティ項により、過学習を防止し、未知のデータでもモデルがうまく汎化できるようになります。つまり、正則化は、モデルがデータ内の複雑なパターンを学習しすぎることと、学習不足のバランスをとるのに役立ちます。

機械学習における正則化の重要性

機械学習において、正則化は次のような理由から重要な役割を担っています。

過学習防止
過学習は、モデルがトレーニングデータ内のノイズを学習することで、未知のデータでは性能が低下する現象です。正則化は、複雑なモデルにペナルティを課すことで、シンプルなモデルを促し、過学習を防止するのに役立ちます。
特徴量選択
L1正則化などの一部の正則化技術は、いくつかの係数をゼロに縮小することでモデルのスパーシティを促進し、特徴量選択を実行します。これにより、モデルは解釈性と堅牢性が向上します。
安定性
L2正則化などの正則化技術は、入力データの小さな変化に対してモデルの係数が敏感になるのを防ぎ、モデルの安定性を高めることができます。
モデルの複雑さの減少
正則化により、モデルの容量が制限され、より簡単で解釈性が高く、メンテナンスが容易なモデルが作成されます。

過学習と学習不足

機械学習において、最終的な目標は、未知のデータでもうまく汎化できるモデルを構築することです。ただし、モデル構築プロセスには、過学習と学習不足という2つの一般的な課題が生じます。どちらも、新しいデータに対するモデルの性能に悪影響を与える可能性があります。

過学習
過学習は、モデルがトレーニングデータ内のノイズやランダムな変動を学習することで、根本的なパターンを捉えることができず、トレーニングデータに対しては非常に高い性能を示しますが、未知のデータに対しては性能が低下する現象です。過学習は、モデルが複雑で分散が高い場合に生じます。
学習不足
学習不足は、モデルがデータ内の根本的なパターンを捉えるのに十分な複雑さを持っていない場合に生じます。その結果、モデルはトレーニングデータと未知のデータの両方で性能が低下します。学習不足は、モデルに高いバイアスがある場合に生じます。

L1正則化（Lasso）

L1正則化は、Lasso（Least Absolute Shrinkage and Selection Operator）としても知られており、モデルの係数の絶対値を損失関数に追加する正則化技術です。L1正則化による変更された損失関数は、次のように表されます。

L1\_loss = Original\_loss + \ \sum_{i} |w_i|

ここで、 $w_i$ はモデルの係数であり、 $\lambda$ は正則化パラメータであり、ペナルティ項の強度を制御します。

L1正則化により、いくつかの係数をゼロに縮小することで、モデルのスパーシティを促進し、特徴量選択を実行できます。これにより、より解釈性が高く、よりシンプルなモデルが得られます。

メリット

特徴量選択
L1正則化は、特徴量選択を実行できるため、モデルをより解釈性が高く、堅牢性が高くなります。
モデルのシンプルさ
モデルの係数のスパーシティを促進することで、L1正則化は、よりシンプルで解釈性が高く、維持しやすいモデルを生成します。

デメリット

不安定性
特徴間に高い多重共線性が存在する場合、L1正則化は不安定な解を導く可能性があります。多重共線性が存在するグループの中から1つの特徴量しか選択しない傾向があるためです。
小規模データには不適切
L1正則化は、スパースな性質により、小規模データでは追加のバイアスを導入する可能性があるため、性能が低下することがあります。

L2正則化（Ridge）

L2正則化は、Ridgeとしても知られている別の一般的な正則化技術で、モデルの係数の2乗を損失関数に追加します。L2正則化による変更された損失関数は、次のように表されます。

L2\_loss = Original\_loss + \lambda \sum_{i} w_i^2

ここで、 $w_i$ はモデルの係数であり、 $\lambda$ は正則化パラメータであり、ペナルティ項の強度を制御します。

L2正則化は、全ての特徴を使用するようにモデルを促進しますが、小さい係数で使用するようにして、過学習を減らし、安定性を促進します。

メリット

安定性
L2正則化は、L1正則化よりも安定性が高く、特徴量間に多重共線性がある場合に効果的であるため、多重共線性がある場合にも適しています。
バイアスが小さい
L2正則化は、L1正則化に比べてモデルにバイアスを導入する可能性が低いため、小規模データに適している場合があります。

デメリット

特徴量選択ができない
L2正則化は、L1正則化とは異なり、モデルの係数のスパーシティを促進せず、したがって特徴量選択を行いません。
モデルの解釈性が低い
L2正則化はスパース性を促進しないため、L1正則化を使用した場合に得られるような解釈性の高いモデルよりも解釈性が低い可能性があります。

Elastic Net正則化

Elastic Net正則化は、L1正則化とL2正則化の両方の利点を組み合わせたハイブリッド技術です。損失関数には、モデルの係数の絶対値と2乗が含まれます。Elastic Net正則化による変更された損失関数は、次のように表されます。

ElasticNet\_loss = Original\_loss + \lambda (l1\_ratio \sum_{i} |w_i| + (1 - l1\_ratio) \sum_{i} w_i^2)

ここで、 $w_i$ はモデルの係数であり、 $\lambda$ は全体の正則化パラメータであり、 $l1_ratio$ は結合された損失関数でのL1およびL2正則化項の重みを決定する混合パラメータです。

Elastic Net正則化は、L1正則化のスパース性を促進する性質と、L2正則化の安定性を促進する性質をバランス良く組み合わせます。

メリット

L1正則化とL2正則化をバランス良く組み合わせている
Elastic Net正則化は、L1正則化のスパース性を促進する性質と、L2正則化の安定性を促進する性質をバランス良く組み合わせます。そのため、さまざまな問題に対して適した選択肢になります。
特徴量選択
Elastic Net正則化は、L1正則化と同様に特徴選択を実行できますが、多重共線性が存在する場合でもモデルの安定性を維持できます。

デメリット

計算コストが高い
Elastic Net正則化は、2つの正則化パラメータを最適化する必要があるため、L1正則化またはL2正則化よりも多くの計算リソースを必要とします。
ハイパーパラメータの調整が必要
追加のハイパーパラメータである $l1_ratio$ を調整する必要があるため、モデル選択プロセスが複雑になる可能性があります。

適切な正則化技術の選択

適切な正則化技術の選択は、データセットのサイズ、多重共線性の存在、および所望のモデルの特性など、さまざまな要因に依存します。以下は、適切な正則化方法を選択するためのガイドラインです。

機械学習における正則化

正則化とは

機械学習における正則化の重要性

過学習と学習不足

L1正則化（Lasso）

メリット

デメリット

L2正則化（Ridge）

メリット

デメリット

Elastic Net正則化

メリット

デメリット

適切な正則化技術の選択

L1正則化とL2正則化の可視化

2Dプロット

3Dプロット

参考

アンサンブル学習 - バギング、ブースティング、スタッキング

機械学習モデルファイル形式

Ryusei Kakujo