2023-02-03

次元削減

次元削減とは

次元削減は、機械学習、データマイニング、統計学において基本的な技術であり、高次元データを簡素化しながら、その本質的な特性を保持することを目的としています。このプロセスにより、高次元データに関連するさまざまな課題（「次元の呪い」、計算上の複雑さ、ノイズなど）を克服し、より効果的なデータ分析、可視化、モデリングが可能になります。

次元削減の目的

次元削減の主な目的は次のとおりです。

ノイズの削減
高次元データにはしばしばノイズや関係のない特徴が含まれており、機械学習モデルのパフォーマンスに悪影響を及ぼすことがあります。次元削減により、冗長な特徴や関係のない特徴を除去し、よりクリーンなデータセットを作成することができます。
可視化
高次元データを視覚化することは困難であり、3つ以上の次元を効果的に表現することができません。t-SNEやUMAPなどの次元削減技術は、高次元データを2Dまたは3D表現に投影することができ、基礎となるデータ構造をより良く可視化・解釈することができます。
計算効率
機械学習モデルは、高次元データを扱う場合には多大な計算リソースを必要とすることがあります。次元削減技術を使用することで、データセットのサイズを大幅に減らし、トレーニング時間を短縮し、メモリ要件を低減することができます。
モデルのパフォーマンス向上
データの次元数を削減することで、過学習のリスクが低減され、機械学習モデルの汎化能力が向上することがあります。次元削減技術はまた、高次元空間で見えにくくなってしまったパターンや関係性を明らかにすることができます。

次元削減の主要なアプローチ

次元削減には、次の2つの主要なアプローチがあります。

特徴量選択
このアプローチでは、元のデータセットからもっとも関連性の高い特徴量のサブセットを特定して保持します。特徴量選択技術は、フィルタ法、ラッパー法、埋め込み法に分類することができます。それぞれ、それぞれの利点と欠点があります。
- フィルタ法
  これらの技術は、相関、相互情報量、統計的テストなどの特定の基準に基づいて各特徴量を独立に評価し、上位ランクの特徴量を選択します。フィルタ法は計算効率が高く、特徴量間の相互作用を考慮しません。
- ラッパー法
  これらの技術は、機械学習モデルを用いて異なる特徴量の組み合わせを評価し、特定の性能基準を用いて評価します。ラッパー法は、特徴量間の相互作用を特定できますが、複数のモデル評価が必要なため、計算コストが高いです。
- 埋め込み法
  これらの技術は、機械学習モデルの学習プロセス内で特徴量選択を統合します。埋め込み法は、特徴量間の相互作用を捕捉し、計算上の複雑さの観点からフィルタ法とラッパー法の間で良いトレードオフを提供することがあります。
特徴量抽出
このアプローチでは、元の特徴量を組み合わせたり、変換したりして、データのもっとも重要な特性を捕捉する新しい特徴量を作成します。特徴量抽出技術は、PCA、LDA、SVDなどの線形方法と、t-SNE、UMAP、Isomapなどの非線形方法に分類されます。

線形次元削減

線形次元削減は、データが線形部分空間上にある、または近接していると仮定し、より低次元表現を作成するために、元の特徴量の最適な線形組み合わせを見つけようとします。

主成分分析（PCA）

PCAは、非教示的次元削減のための広く使用されている技術です。PCAの主なアイデアは、データの最大分散を捕捉する直交軸（主成分）のセットを見つけることです。第1主成分は最大の分散を説明し、第2主成分は次に大きな分散を説明し、以降同様です。データを主成分に削減することで、できるだけ多くの情報を保持しながら、より低次元表現を得ることができます。

線形判別分析（LDA）

LDAは、データポイントのクラスラベルが必要である教示的次元削減技術です。LDAの目的は、異なるクラス間の分離を最大化し、クラス内分散を最小化する特徴量の線形組み合わせを見つけることです。つまり、LDAは、同じクラスに属するデータポイントを近くに、異なるクラスのデータポイントを遠くに投影するように、データを低次元部分空間に射影することを目指しています。

特異値分解（SVD）

SVDは、次元削減に使用できる行列分解技術です。データ行列 $X$ が与えられた場合、SVDは、 $U$ 、 $S$ 、 $V$ の3つの行列に分解します。ここで、 $U$ と $V$ は直交行列であり、 $S$ は降順に特異値を含む対角行列です。上位 $k$ 個の特異値とそれらに対応する特異ベクトルだけを保持するように行列を切り捨てることで、データの低次元表現を得ることができます。

非線形次元削減

非線形次元削減は、複雑なデータ構造を扱うために設計されており、低次元表現でデータポイント間の局所的および全体的な関係を保持します。

t分布型確率的近傍埋め込み法（t-SNE）

t-SNEは、高次元データを2次元または3次元データのペアごとの類似度を表す確率分布と、低次元空間のペアごとの類似度を表す確率分布との間の発散を最小化することで、データの局所構造を保存することを目的としています。t-SNEは、低次元空間の類似度をモデル化するためにt分布を使用し、ポイントがあまりにも近くなりすぎる「密集問題」を防止することができます。

Uniform Manifold Approximation and Projection（UMAP）

UMAPは、ローカルおよびグローバルな構造をデータに保持することができるため、より最近注目されている次元削減技術です。UMAPは多様体学習に基づき、トポロジーと幾何学の両方を使用して、高次元多様体の近似を低次元空間に作成します。UMAPは計算効率が高く、ランタイムと結果の埋め込みの両方の質において、他の非線形技術をしのぐことがよくあります。

Isomap

Isomapは、低次元空間でのデータポイント間の測地距離を保存しようとする非線形次元削減技術です。Isomapの基本的な仮定は、データが高次元空間に埋め込まれた低次元多様体上に存在するということであり、多様体の上の測地距離は低次元空間のユークリッド距離を近似するとされています。

適切な次元削減技術を選択

多数の次元削減技術があるため、特定のタスクに最適な方法を選択することは困難です。この章では、データの性質、望ましい結果、計算制約に基づいて、どの技術を使用するかについての指針を提供します。

考慮すべき要因

次元削減技術を選択する際には、次の要因を考慮してください。

データの種類
PCA、LDA、およびSVDのような線形技術は、おおよそ線形構造に従うデータに適しています。より複雑なデータ分布や、基礎となる多様体が非線形である場合には、t-SNE、UMAP、またはIsomapなどの非線形技術を使用することを検討してください。
教師有無
LDAはクラスラベルが必要な教師あり技術であり、分類タスクに適しています。一方、PCA、SVD、t-SNE、UMAP、Isomapは教師なし技術であり、クラスタリング、可視化、および他の機械学習モデルの前処理など、より広範なタスクに適用することができます。
計算効率
線形技術は一般的に非線形技術よりも高速でスケーラブルです。計算リソースが限られている場合や、大規模なデータセットを扱っている場合は、PCA、LDA、またはSVDを使用してください。データセットが小さい場合やランタイムがあまり関心がない場合には、t-SNE、UMAP、またはIsomapなどの非線形技術がより良い結果を提供する場合があります。
ローカルおよびグローバル構造の保持
t-SNEのような手法はローカル構造を保持するのに優れており、データ内のクラスタやローカルなパターンを視覚化するのに適しています。一方、UMAPとIsomapは両方のローカルおよびグローバル構造を保持するため、全体的なデータ関係が重要なタスクに適しています。

技術の組み合わせ

場合によっては、複数の次元削減技術を組み合わせて、それぞれの長所を活用することが有益である場合があります。

PCAによる前処理
ノイズを減らし、計算効率を向上させ、低次元空間の埋め込みの品質を向上させるために、PCAを使用して、t-SNEやUMAPなどの非線形技術を適用することができます。
技術の積み重ね
PCAに続いてLDAを適用することで、次元を削減し、クラスの分離性を最大化することができます。

パフォーマンスの評価

次元削減技術のパフォーマンス評価することは課題となる場合があります。低次元の表現に対する正解がない場合が多いためです。ただし、次の評価方法を考慮することができます。

次元削減

次元削減とは

次元削減の目的

次元削減の主要なアプローチ

線形次元削減

主成分分析（PCA）

線形判別分析（LDA）

特異値分解（SVD）

非線形次元削減

t分布型確率的近傍埋め込み法（t-SNE）

Uniform Manifold Approximation and Projection（UMAP）

Isomap

適切な次元削減技術を選択

考慮すべき要因

技術の組み合わせ

パフォーマンスの評価

階層的クラスタリング

主成分分析（PCA）

Ryusei Kakujo