2023-02-03

Reduksi Dimensi

Apa itu Reduksi Dimensi

Reduksi dimensi adalah teknik fundamental dalam machine learning, data mining, dan statistik yang bertujuan untuk menyederhanakan data berdimensi tinggi sambil mempertahankan propertinya yang esensial. Proses ini membantu mengatasi berbagai tantangan yang terkait dengan data berdimensi tinggi, seperti "curse of dimensionality," kompleksitas komputasi, dan noise, sehingga memungkinkan analisis data, visualisasi, dan pemodelan yang lebih efektif.

Tujuan Reduksi Dimensi

Tujuan utama dari reduksi dimensi adalah:

Reduksi noise
Data berdimensi tinggi seringkali mengandung noise dan fitur yang tidak relevan yang dapat mempengaruhi kinerja model machine learning secara negatif. Reduksi dimensi membantu mengeliminasi fitur yang redundan dan tidak relevan, sehingga menghasilkan dataset yang lebih bersih.
Visualisasi
Visualisasi data berdimensi tinggi sangat sulit, karena sulit untuk merepresentasikan lebih dari tiga dimensi secara efektif. Teknik reduksi dimensi, seperti t-SNE dan UMAP, dapat memproyeksikan data berdimensi tinggi ke representasi 2D atau 3D, sehingga memungkinkan visualisasi dan interpretasi struktur data yang mendasar dengan lebih baik.
Efisiensi komputasi
Model machine learning sering memerlukan resource komputasi yang signifikan saat berurusan dengan data berdimensi tinggi. Teknik reduksi dimensi dapat secara signifikan mengurangi ukuran dataset, sehingga mempercepat waktu pelatihan dan mengurangi kebutuhan memori.
Peningkatan kinerja model
Dengan mengurangi dimensi data, risiko overfitting dapat dikurangi, dan kemampuan generalisasi model machine learning dapat ditingkatkan. Teknik reduksi dimensi juga dapat membantu mengungkap pola dan hubungan tersembunyi yang mungkin terhalang di dalam ruang dimensi tinggi.

Pendekatan Utama dalam Reduksi Dimensi

Ada dua pendekatan utama dalam reduksi dimensi:

Pemilihan fitur
Pendekatan ini melibatkan identifikasi dan pemilihan sekelompok fitur yang paling relevan dari dataset asli. Teknik pemilihan fitur dapat dibagi menjadi metode filter, metode wrapper, dan metode embedded, masing-masing dengan kelebihan dan kekurangan tersendiri.
- Metode filter
  Teknik ini mengevaluasi setiap fitur secara independen berdasarkan kriteria tertentu, seperti korelasi, informasi mutual, atau tes statistik, dan memilih fitur yang peringkatnya teratas. Metode filter sangat efisien secara komputasi tetapi tidak mempertimbangkan interaksi antara fitur.
- Metode wrapper
  Teknik ini menggunakan algoritma pencarian untuk mengeksplorasi berbagai kombinasi fitur dan mengevaluasi performanya menggunakan model machine learning tertentu. Metode wrapper dapat mengidentifikasi interaksi fitur tetapi memerlukan biaya komputasi yang besar karena memerlukan beberapa evaluasi model.
- Metode embedded
  Teknik ini mengintegrasikan pemilihan fitur dalam proses pembelajaran model machine learning. Metode embedded dapat menangkap interaksi fitur dan seringkali memberikan trade-off yang baik antara metode filter dan wrapper dalam hal kompleksitas komputasi.
Ekstraksi fitur
Pendekatan ini melibatkan pembuatan fitur baru dengan menggabungkan atau mengubah fitur asli dengan cara yang menangkap sifat-sifat penting dari data. Teknik ekstraksi fitur dapat dikategorikan menjadi metode linear, seperti PCA, LDA, dan SVD, dan metode non-linear, seperti t-SNE, UMAP, dan Isomap.

Teknik Reduksi Dimensi Linier

Teknik reduksi dimensi linier mengasumsikan bahwa data terletak pada atau dekat dengan subspace linier dan berusaha untuk menemukan kombinasi linier terbaik dari fitur asli untuk membuat representasi yang lebih rendah dimensi.

Principal Component Analysis (PCA)

PCA adalah teknik yang banyak digunakan untuk reduksi dimensi yang tidak terawasi. Ide utama di balik PCA adalah untuk menemukan satu set sumbu ortogonal (komponen utama) yang menangkap varians maksimum dalam data. Komponen utama pertama mewakili jumlah varians terbesar, komponen utama kedua mewakili jumlah varians selanjutnya terbesar, dan seterusnya. Dengan memproyeksikan data pada beberapa komponen utama, kita mendapatkan representasi yang lebih rendah dimensi sambil mempertahankan sebanyak mungkin informasi.

Linear Discriminant Analysis (LDA)

LDA adalah teknik reduksi dimensi yang terawasi, yang berarti membutuhkan label kelas untuk titik data. Tujuan dari LDA adalah untuk menemukan kombinasi linear fitur yang memaksimalkan pemisahan antara kelas yang berbeda sambil meminimalkan penyampaiannya di dalam kelas yang sama. Dengan kata lain, LDA berusaha untuk memproyeksikan data pada subspace yang lebih rendah dimensi sehingga titik data yang termasuk ke dalam kelas yang sama berada dekat satu sama lain dan titik data dari kelas yang berbeda berada jauh satu sama lain.

Singular Value Decomposition (SVD)

SVD adalah teknik faktorisasi matriks yang dapat digunakan untuk reduksi dimensi. Diberikan matriks data $X$ , SVD membaginya menjadi tiga matriks: $U$ , $S$ , dan $V$ , di mana $U$ dan $V$ adalah matriks ortogonal dan $S$ adalah matriks diagonal yang berisi nilai-nilai singular dalam urutan menurun. Dengan memotong matriks untuk hanya menyimpan $k$ nilai singular teratas dan vektor singular yang sesuai, kita dapat memperoleh representasi yang lebih rendah dimensi dari data.

Teknik Reduksi Dimensi Non-Linier

Teknik reduksi dimensi non-linier dirancang untuk menangani struktur data yang lebih kompleks dengan menangkap geometri intrinsik data. Teknik-teknik ini mempertahankan hubungan lokal dan global antara titik data pada representasi yang lebih rendah dimensi.

t-Distributed Stochastic Neighbor Embedding (t-SNE)

t-SNE adalah teknik yang banyak digunakan untuk visualisasi data dengan dimensi tinggi dalam dua atau tiga dimensi. Tujuannya adalah untuk mempertahankan struktur lokal dari data dengan meminimalkan divergensi antara dua distribusi probabilitas: satu mewakili kesamaan pasangan di ruang dimensi tinggi, dan yang lain mewakili kesamaan pasangan di ruang dimensi rendah. t-SNE menggunakan distribusi t untuk memodelkan kesamaan di ruang dimensi rendah, yang mencegah masalah "crowding" yang terjadi saat titik-titik terlalu dekat satu sama lain.

Uniform Manifold Approximation and Projection (UMAP)

UMAP adalah teknik reduksi dimensi yang lebih baru dan populer karena kemampuannya untuk mempertahankan struktur lokal dan global dalam data. UMAP didasarkan pada manifold learning dan menggunakan kombinasi topologi dan geometri untuk menciptakan sebuah aproksimasi manifold dimensi tinggi pada ruang dimensi rendah. UMAP efisien secara komputasi dan sering kali mengungguli teknik non-linier lainnya dalam hal waktu komputasi dan kualitas hasil embedding.

Isomap

Isomap adalah teknik reduksi dimensi non-linier yang bertujuan untuk mempertahankan jarak geodesik antara titik data di ruang dimensi rendah. Asumsi dasar dari Isomap adalah bahwa data terletak pada manifold dimensi rendah yang tertanam dalam ruang dimensi tinggi, dan jarak geodesik di sepanjang manifold mendekati jarak Euclidean di ruang dimensi rendah.

Memilih Teknik Reduksi Dimensi yang Tepat

Dengan banyaknya teknik reduksi dimensi yang tersedia, sulit untuk memilih metode yang paling sesuai untuk tugas tertentu. Dalam bab ini, saya akan memberikan panduan untuk membantu Anda membuat keputusan yang terinformasi tentang teknik mana yang harus digunakan berdasarkan sifat data Anda, hasil yang diinginkan, dan kendala komputasi.

Faktor yang Harus Dipertimbangkan

Ketika memilih teknik reduksi dimensi, pertimbangkan faktor berikut:

Jenis data
Teknik linier seperti PCA, LDA, dan SVD bekerja dengan baik untuk data yang mengikuti struktur linier. Untuk distribusi data yang lebih kompleks atau ketika manifold yang mendasari bersifat non-linier, pertimbangkan untuk menggunakan teknik non-linier seperti t-SNE, UMAP, atau Isomap.
Supervisi
LDA adalah teknik yang terawasi dan membutuhkan label kelas, sehingga cocok untuk tugas klasifikasi. Sebaliknya, PCA, SVD, t-SNE, UMAP, dan Isomap adalah teknik yang tidak terawasi dan dapat diterapkan pada berbagai tugas, termasuk pengelompokan, visualisasi, dan preprocessing untuk model machine learning lainnya.
Efisiensi komputasi
Teknik linier secara umum lebih cepat dan lebih scalable dibandingkan teknik non-linier. Jika resource komputasi terbatas atau Anda bekerja dengan dataset besar, pertimbangkan untuk menggunakan PCA, LDA, atau SVD. Untuk dataset yang lebih kecil atau ketika waktu komputasi kurang penting, teknik non-linier seperti t-SNE, UMAP, atau Isomap mungkin memberikan hasil yang lebih baik.
Memperhatikan struktur lokal dan global
Teknik seperti t-SNE sangat baik dalam mempertahankan struktur lokal, sehingga cocok untuk visualisasi cluster dan pola lokal dalam data. UMAP dan Isomap, di sisi lain, mempertahankan struktur lokal dan global, sehingga lebih sesuai untuk tugas di mana hubungan data keseluruhan penting.

Menggabungkan Teknik

Dalam beberapa kasus, mungkin bermanfaat untuk menggabungkan beberapa teknik reduksi dimensi untuk memanfaatkan kekuatan masing-masing teknik. Contohnya:

Preprocessing dengan PCA
Anda dapat menggunakan PCA untuk memproses data sebelum menerapkan teknik non-linier seperti t-SNE atau UMAP. Ini dapat mengurangi noise, meningkatkan efisiensi komputasi, dan meningkatkan kualitas representasi dimensi rendah.
Stacking teknik
Anda dapat menumpuk beberapa teknik reduksi dimensi untuk menciptakan representasi dimensi rendah yang lebih informatif. Misalnya, menerapkan PCA diikuti dengan LDA dapat membantu mengurangi dimensi sambil memaksimalkan keberbedaan kelas.

Mengevaluasi Kinerja

Mengevaluasi kinerja teknik reduksi dimensi bisa menjadi sulit, karena seringkali tidak ada kebenaran dasar untuk representasi dimensi rendah. Namun, Anda dapat mempertimbangkan metode evaluasi berikut:

Reduksi Dimensi

Apa itu Reduksi Dimensi

Tujuan Reduksi Dimensi

Pendekatan Utama dalam Reduksi Dimensi

Teknik Reduksi Dimensi Linier

Principal Component Analysis (PCA)

Linear Discriminant Analysis (LDA)

Singular Value Decomposition (SVD)

Teknik Reduksi Dimensi Non-Linier

t-Distributed Stochastic Neighbor Embedding (t-SNE)

Uniform Manifold Approximation and Projection (UMAP)

Isomap

Memilih Teknik Reduksi Dimensi yang Tepat

Faktor yang Harus Dipertimbangkan

Menggabungkan Teknik

Mengevaluasi Kinerja

Hierarchical Clustering

Principal Component Analysis (PCA)

Ryusei Kakujo