2022-08-04

Gambaran Umum LightGBM

Apa itu LightGBM

LightGBM, singkatan dari Light Gradient Boosting Machine, adalah perpustakaan gradient boosting cepat, terdistribusi, dan berkinerja tinggi yang dikembangkan oleh Microsoft. Ini dirancang khusus untuk menangani dataset skala besar dan ruang fitur berdimensi tinggi dengan efisien, sehingga menjadi pilihan ideal untuk berbagai tugas pembelajaran mesin, termasuk masalah regresi, klasifikasi, dan peringkat.

Fitur dan Keunggulan Unik LightGBM

LightGBM menawarkan beberapa fitur dan keunggulan utama dibandingkan dengan perpustakaan gradient boosting lainnya.

Pertumbuhan Pohon Leaf-wise

Algoritma gradient boosting tradisional menumbuhkan pohon secara level-wise, di mana semua simpul pada level yang sama dibagi sebelum simpul pada level berikutnya. Sebaliknya, LightGBM menggunakan strategi pertumbuhan leaf-wise, yang memprioritaskan pembagian simpul dengan penurunan kerugian tertinggi. Pendekatan ini memungkinkan konvergensi yang lebih cepat dan meningkatkan akurasi model, meskipun dengan risiko overfitting jika tidak dikendalikan dengan baik.

Level wise tree
Leaf wise tree

Algoritma Berbasis Histogram

LightGBM menggunakan algoritma berbasis histogram untuk mempercepat proses pelatihan. Ini memperkirakan nilai fitur yang kontinu dengan membaginya menjadi bin diskrit, yang mengurangi jumlah titik pembagi untuk dievaluasi. Pendekatan ini menghasilkan pengurangan waktu pelatihan dan penggunaan memori yang signifikan dibandingkan dengan metode gradient boosting tradisional.

Histogram algorithm of LightGBM

Dukungan Fitur Kategorikal

Berbeda dengan perpustakaan gradient boosting lainnya, LightGBM menawarkan dukungan native untuk fitur kategorikal, menghilangkan kebutuhan untuk one-hot encoding atau langkah preprocessing lainnya. Dengan menggunakan titik pembagi optimal, LightGBM dapat mengatasi variabel kategorikal dengan kardinalitas tinggi dengan efisien, yang meningkatkan kinerja model dan menyederhanakan proses rekayasa fitur.

Pembelajaran Paralel yang Efisien

LightGBM mendukung paralelisme data dan fitur, memungkinkan pembelajaran paralel yang efisien pada CPU multi-core dan sistem terdistribusi. Fitur ini memungkinkan LightGBM untuk beradaptasi dengan baik dengan dataset dan ruang fitur yang besar dan berdimensi tinggi, sehingga cocok untuk berbagai aplikasi.

Gradient-based One-Side Sampling (GOSS)

Untuk lebih mempercepat proses pelatihan, LightGBM memperkenalkan Gradient-based One-Side Sampling (GOSS), teknik sampling baru. GOSS secara selektif mengambil sampel subset data pelatihan pada setiap iterasi berdasarkan besar gradien mereka. Instans dengan gradien yang lebih besar, yang memberikan kontribusi lebih banyak pada kerugian keseluruhan model, diprioritaskan, sementara subset acak instans dengan gradien yang lebih kecil juga disertakan untuk menjaga keberagaman data. Pendekatan ini mempertahankan sampel yang paling informatif sambil mengurangi biaya komputasi pelatihan, mengarah pada konvergensi yang lebih cepat dan peningkatan kinerja model.

GOSS
An Example of Hyperparameter Optimization on XGBoost, LightGBM and CatBoost using Hyperopt

Exclusive Feature Bundling (EFB)

Fitur unik lain dari LightGBM adalah Exclusive Feature Bundling (EFB), yang bertujuan untuk mengurangi dimensionalitas dataset yang sparse. EFB mengidentifikasi set fitur saling eksklusif, yang berarti mereka tidak pernah mengambil nilai yang tidak sama secara bersamaan, dan menggabungkannya menjadi satu fitur. Proses penggabungan ini secara efektif mengompresi ruang fitur tanpa kehilangan informasi, memungkinkan konstruksi pohon yang lebih efisien dan penggunaan memori yang lebih rendah. EFB sangat berguna ketika berurusan dengan dataset sparse berdimensi tinggi yang biasa ditemukan dalam tugas prediksi teks dan klik.

EFB
Comparing lightgbm to other R GBDT libraries

Perbandingan dengan XGBoost

Baik XGBoost maupun LightGBM dirancang untuk memberikan kinerja dan skalabilitas yang tinggi untuk dataset skala besar. Namun, LightGBM sering kali lebih unggul dari XGBoost dalam hal kecepatan pelatihan dan penggunaan memori, berkat algoritma berbasis histogram, pertumbuhan pohon leaf-wise, GOSS, dan EFB. Fitur-fitur ini memungkinkan LightGBM untuk mengatasi dataset yang lebih besar dan ruang fitur yang berdimensi lebih tinggi dengan lebih efisien daripada XGBoost.

Namun, penting untuk dicatat bahwa kinerja dapat bervariasi tergantung pada masalah dan dataset tertentu. Dalam beberapa kasus, XGBoost mungkin memberikan akurasi yang lebih baik, sedangkan LightGBM mungkin memberikan waktu pelatihan yang lebih cepat. Disarankan untuk mencoba kedua perpustakaan pada dataset Anda untuk menentukan mana yang menawarkan kinerja terbaik untuk kasus tertentu Anda.

Kemudahan Penggunaan

Baik XGBoost maupun LightGBM menawarkan antarmuka yang mudah digunakan dan dapat dengan mudah diintegrasikan dengan perpustakaan pembelajaran mesin populer seperti scikit-learn, Keras, dan TensorFlow. Kedua perpustakaan menyediakan dokumentasi lengkap dan dukungan komunitas aktif, sehingga mudah diakses oleh pengguna dari semua tingkat pengalaman.

Fitur Unik

Meskipun kedua perpustakaan memiliki banyak fitur yang sama, mereka juga memiliki kemampuan unik yang membedakan satu sama lain. Beberapa fitur unik utama dari LightGBM termasuk: