Pendahuluan
Decision Tree menggunakan berbagai algoritma untuk menentukan pembagian optimal sebuah node menjadi dua atau lebih sub-node. Pembentukan sub-node ini meningkatkan homogenitas mereka. Secara mendasar, ini berarti bahwa kemurnian node dalam hubungannya dengan variabel target meningkat. Decision Tree memeriksa semua variabel yang mungkin untuk dipisahkan dan memilih yang menghasilkan sub-node paling homogen.
Dalam artikel ini, saya akan memperkenalkan lima algoritma Decision Tree kunci: ID3, C4.5, CART, CHAID, dan MARS.
Algoritma ID3
Algoritma Iterative Dichotomiser 3 (ID3) adalah salah satu algoritma Decision Tree paling awal dan terkenal. Ini digunakan terutama untuk tugas klasifikasi dengan fitur kategorikal. Algoritma ID3 beroperasi dengan memilih atribut terbaik untuk membagi dataset berdasarkan kriteria Information Gain, yang mengukur pengurangan entropi yang dicapai dengan membagi data. Algoritma ini rekursif, terus membagi dataset hingga semua instansi termasuk dalam satu kelas atau kriteria berhenti terpenuhi. Information Gain (IG) dihitung sebagai berikut:
di mana
Algoritma C4.5
C4.5 adalah perluasan dari algoritma ID3. Ini mengatasi beberapa keterbatasan ID3, seperti ketidakmampuannya untuk menangani atribut kontinu dan data yang hilang. Algoritma C4.5 menggunakan kriteria Gain Ratio, modifikasi dari Information Gain, untuk memilih atribut terbaik untuk pemisahan. Gain Ratio (GR) didefinisikan sebagai:
di mana
Algoritma CART
Classification and Regression Trees (CART) adalah algoritma Decision Tree lain yang populer yang dapat menangani tugas klasifikasi dan regresi. Berbeda dengan ID3 dan C4.5, CART menghasilkan pohon biner, dengan setiap node internal memiliki tepat dua node anak. Algoritma CART menggunakan kriteria Gini Impurity untuk tugas klasifikasi dan Mean Squared Error (MSE) untuk tugas regresi untuk memilih atribut terbaik untuk pemisahan. Gini Impurity (GI) dihitung sebagai berikut:
Untuk tugas regresi, MSE didefinisikan sebagai:
di mana
Algoritma CHAID
Algoritma Chi-squared Automatic Interaction Detector (CHAID) adalah algoritma Decision Tree yang mengandalkan uji chi-squared untuk independensi untuk menentukan atribut terbaik untuk pemisahan. CHAID sangat berguna untuk mengeksplorasi interaksi antara variabel kategorikal dan dapat membuat pohon multiway, dengan setiap node internal memiliki lebih dari dua node anak. Algoritma ini juga mampu menangani data yang hilang melalui pemisahan pengganti, yang merupakan aturan pemisahan alternatif berdasarkan atribut yang tersisa.
Statistik Chi-squared dihitung sebagai:
di mana
Algoritma MARS
Multivariate Adaptive Regression Splines (MARS) adalah algoritma berbasis Decision Tree yang dikembangkan oleh Jerome H. Friedman. MARS terutama digunakan untuk tugas regresi dan dirancang untuk menangani data dengan dimensi tinggi dan bising. Algoritma ini membangun model dengan memasangkan fungsi regresi linier bertingkat yang disebut fungsi dasar ke data. MARS menggabungkan teknik seperti seleksi maju, eliminasi mundur, dan seleksi knot untuk membuat model yang mudah diinterpretasikan, fleksibel, dan akurat. Meskipun MARS bukan algoritma Decision Tree tradisional, tetapi memiliki beberapa kesamaan dalam struktur dan pendekatannya dalam memodelkan hubungan yang kompleks.
Model MARS dapat direpresentasikan sebagai:
di mana
di mana
di mana