2022-08-02

Arsitektur Deep Learning

Pendahuluan

Dalam beberapa tahun terakhir, deep learning telah merevolusi bidang kecerdasan buatan, memungkinkan mesin untuk belajar pola-pola yang kompleks dan membuat prediksi berdasarkan data secara mandiri. Di antara berbagai model deep learning, CNN, RNN, LSTM, GRU, Autoencoder, GAN, dan Transformer menjadi arsitektur penting. Setiap model ini melayani tujuan yang spesifik dan dirancang secara unik untuk memproses dan memahami jenis data yang berbeda, dari gambar dan video hingga teks dan deret waktu.

Dalam artikel ini, saya akan memperkenalkan arsitektur dari model deep learning yang inovatif ini, menjelajahi cara kerja dalamnya.

Convolutional Neural Networks (CNNs)

Convolutional Neural Networks (CNNs) adalah kelas model deep learning yang dirancang secara khusus untuk memproses data seperti gambar, video, dan data sensor multidimensi. CNN terdiri dari beberapa layer, termasuk layer konvolusional, layer pooling, dan layer terhubung penuh, yang dirancang untuk mempelajari pola hierarkis dalam data.

Layer Konvolusional

Layer konvolusional adalah blok bangunan inti dari CNN. Mereka terdiri dari beberapa filter (atau kernel) yang meluncur di atas data input, menerapkan operasi konvolusi untuk mendeteksi pola lokal. Filter tersebut dipelajari selama proses pelatihan, memungkinkan jaringan untuk secara adaptif mengenali fitur yang relevan untuk tugas yang sedang dihadapi.

Layer Pooling

Layer pooling digunakan untuk mengurangi dimensi spasial dari peta fitur yang dihasilkan oleh layer konvolusional. Hal ini mengurangi kompleksitas komputasi dari jaringan dan membantu mengontrol overfitting. Metode pooling umum termasuk max pooling, yang mengambil nilai maksimum dalam sebuah wilayah lokal, dan average pooling, yang menghitung nilai rata-rata.

Layer Terhubung Penuh

Layer terhubung penuh adalah layer feedforward standar yang biasanya ditambahkan pada akhir arsitektur CNN. Mereka digunakan untuk melakukan penalaran tingkat tinggi dan memetakan fitur yang telah dipelajari ke output akhir, seperti skor klasifikasi atau prediksi regresi.

Recurrent Neural Networks (RNNs)

Recurrent Neural Networks (RNNs) adalah kelas model deep learning yang dirancang khusus untuk memproses data sekuensial, seperti deret waktu, teks, dan sinyal audio. Mereka mampu menangkap ketergantungan temporal dalam data, sehingga cocok untuk tugas yang memerlukan pembelajaran dari informasi masa lalu untuk membuat prediksi atau keputusan.

Simple RNNs

Simple RNN adalah bentuk dasar dari jaringan rekuren, di mana state tersembunyi dari jaringan diperbarui pada setiap langkah waktu menggunakan state tersembunyi sebelumnya dan input saat ini. Output kemudian dihitung berdasarkan state tersembunyi yang diperbarui. Tantangan utama dengan Simple RNN adalah masalah gradient yang menghilang, yang membatasi kemampuan mereka untuk menangkap ketergantungan jarak jauh.

Long Short-Term Memory (LSTM) Networks

Long Short-Term Memory (LSTM) networks adalah jenis RNN yang dirancang untuk mengatasi masalah gradient yang menghilang dengan memperkenalkan sel memori khusus dan mekanisme gating. Mekanisme ini memungkinkan jaringan untuk lebih baik menangkap ketergantungan jarak jauh dan secara selektif menyimpan dan memperbarui informasi yang relevan dari waktu ke waktu.

Gated Recurrent Units (GRUs)

Gated Recurrent Units (GRUs) adalah varian RNN lainnya yang juga bertujuan untuk mengatasi masalah gradient yang menghilang. Mereka mirip dengan LSTM tetapi memiliki mekanisme gating yang disederhanakan, menghasilkan parameter yang lebih sedikit dan waktu pelatihan yang lebih cepat. GRU telah ditemukan untuk memiliki kinerja yang sebanding dengan LSTM dalam banyak tugas, dengan beberapa trade-off tergantung pada masalah tertentu.

Autoencoder

Autoencoder adalah kelas model deep learning tak terawasi yang dirancang untuk mempelajari representasi data yang efisien dengan merekonstruksi data melalui layer bottleneck. Arsitekturnya terdiri dari dua komponen utama: encoder yang memetakan data input ke dalam ruang laten yang berdimensi lebih rendah, dan decoder yang merekonstruksi input dari representasi laten. Autoencoder berguna untuk tugas seperti reduksi dimensi, denoising, dan model generatif.

Generative Adversarial Networks (GANs)

Generative Adversarial Networks (GANs) adalah kelas model deep learning yang dirancang untuk tugas pembelajaran tak terawasi, dengan fokus pada menghasilkan sampel data baru yang menyerupai dataset yang diberikan. GAN terdiri dari dua jaringan neural, generator dan discriminator, yang dilatih bersama-sama dalam mode persaingan. Generator belajar untuk menghasilkan sampel data yang realistis, sementara discriminator belajar untuk membedakan antara sampel yang asli dan yang dihasilkan.

Generator

Jaringan generator dalam GAN bertanggung jawab untuk membuat sampel data baru. Biasanya terdiri dari serangkaian layer dekonvolusional atau upsampling yang mengubah vektor noise acak menjadi sampel data dengan dimensi yang sama dengan dataset input. Tujuan dari generator adalah menghasilkan sampel yang tidak dapat dibedakan dari data asli.

Discriminator

Jaringan discriminator dalam GAN bertanggung jawab untuk mengevaluasi keaslian dari sampel yang dihasilkan. Biasanya terdiri dari serangkaian layer konvolusional atau terhubung penuh yang mengeluarkan skor probabilitas yang menunjukkan apakah input tertentu asli atau dihasilkan. Tujuan dari discriminator adalah mengidentifikasi sampel-sampel asli dan menolak yang dihasilkan.

Proses Pelatihan

GAN dilatih dengan menggunakan kerangka permainan minimax dua pemain, di mana generator mencoba meminimalkan kemampuan discriminator untuk membedakan antara sampel asli dan dihasilkan, sementara discriminator mencoba memaksimalkan akurasi. Proses pelatihan yang bersifat adverarial ini menghasilkan pembelajaran generator untuk menghasilkan sampel yang semakin realistis seiring dengan kemampuan discriminator yang semakin baik dalam mengidentifikasi mereka.

Transformers

Transformers adalah kelas model deep learning yang dirancang untuk tugas urutan-ke-urutan, seperti terjemahan mesin, ringkasan teks, dan jawaban pertanyaan. Mereka sangat cocok untuk tugas pemrosesan bahasa alami karena kemampuan mereka untuk menangkap ketergantungan jarak jauh dan memodelkan hubungan yang kompleks antara kata-kata dalam urutan.

Mekanisme Self-Attention

Inovasi utama dalam model transformer adalah mekanisme self-attention, yang memungkinkan model untuk menimbang pentingnya setiap kata dalam urutan relatif terhadap setiap kata lain ketika membuat prediksi. Hal ini memungkinkan model untuk menangkap konteks lokal dan global, yang menghasilkan kinerja yang lebih baik dalam berbagai tugas.

Encoder dan Decoder

Transformer umumnya terdiri dari encoder dan decoder, masing-masing terdiri dari beberapa lapisan yang disusun. Encoder memproses urutan input, menghasilkan representasi yang kontinu yang menangkap hubungan antara kata-kata. Decoder kemudian menggunakan representasi ini untuk menghasilkan urutan output, memperhitungkan urutan input dan kata-kata yang telah dihasilkan sebelumnya.

Pra-pelatihan dan Fine-Tuning

Transformer telah berhasil digunakan dalam pengaturan transfer learning, di mana model besar dipra-pelajari pada dataset massif dan kemudian disesuaikan untuk tugas tertentu dengan dataset yang lebih kecil dan khusus tugas. Pendekatan ini, yang dikenal sebagai pra-pelatihan dan fine-tuning, menghasilkan hasil terbaik dalam berbagai tugas pemrosesan bahasa alami, dengan model seperti BERT, GPT, dan RoBERTa sebagai contoh utama.