Apa itu Large Language Model (LLM)
Large Language Model (LLM) merupakan bagian dari model bahasa yang dibuat menggunakan dataset kolosal melalui teknik deep learning. Kemampuan LLM untuk memfasilitasi percakapan yang menyerupai interaksi manusia dan kemampuannya yang tinggi dalam pemrosesan bahasa alami telah mendapatkan pengakuan di seluruh dunia.
Dalam konteks LLM, istilah "large" mengacu pada peningkatan yang signifikan dalam tiga elemen utama: kapasitas komputasi, volume data, dan jumlah parameter, dibandingkan dengan model bahasa tradisional. "Resource komputasi" mengacu pada kekuatan pemrosesan komputer. "Volume data" menunjukkan jumlah data teks yang dimasukkan ke dalam komputer. "Parameter model" mengacu pada kompleksitas parameter-parameter khusus dalam teknologi deep learning, yang membentuk serangkaian koefisien untuk perhitungan probabilitas. LLM telah mengalami perkembangan pesat dengan memperluas ketiga aspek ini, seperti yang dijelaskan dalam makalah OpenAI tahun 2020. Makalah ini menyiratkan adanya korelasi antara kinerja model bahasa dan tiga faktor tersebut. Dengan memanfaatkan wawasan ini, OpenAI berhasil mengembangkan LLM yang sangat akurat dengan secara signifikan meningkatkan ketiga elemen tersebut. ChatGPT, yang diperkenalkan pada November 2022, adalah contoh terkenal dari LLM yang meningkatkan kualitas tanggapan bahasa alami dengan balasan yang superior.
Jenis-jenis LLM
Hingga tahun 2023, berbagai jenis LLM telah diumumkan.
Nama Model | Ringkasan | Perusahaan | Jumlah Parameter | Tanggal Rilis |
---|---|---|---|---|
GPT-3 | Model yang disesuaikan untuk pembuatan dokumen berdasarkan Generative Transformer. | OpenAI | 175 miliar | Mei 2020 |
GPT-4 | Model yang mempelajari data multimodal (seperti gambar dan audio) selain teks dalam GPT-3. | OpenAI | Lebih dari 200 miliar | Maret 2023 |
LaMDA | Model berbasis Transformer yang disesuaikan untuk percakapan. | Tidak diungkapkan | Mei 2021 | |
PaLM | Meningkatkan kinerja dengan secara signifikan meningkatkan jumlah parameter berdasarkan Transformer. | 540 miliar | April 2022 | |
LLaMA | Menunjukkan kinerja yang setara dengan GPT-3 dengan jumlah parameter yang jauh lebih sedikit dari GPT-3. Ringan dan dapat digunakan di satu GPU. | Meta | 70 hingga 650 miliar | Februari 2023 |
Alpaca 7B | Disesuaikan dengan hasil Instruction-follow (generasi data pembelajaran sendiri) berdasarkan LLaMA. | Stanford University | 70 miliar | Maret 2023 |
Apa yang dapat dilakukan oleh LLMs
LLM dilatih menggunakan data teks dan sangat baik dalam tugas pemrosesan teks berikut ini.
Tugas | Deskripsi |
---|---|
Penerjemahan | Mesin Menghasilkan terjemahan alami dari satu bahasa ke bahasa lain. |
Ringkasan | Mengkondensasikan teks yang panjang. |
Pertanyaan dan Jawaban | Menjawab pertanyaan tentang teks dalam bahasa alami. |
Generasi Teks | Menghasilkan teks panjang sesuai dengan tema yang ditentukan. |
Analisis Sentimen | Menganalisis nada dan emosi dalam sebuah teks. |
Tugas Generasi Bahasa | Menghasilkan berbagai jenis teks seperti deskripsi, artikel berita, novel, puisi, iklan. |
Ekstraksi Kata Kunci | Menyaring kata-kata penting dari sebuah teks. |
Penyisipan Kata | Mengubah kata-kata menjadi vektor numerik yang digunakan dalam tugas pemrosesan bahasa alami lainnya. |
Klasifikasi Teks | Mengklasifikasikan dokumen teks dan memberikan label. |
Parafrazing Teks | Menghasilkan ekspresi yang lebih alami sambil mempertahankan makna yang sama dengan menerjemahkan teks ke dalam ekspresi yang berbeda. |
Challenges with LLMs
Despite their remarkable abilities, large language models also grapple with several obstacles. They are prone to produce incorrect data or hallucinations. Additionally, there's the potential hazard of prompt injection, where harmful prompts are manipulated to activate forbidden functionalities and elicit inappropriate replies. Moreover, as LLMs process information up to a certain point and provide responses based on it, they might disseminate outdated data. Concurrently with endeavors to boost performance, research is underway to address these challenges.
Referensi