Traffine I/O

Bahasa Indonesia

2023-03-29

LLM (Large Language Model)

Apa itu Large Language Model (LLM)

Large Language Model (LLM) merupakan bagian dari model bahasa yang dibuat menggunakan dataset kolosal melalui teknik deep learning. Kemampuan LLM untuk memfasilitasi percakapan yang menyerupai interaksi manusia dan kemampuannya yang tinggi dalam pemrosesan bahasa alami telah mendapatkan pengakuan di seluruh dunia.

Dalam konteks LLM, istilah "large" mengacu pada peningkatan yang signifikan dalam tiga elemen utama: kapasitas komputasi, volume data, dan jumlah parameter, dibandingkan dengan model bahasa tradisional. "Resource komputasi" mengacu pada kekuatan pemrosesan komputer. "Volume data" menunjukkan jumlah data teks yang dimasukkan ke dalam komputer. "Parameter model" mengacu pada kompleksitas parameter-parameter khusus dalam teknologi deep learning, yang membentuk serangkaian koefisien untuk perhitungan probabilitas. LLM telah mengalami perkembangan pesat dengan memperluas ketiga aspek ini, seperti yang dijelaskan dalam makalah OpenAI tahun 2020. Makalah ini menyiratkan adanya korelasi antara kinerja model bahasa dan tiga faktor tersebut. Dengan memanfaatkan wawasan ini, OpenAI berhasil mengembangkan LLM yang sangat akurat dengan secara signifikan meningkatkan ketiga elemen tersebut. ChatGPT, yang diperkenalkan pada November 2022, adalah contoh terkenal dari LLM yang meningkatkan kualitas tanggapan bahasa alami dengan balasan yang superior.

Jenis-jenis LLM

Hingga tahun 2023, berbagai jenis LLM telah diumumkan.

Nama Model Ringkasan Perusahaan Jumlah Parameter Tanggal Rilis
GPT-3 Model yang disesuaikan untuk pembuatan dokumen berdasarkan Generative Transformer. OpenAI 175 miliar Mei 2020
GPT-4 Model yang mempelajari data multimodal (seperti gambar dan audio) selain teks dalam GPT-3. OpenAI Lebih dari 200 miliar Maret 2023
LaMDA Model berbasis Transformer yang disesuaikan untuk percakapan. Google Tidak diungkapkan Mei 2021
PaLM Meningkatkan kinerja dengan secara signifikan meningkatkan jumlah parameter berdasarkan Transformer. Google 540 miliar April 2022
LLaMA Menunjukkan kinerja yang setara dengan GPT-3 dengan jumlah parameter yang jauh lebih sedikit dari GPT-3. Ringan dan dapat digunakan di satu GPU. Meta 70 hingga 650 miliar Februari 2023
Alpaca 7B Disesuaikan dengan hasil Instruction-follow (generasi data pembelajaran sendiri) berdasarkan LLaMA. Stanford University 70 miliar Maret 2023

Apa yang dapat dilakukan oleh LLMs

LLM dilatih menggunakan data teks dan sangat baik dalam tugas pemrosesan teks berikut ini.

Tugas Deskripsi
Penerjemahan Mesin Menghasilkan terjemahan alami dari satu bahasa ke bahasa lain.
Ringkasan Mengkondensasikan teks yang panjang.
Pertanyaan dan Jawaban Menjawab pertanyaan tentang teks dalam bahasa alami.
Generasi Teks Menghasilkan teks panjang sesuai dengan tema yang ditentukan.
Analisis Sentimen Menganalisis nada dan emosi dalam sebuah teks.
Tugas Generasi Bahasa Menghasilkan berbagai jenis teks seperti deskripsi, artikel berita, novel, puisi, iklan.
Ekstraksi Kata Kunci Menyaring kata-kata penting dari sebuah teks.
Penyisipan Kata Mengubah kata-kata menjadi vektor numerik yang digunakan dalam tugas pemrosesan bahasa alami lainnya.
Klasifikasi Teks Mengklasifikasikan dokumen teks dan memberikan label.
Parafrazing Teks Menghasilkan ekspresi yang lebih alami sambil mempertahankan makna yang sama dengan menerjemahkan teks ke dalam ekspresi yang berbeda.

Challenges with LLMs

Despite their remarkable abilities, large language models also grapple with several obstacles. They are prone to produce incorrect data or hallucinations. Additionally, there's the potential hazard of prompt injection, where harmful prompts are manipulated to activate forbidden functionalities and elicit inappropriate replies. Moreover, as LLMs process information up to a certain point and provide responses based on it, they might disseminate outdated data. Concurrently with endeavors to boost performance, research is underway to address these challenges.

Referensi

https://arxiv.org/abs/2001.08361
https://openai.com/blog/chatgpt
https://openai.com/blog/gpt-3-apps
https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
https://crfm.stanford.edu/2023/03/13/alpaca.html
https://vectara.com/avoiding-hallucinations-in-llm-powered-applications/
https://learnprompting.org/docs/prompt_hacking/injection

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!