Apa itu N-gram
Dalam dunia Pemrosesan Bahasa Alami (NLP), terdapat banyak teknik dan pendekatan yang dapat membantu kita memahami dan menganalisis teks. Di antaranya, n-gram telah muncul sebagai alat fundamental untuk mempelajari pola bahasa dan memprediksi urutan linguistik. N-gram adalah urutan kontigu n item dari sampel teks atau ucapan tertentu, di mana n adalah bilangan bulat positif. Biasanya, item yang dimaksud adalah karakter atau kata.
Pada intinya, n-gram dapat dianggap sebagai blok bangunan bahasa, yang mewakili berbagai kombinasi karakter, kata, atau frasa. Dengan mempelajari pola-pola ini, kita dapat memperoleh wawasan tentang struktur dan sifat bahasa. N-gram telah menemukan penggunaan yang luas dalam berbagai aplikasi NLP, mulai dari generasi teks dan identifikasi bahasa hingga analisis sentimen dan deteksi plagiarisme.
Model N-gram dalam NLP
N-gram telah menjadi alat penting dalam mempelajari pola bahasa dan pengembangan model pemrosesan bahasa alami. Dalam artikel ini, saya akan mengeksplorasi jenis-jenis model n-gram dan aplikasi khususnya dalam NLP, memberikan contoh untuk mengilustrasikan penggunaannya.
N-gram Karakter
N-gram karakter adalah urutan n karakter berdekatan yang diambil dari teks tertentu. Model ini sangat berguna dalam analisis struktur morfologis dan identifikasi pola yang spesifik untuk bahasa pada tingkat karakter. N-gram karakter telah diterapkan pada tugas-tugas seperti identifikasi bahasa, atribusi penulis, dan kompresi teks.
Diberikan teks "language processing," n-gram karakter 3 karakter (juga disebut trigram) adalah:
- lan
- ang
- ngu
- gua
- uag
- age
- ge_
- e_p
- _pr
- pro
- roc
- oce
- ces
- ess
- ssi
- sin
- ing
_
mewakili karakter spasi.
N-gram Kata
N-gram kata terdiri dari n kata berdekatan dalam teks, membuatnya cocok untuk menangkap ketergantungan antar kata yang bersebelahan dalam sebuah kalimat. N-gram kata memainkan peran sentral dalam pengembangan model bahasa statistik, yang dapat digunakan untuk memperkirakan probabilitas sebuah kata berdasarkan konteksnya. Model ini banyak digunakan dalam berbagai tugas NLP, termasuk generasi teks, penerjemahan mesin, dan pengenalan ucapan.
Diberikan kalimat "The quick brown fox jumps over the lazy dog,," n-gram kata 3 kata (juga disebut trigram) adalah:
- The quick brown
- quick brown fox
- brown fox jumps
- fox jumps over
- jumps over the
- over the lazy
- the lazy dog
N-gram Sintaksis
N-gram sintaksis memperluas konsep n-gram kata dengan mempertimbangkan hubungan sintaksis antara kata-kata dalam sebuah kalimat. Model-model ini dibangun berdasarkan struktur sintaksis teks, seperti pohon parse dependensi atau konstituen. Dengan memasukkan sintaksis, n-gram sintaksis memberikan pemahaman yang lebih halus tentang bahasa, menjadikannya sangat berguna untuk tugas-tugas yang memerlukan analisis struktur kalimat yang lebih dalam, seperti analisis sentimen dan ekstraksi informasi.
Diberikan kalimat "The cat chased the mouse," sebuah n-gram sintaksis berdasarkan pohon parse dependensi mungkin adalah:
- chased_det(cat, The)
- chased_nsubj(chased, cat)
- chased_det(mouse, the)
- chased_dobj(chased, mouse)
N-gram sintaksis menangkap hubungan antara kata-kata dan peran sintaksis mereka, seperti penentu (det
), subjek (subj
), dan objek (obj
).
Terminologi N-gram
Tabel di bawah ini adalah gambaran umum tentang terminologi yang digunakan untuk menggambarkan n-gram dengan panjang yang bervariasi.
N | Nama N-gram | Contoh | Deskripsi |
---|---|---|---|
1 | Unigram | dog | Satu karakter atau kata tunggal |
2 | Bigram | lazy dog | Urutan dua karakter/kata |
3 | Trigram | the lazy dog | Urutan tiga karakter/kata |
4 | 4-gram | over the lazy dog | Urutan empat karakter/kata |
5 | 5-gram | ... | Urutan lima karakter/kata |
... | ... | ... | ... |
N | N-gram | ... | Urutan N karakter/kata |
Referensi