Apa itu NLP
Bahasa alami adalah bahasa yang digunakan manusia dalam kehidupan sehari-hari, seperti bahasa lisan dan tulisan. Bahasa alami mengandung ambiguitas dan tumpang tindih makna yang dapat ditafsirkan secara berbeda tergantung pada konteksnya, seperti pada contoh berikut.
- "dog ate a bone" dan "bone dog a ate"
- Kata yang sama muncul dengan frekuensi yang sama di kedua kalimat, tetapi tergantung pada posisi kata tersebut, kalimat pertama diberi makna dan kalimat lainnya tidak.
- "Jack saw Ben with a telescope on a mountain."
- Apakah Jack atau Ben yang membawa teleskop?
- Siapa yang ada di gunung?
- "I went to the bank."
- Kata "bank" tidak hanya merujuk pada lembaga keuangan, tapi juga tepi sungai.
Pemrosesan Bahasa Alami (Natural Language Processing/NLP) adalah serangkaian proses komputer yang menganalisis kata-kata ambigu dan kompleks yang digunakan oleh manusia.
Istilah-istilah dalam NLP
Istilah-istilah kunci dalam NLP tercantum dalam tabel di bawah ini.
Istilah | Arti | Contoh |
---|---|---|
Corpus | Kumpulan dokumen | Kalimat di semua halaman Wikipedia |
Document | Dokumen | Kalimat dari halaman "word2vec" di Wikipedia |
Sentence | Kalimat | Kalimat pertama Document(Word2vec is a group of related models that are used to produce word embeddings. ) |
Phrase | Fase | Klausa pertama dari Sentence(Word2vec is a group of related models ) |
Token | Kata | Kata pertama dari Phase(Word2vec ) |
Character | Karakter | Karakter pertama dari Token(W ) |
Vocabulary | Kosakata | Kumpulan Token unik yang muncul dalam Corpus |
Proses NLP
NLP diproses berdasarkan empat proses utama:
- Analisis morfologi/ Analisis leksikal
- Analisis sintaksis
- Analisis semantik
- Analisis pragmatik
Analisis morfologi
Analisis morfologi adalah proses memecah kalimat menjadi elemen terkecil (morfem) yang memiliki makna dan memberikan informasi seperti bagian dari kalimat. Proses ini memungkinkan makna dari setiap morfem dalam sebuah kalimat diekstraksi sebagai data.
Sebagai contoh, kalimat "Jack melihat Ben dengan teleskop di atas gunung.
Asli | Analisis Morfologi |
---|---|
Jack saw Ben with a telescope on a mountain.」 | Jack (kata benda) | menggergaji (kata kerja) | Ben (kata benda) | dengan (kata depan) | sebuah (kata benda) | teleskop (kata benda) | di (kata depan) | sebuah (kata benda) | gunung (kata benda) |
Analisis sintaksis
Analisis sintaksis adalah proses memperjelas struktur kalimat berdasarkan analisis morfologi elemen bahasa.
Setelah melakukan analisis morfologi terhadap "Jack melihat Ben dengan teleskop di atas gunung", hasil analisis sintaksisnya adalah sebagai berikut.
Jack saw
|Ben with a telescope on a mountain
Jack saw
|Ben with a telescope
|on a mountain
Jack saw Ben with a telescope
|on a mountain
Dari segi sintaksis, kedua kalimat tersebut benar.
Analisis semantik
Analisis semantik menentukan hubungan antara setiap kata berdasarkan analisis sintaksis. Misalkan kita memiliki kalimat-kalimat berikut.
Green
|shining
|aurora
|and
|stars
|are
|beautiful
Dalam pernyataan di atas, dapat segera dipahami bahwa aurora borealis bersinar hijau. Hal ini juga bisa diartikan bahwa tidak hanya aurora borealis tetapi juga bintang-bintang yang bersinar hijau.
Memeriksa hubungan antara setiap kata sambil membuka kamus dalam analisis semantik mengungkapkan bahwa meskipun cahaya utara bersinar hijau, bintang-bintang jarang digambarkan bersinar hijau. Oleh karena itu, AI dapat memahami bahwa dalam kalimat di atas, satu-satunya hal yang bersinar hijau adalah aurora borealis.
Analisis pragmatis
Analisis pragmatis adalah proses menganalisis hubungan antar kalimat dengan melakukan analisis morfologi dan semantik pada beberapa kalimat. Namun, proses ini membutuhkan mesin untuk mempelajari pengetahuan dari berbagai domain dan masih merupakan bidang yang terus berkembang.
Contoh aplikasi NLP
NLP memiliki beberapa aplikasi berikut ini:
- Penambangan teks
- Analisis SNS
- Analisis survei
- Sistem dialog
- Siri
- Alexa
- Google Home
- Terjemahan mesin
- DeepL
- Terjemahan Google
- Mesin Pencari
- Yahoo
- Deteksi spam
- Ringkasan dokumen
Referensi