Traffine I/O

Bahasa Indonesia

2023-03-30

Sistem LLM Menggunakan Vector DB dan Data Properti

Pengantar

Dalam beberapa tahun terakhir, bidang pembelajaran mesin dan pemrosesan bahasa alami telah mengalami kemajuan pesat. Di antara hal-hal tersebut, Large Language Model (LLM) telah menarik perhatian besar dari para peneliti dan pengembang.

Dengan menyimpan informasi terbaru yang diperoleh dari dokumen internal atau web scraping dalam sebuah database dan mengintegrasikannya dengan LLM, diharapkan sistem dapat memberikan respons yang mencakup informasi terkini.

Dalam artikel ini, saya akan menjelaskan cara membangun sistem LLM menggunakan data properti, dengan memanfaatkan Vector DB.

Arsitektur Sistem

Pengambilan Dokumen

Arsitektur dari banyak sistem pengambilan dokumen dalam sistem LLM menggunakan data properti secara umum adalah sebagai berikut.

Typical ingestion process
LangChain Chat

Mengambil Serangkaian Dokumen

Fase awal dalam menyematkan data unik ke dalam sistem LLM melibatkan perolehan dokumen yang diperlukan. Berbagai metode seperti akses API dan web scraping dapat digunakan untuk mencapai hal ini.

Memecah Dokumen menjadi Bagian yang Lebih Kecil

Untuk memastikan sistem LLM dapat memproses data dengan efektif, bermanfaat untuk membagi dokumen yang lebih besar menjadi segmen yang lebih mudah dikelola, seperti paragraf atau kalimat. Proses pemecahan ini memfasilitasi ekstraksi data penting dengan efisien pada tahap selanjutnya.

Membuat Representasi Vektor untuk Setiap Dokumen

Setiap segmen dikonversi menjadi representasi vektor berdimensi tinggi. Vektor-vektor ini disimpan dalam database vektor untuk digunakan dalam pemrosesan kueri di tahap selanjutnya.

Kueri

Kueri pada sistem LLM mengikuti desain arsitektur sebagai berikut.

Typical query process
LangChain Chat

Menghasilkan Vektor untuk Kueri

Ketika pengguna mengirimkan kueri, sistem dengan cepat membuat representasi vektor dari kueri tersebut. Langkah ini memungkinkan perhitungan skor kesamaan antara kueri dan segmen dokumen yang disimpan secara efisien.

Mencari Dokumen yang Paling Mirip di Database Vektor

Dengan memanfaatkan database vektor, sistem mencari vektor dokumen yang paling mirip dengan vektor kueri. Prosedur pencarian ini memungkinkan sistem untuk dengan cepat menemukan dokumen-dokumen yang relevan dengan kueri pengguna.

Memasok Dokumen dan Kueri Asli ke LLM untuk Menghasilkan Respons

Terakhir, dokumen yang dipilih dari database vektor, bersama dengan kueri asli, dimasukkan ke dalam sistem LLM. Sistem ini kemudian menghasilkan respons yang sesuai berdasarkan input yang diberikan dan menyampaikannya kepada pengguna.

Referensi

https://blog.langchain.dev/langchain-chat/

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!