Traffine I/O

Bahasa Indonesia

2023-02-04

Kesamaan Vektor

Kesamaan Vektor

Kesamaan vektor adalah pengukuran yang digunakan untuk memperkirakan kemiripan atau kedekatan antara dua atau lebih vektor. Dalam banyak aplikasi, terutama dalam ilmu data dan pembelajaran mesin, sangat penting untuk membandingkan vektor dalam hal arah dan/atau magnitudo, yang dapat dianggap sebagai kesamaan mereka.

Ukuran Kesamaan Vektor

Saya akan memperkenalkan ukuran umum yang digunakan untuk mengukur kesamaan antara vektor. Ukuran-ukuran ini merupakan dasar dalam membandingkan dan membedakan data dalam ruang multidimensi, dan sangat penting dalam beberapa bidang seperti pemrosesan bahasa alami (NLP), sistem rekomendasi, dan pengenalan gambar.

Jarak Euclidean

Jarak Euclidean adalah salah satu ukuran yang paling intuitif untuk kesamaan vektor. Ini menghitung jarak garis lurus antara dua titik dalam ruang Euclidean.

Untuk dua titik dalam ruang 2-dimensi, P(x_1, y_1) dan Q(x_2, y_2), jarak Euclidean dihitung menggunakan teorema Pythagoras:

D_{euclidean} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}

Dalam ruang n-dimensi, untuk vektor a dan b, jarak Euclidean digeneralisasi sebagai:

D_{euclidean}(\mathbf{a}, \mathbf{b}) = \sqrt{\sum_{i=1}^{n} (a_i - b_i)^2}

Kesamaan Kosinus

Berbeda dengan jarak Euclidean, kesamaan kosinus mengukur kosinus dari sudut antara dua vektor non-nol. Ini sangat berguna ketika magnitudo vektor tidak relevan, dan kita lebih tertarik pada orientasi mereka.

Kesamaan kosinus dihitung sebagai perkalian titik dari dua vektor dibagi dengan perkalian magnitudo masing-masing vektor.

\text{cosine\_similarity}(\mathbf{a}, \mathbf{b}) = \frac{\mathbf{a} \cdot \mathbf{b}}{||\mathbf{a}|| \times ||\mathbf{b}||} = \frac{\sum_{i=1}^{n} a_i \cdot b_i}{\sqrt{\sum_{i=1}^{n} a_i^2} \times \sqrt{\sum_{i=1}^{n} b_i^2}}

Kesamaan Perkalian Titik

Kesamaan perkalian titik adalah ukuran yang menghitung perkalian titik antara dua vektor. Ini erat kaitannya dengan kesamaan kosinus, tetapi sementara kesamaan kosinus melakukan normalisasi hasil untuk memberikan ukuran sudut antara vektor, kesamaan perkalian titik tidak terbatas dan mempertimbangkan baik magnitudo maupun arah.

Perkalian titik dari dua vektor a dan b dihitung sebagai:

\text{dot\_product}(\mathbf{a}, \mathbf{b}) = \sum_{i=1}^{n} a_i \cdot b_i

Kesamaan perkalian titik dapat bernilai positif, negatif, atau nol. Nilai positif menunjukkan bahwa vektor-vektor tersebut mengarah pada arah yang umum, nilai negatif menunjukkan bahwa mereka mengarah pada arah yang berlawanan, dan nilai nol menunjukkan bahwa vektor-vektor tersebut ortogonal.

Dalam konteks ruang berdimensi tinggi seperti yang umum dalam NLP, perkalian titik dapat dianggap sebagai ukuran seberapa banyak fitur yang dimiliki vektor-vektor tersebut secara bersamaan - dengan nilai yang lebih tinggi menunjukkan fitur yang lebih banyak yang sama.

Kesamaan Jaccard

Kesamaan Jaccard adalah ukuran yang digunakan untuk membandingkan kesamaan antara himpunan. Ketika vektor digunakan untuk mewakili himpunan (misalnya, vektor biner), kesamaan Jaccard dapat sangat berguna.

Kesamaan Jaccard didefinisikan sebagai ukuran irisan himpunan dibagi dengan ukuran gabungan himpunan.

J(\mathbf{A}, \mathbf{B}) = \frac{|\mathbf{A} \cap \mathbf{B}|}{|\mathbf{A} \cup \mathbf{B}|}

Untuk vektor biner a dan b, hal ini juga dapat dinyatakan sebagai:

J(\mathbf{a}, \mathbf{b}) = \frac{\sum_{i=1}^{n} \min(a_i, b_i)}{\sum_{i=1}^{n} \max(a_i, b_i)}

Referensi

https://www.pinecone.io/learn/vector-similarity/
https://www.learndatasci.com/glossary/jaccard-similarity/

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!