Kesamaan Vektor
Kesamaan vektor adalah pengukuran yang digunakan untuk memperkirakan kemiripan atau kedekatan antara dua atau lebih vektor. Dalam banyak aplikasi, terutama dalam ilmu data dan pembelajaran mesin, sangat penting untuk membandingkan vektor dalam hal arah dan/atau magnitudo, yang dapat dianggap sebagai kesamaan mereka.
Ukuran Kesamaan Vektor
Saya akan memperkenalkan ukuran umum yang digunakan untuk mengukur kesamaan antara vektor. Ukuran-ukuran ini merupakan dasar dalam membandingkan dan membedakan data dalam ruang multidimensi, dan sangat penting dalam beberapa bidang seperti pemrosesan bahasa alami (NLP), sistem rekomendasi, dan pengenalan gambar.
Jarak Euclidean
Jarak Euclidean adalah salah satu ukuran yang paling intuitif untuk kesamaan vektor. Ini menghitung jarak garis lurus antara dua titik dalam ruang Euclidean.
Untuk dua titik dalam ruang 2-dimensi,
Dalam ruang n-dimensi, untuk vektor
Kesamaan Kosinus
Berbeda dengan jarak Euclidean, kesamaan kosinus mengukur kosinus dari sudut antara dua vektor non-nol. Ini sangat berguna ketika magnitudo vektor tidak relevan, dan kita lebih tertarik pada orientasi mereka.
Kesamaan kosinus dihitung sebagai perkalian titik dari dua vektor dibagi dengan perkalian magnitudo masing-masing vektor.
Kesamaan Perkalian Titik
Kesamaan perkalian titik adalah ukuran yang menghitung perkalian titik antara dua vektor. Ini erat kaitannya dengan kesamaan kosinus, tetapi sementara kesamaan kosinus melakukan normalisasi hasil untuk memberikan ukuran sudut antara vektor, kesamaan perkalian titik tidak terbatas dan mempertimbangkan baik magnitudo maupun arah.
Perkalian titik dari dua vektor
Kesamaan perkalian titik dapat bernilai positif, negatif, atau nol. Nilai positif menunjukkan bahwa vektor-vektor tersebut mengarah pada arah yang umum, nilai negatif menunjukkan bahwa mereka mengarah pada arah yang berlawanan, dan nilai nol menunjukkan bahwa vektor-vektor tersebut ortogonal.
Dalam konteks ruang berdimensi tinggi seperti yang umum dalam NLP, perkalian titik dapat dianggap sebagai ukuran seberapa banyak fitur yang dimiliki vektor-vektor tersebut secara bersamaan - dengan nilai yang lebih tinggi menunjukkan fitur yang lebih banyak yang sama.
Kesamaan Jaccard
Kesamaan Jaccard adalah ukuran yang digunakan untuk membandingkan kesamaan antara himpunan. Ketika vektor digunakan untuk mewakili himpunan (misalnya, vektor biner), kesamaan Jaccard dapat sangat berguna.
Kesamaan Jaccard didefinisikan sebagai ukuran irisan himpunan dibagi dengan ukuran gabungan himpunan.
Untuk vektor biner
Referensi