Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Pencarian Vektor Tetangga Terdekat (ENN) yang Tepat melakukan perhitungan jarak lengkap di semua vektor terindeks untuk menjamin pengambilan tetangga terdekat berdasarkan metrik jarak yang ditentukan. ENN didukung pada semua tingkat kluster tanpa biaya tambahan dan tidak memerlukan pendaftaran.
Apa Itu Pencarian Vektor Tetangga Terdekat (ENN) yang Tepat?
Pencarian Vektor ENN melakukan perbandingan komprehensif antara vektor kueri dan setiap vektor dalam himpunan data. Pendekatan ini memastikan:
- Akurasi Terjamin: Mengambil tetangga terdekat yang sebenarnya sesuai metrik jarak yang dipilih (misalnya, jarak Euclidean, kesamaan kosinus).
- Peningkatan Beban Komputasi: Karena sifatnya yang lengkap, ENN lebih intensif sumber daya dan dapat mengakibatkan waktu kueri yang lebih lama, terutama dengan himpunan data besar.
Sebaliknya, pencarian Perkiraan Tetangga Terdekat (ANN) menggunakan teknik pengindeksan seperti Hierarkis Navigable Small World (HNSW), File Terbalik (IVF), atau DiskANN guna mempercepat pencarian. Meskipun ANN menawarkan waktu tanggapan yang lebih cepat dan skalabilitas yang lebih baik, mungkin tidak selalu mengembalikan tetangga paling dekat.
Kapan Anda Harus Menggunakan Pencarian Vektor ENN?
Pertimbangkan untuk menggunakan Pencarian Vektor ENN dalam skenario berikut:
- Persyaratan Akurasi Tinggi: Untuk aplikasi di mana hasil k atas yang tepat sangat penting—seperti sistem rekomendasi sensitif atau penelitian ilmiah—ENN memastikan akurasi maksimum.
- Ukuran Himpunan Data yang Dapat Dikelola: Saat berhadapan dengan himpunan data yang lebih kecil atau ketika batasan performa kurang ketat, sifat pencarian lengkap dari ENN layak.
- Pemfilteran Selektivitas Rendah: Jika menerapkan filter yang menghasilkan subset data yang relatif kecil, ENN dapat secara efisien melakukan perbandingan lengkap dalam subset ini.
Misalnya: Dalam himpunan data besar yang berisi jutaan dokumen yang dikategorikan oleh penyewa, melakukan pencarian vektor dalam penyewa tertentu (terdiri dari beberapa ribu vektor) dapat ditangani secara efektif oleh ENN.
Cara Menggunakan Pencarian Vektor ENN
Sebelum menggunakan ENN Vector Search, pastikan bahwa indeks vektor (misalnya, IVF, HNSW, DiskANN) dibuat untuk jalur yang relevan. Jika indeks vektor sudah ada, tidak perlu membangunnya kembali saat beralih di antara metode pencarian, karena ENN beroperasi secara independen dari indeks ini selama eksekusi kueri.
Untuk mengaktifkan ENN, atur "exact": true dalam kueri Anda. Contohnya:
{
"$search": {
"cosmosSearch": {
"path": "myVectorField",
"exact": true, // Enables ENN
"query": [0.2, 0.4, 0.9], // Query vector
"k": 10, // Number of results to return
"filter": {
"tenant_id": { "$eq": "tenant123" }
}
}
}
}
Menggabungkan Pencarian Vektor ENN dengan Filter
Pencarian Vektor ENN dapat dikombinasikan dengan atribut atau filter geospasial untuk mempersempit cakupan pencarian ke subset data tertentu. Setelah menerapkan filter, mesin pencari melakukan perhitungan jarak lengkap pada subset yang difilter, mengembalikan tetangga terdekat top-k yang memenuhi kriteria filter.
Gunakan Skenario Kasus
Klien mempertahankan koleksi sekitar 300.000 dokumen, masing-masing berisi bidang vektor, tenant_id bidang (mewakili ribuan penyewa), dan atribut lainnya. Mereka mengamati bahwa pencarian vektor ANN dengan tenant_id filter lambat.
Dengan beralih ke Pencarian Vektor ENN sambil mempertahankan filter yang sama, klien mencapai peningkatan 50% dalam performa kueri dan mencapai 100% akurasi pengenalan.
FAQs
Bagaimana Performa ENN dalam Skala Besar?
- Performa pada Himpunan Data Besar: ENN mungkin lebih lambat untuk himpunan data besar tanpa pemfilteran selektif karena perlunya mengevaluasi setiap vektor.
- Biaya Komputasi yang Lebih Tinggi: ENN melibatkan perbandingan vektor kueri dengan semua vektor (atau difilter), yang mengarah ke peningkatan penggunaan sumber daya untuk himpunan data besar.
ANN vs ENN: Apa Perbedaannya?
- Pencarian Vektor Tetangga Terdekat (ENN) yang Tepat menawarkan akurasi 100% dengan membandingkan vektor kueri secara lengkap dengan semua vektor terindeks, membuatnya cocok untuk aplikasi yang membutuhkan hasil yang tepat atau saat berhadapan dengan himpunan data yang lebih kecil atau subset yang difilter.
- Perkiraan Pencarian Tetangga Terdekat (ANN) menggunakan teknik pengindeksan khusus untuk memberikan respons yang lebih cepat dan skalabilitas yang lebih baik untuk himpunan data besar, meskipun mungkin sedikit membahayakan akurasi.