Aracılığıyla paylaş


NoSQL için Azure Cosmos DB'de Vektör Arama (önizleme)

UYGULANANLAR: NoSQL

NoSQL için Azure Cosmos DB artık vektör dizin oluşturma ve önizlemede arama olanağı sunuyor. Bu özellik, yüksek boyutlu vektörleri işlemek için tasarlanmıştır ve her ölçekte verimli ve doğru vektör araması sağlar. Artık vektörleri doğrudan verilerinizle birlikte belgelerde depolayabilirsiniz. Veritabanınızdaki her belge yalnızca geleneksel şema içermeyen veriler değil, aynı zamanda belgelerin diğer özellikleri olarak yüksek boyutlu vektörler de içerebilir. Vektörler temsil ettikleri verilerle aynı mantıksal ünitede depolandığından, veri ve vektörlerin bu birlikte yerleştirilmesi, verimli dizin oluşturma ve arama işlemlerine olanak tanır. Vektörleri ve verileri bir arada tutmak veri yönetimini, yapay zeka uygulama mimarilerini ve vektör tabanlı işlemlerin verimliliğini basitleştirir.

NoSQL için Azure Cosmos DB, vektör dizin oluşturma yöntemini seçerken sunduğu esnekliği sunar:

  • "Düz" veya en yakın k komşu tam arama (bazen deneme yanılma olarak adlandırılır) daha küçük, odaklanmış vektör aramaları için %100 geri çağırma sağlayabilir. özellikle sorgu filtreleri ve bölüm anahtarlarıyla birleştirildiğinde.
  • KNN aramasında daha iyi verimlilik için DiskANN tabanlı niceleme yöntemlerini kullanarak vektörleri sıkıştıran nicelenmiş düz dizin.
  • Microsoft Research tarafından her ölçekte verimli, yüksek doğruluklu vektör aramasına güç sağlamak için geliştirilen son teknoloji vektör dizinleme algoritmaları paketi olan DiskANN.

Vektör dizini oluşturma hakkında daha fazla bilgiyi burada bulabilirsiniz

Azure Cosmos DB'de vektör araması, yan tümceleri kullanılarak WHERE desteklenen diğer tüm Azure Cosmos DB NoSQL sorgu filtreleri ve dizinleriyle birleştirilebilir. Bu, vektör aramalarınızın uygulamalarınıza en uygun veriler olmasını sağlar.

Bu özellik, Azure Cosmos DB'nin temel özelliklerini geliştirerek yapay zeka uygulamalarında vektör verilerini ve arama gereksinimlerini işlemek için daha çok yönlü hale getirir.

Vektör deposu nedir?

Vektör deposu veya vektör veritabanı , yüksek boyutlu bir alanda verilerin matematiksel temsilleri olan vektör eklemelerini depolamak ve yönetmek için tasarlanmış bir veritabanıdır. Bu alanda, her boyut verilerin bir özelliğine karşılık gelir ve gelişmiş verileri temsil etmek için on binlerce boyut kullanılabilir. Vektörlerin bu boşluktaki konumu, özelliklerini temsil eder. Sözcükler, tümcecikler veya belgelerin tamamı, görüntüler, ses ve diğer veri türlerinin tümü vektörleştirilebilir.

Vektör deposu nasıl çalışır?

Vektör deposunda, eklemeleri dizine almak ve sorgulamak için vektör arama algoritmaları kullanılır. Bazı iyi bilinen vektör arama algoritmaları Hiyerarşik Gezinilebilir Küçük Dünya (HNSW), Ters Dosya (IVF), DiskANN vb. içerir. Vektör arama, bir özellik alanında tam eşleşmeler yerine veri özelliklerine göre benzer öğeleri bulmanıza yardımcı olan bir yöntemdir. Bu teknik, benzer metin arama, ilgili görüntüleri bulma, önerilerde bulunma ve hatta anomalileri algılama gibi uygulamalarda kullanışlıdır. EklemeLER API'sini kullanarak makine öğrenmesi modeli kullanarak oluşturduğunuz verilerinizin vektör eklemelerini sorgulamak için kullanılır. Ekleme API'lerine örnek olarak Azure OpenAI Eklemeleri veya Azure'da Yüz Tanımayı Kucaklama verilebilir. Vektör araması, veri vektörleri ile sorgu vektörünüzün arasındaki mesafeyi ölçer. Sorgu vektörünüzün en yakın veri vektörleri, en benzer olduğu saptanan vektörlerdir.

NoSQL için Azure Cosmos DB'deki Tümleşik Vektör Veritabanı'nda eklemeler özgün verilerin yanı sıra depolanabilir, dizinlenebilir ve sorgulanabilir. Bu yaklaşım, verileri ayrı bir saf vektör veritabanında çoğaltmanın ek maliyetini ortadan kaldırır. Ayrıca bu mimari, vektör eklemeleri ve özgün verileri bir arada tutarak çok modalı veri işlemlerini daha iyi kolaylaştırır ve daha fazla veri tutarlılığı, ölçeklendirme ve performans sağlar.

Vektör Arama Önizleme Özelliğine Kaydolma

NoSQL için Azure Cosmos DB vektör araması için Azure Cosmos DB'nizin Özellikler sayfasında önizleme özelliği kaydı gerekir. Kaydolmak için aşağıdaki adımları izleyin:

  1. NoSQL için Azure Cosmos DB kaynak sayfanıza gidin.

  2. "Ayarlar" menü öğesinin altındaki "Özellikler" bölmesini seçin.

  3. "NoSQL için Azure Cosmos DB'de Vektör Arama" seçeneğini belirleyin.

  4. Önizlemeye kaydolmak istediğinizi onaylamak için özelliğin açıklamasını okuyun.

  5. Önizlemeye kaydolmak için "Etkinleştir" seçeneğini belirleyin.

Not

Kayıt isteği otomatik olarak onaylanır, ancak geçerlilik kazanması birkaç dakika sürebilir.

Not

DiskANN, erken geçitli önizleme sürümünde kullanılabilir ve bu formun doldurulması gerekir. Kaynağınız DiskANN dizinini kullanmak üzere eklendiğinde Azure Cosmos DB ekibinin bir üyesiyle bağlantı kuracaksınız.

İpucu

Alternatif olarak, Hesabınızın özelliklerini NoSQL vektör aramasını destekleyecek şekilde güncelleştirmek için Azure CLI'yı kullanın.

az cosmosdb update \
     --resource-group <resource-group-name> \
     --name <account-name> \
     --capabilities EnableNoSQLVectorSearch

Kapsayıcı Vektör İlkeleri

NoSQL için Azure Cosmos DB ile vektör araması yapmak için kapsayıcı için bir vektör ilkesi tanımlamanız gerekir. Bu, kapsayıcının belgelerinde bulunan vektörler için verimli benzerlik araması yapmak için veritabanı altyapısı için temel bilgiler sağlar. Bu ayrıca, bir tane belirtmeyi seçerseniz vektör dizin oluşturma ilkesine gerekli bilgileri bildirir. Aşağıdaki bilgiler, kapsanan vektör ilkesine dahildir:

Not

Her benzersiz yolun en fazla bir ilkesi olabilir. Ancak, tümü farklı bir yolu hedeflemesi koşuluyla birden çok ilke belirtilebilir.

Kapsayıcı vektör ilkesi JSON nesneleri olarak tanımlanabilir. Geçerli kapsayıcı vektör ilkelerine iki örnek aşağıda verilmiştir:

Tek vektör yolu olan bir ilke

{
    "vectorEmbeddings": [
        {
            "path":"/vector1",
            "dataType":"float32",
            "distanceFunction":"cosine",
            "dimensions":1536
        }
    ]
}

İki vektör yolu olan bir ilke

{
    "vectorEmbeddings": [
        {
            "path":"/vector1",
            "dataType":"float32",
            "distanceFunction":"cosine",
            "dimensions":1536
        },
        {
            "path":"/vector2",
            "dataType":"int8",
            "distanceFunction":"dotproduct",
            "dimensions":100
        }
    ]
}

Vektör dizin oluşturma ilkeleri

Vektör dizinleri, sistem işlevini kullanarak VectorDistance vektör aramaları yaparken verimliliği artırır. Vektör araması, vektör dizini kullanılırken daha düşük gecikme süresine, daha yüksek aktarım hızına ve daha az RU tüketimine sahiptir. Aşağıdaki vektör dizin ilkesi türlerini belirtebilirsiniz:

Type Açıklama Maksimum boyutlar
flat Vektörleri diğer dizine alınan özelliklerle aynı dizinde depolar. 505
quantizedFlat Dizinde depolamadan önce vektörleri niceleştirir (sıkıştırır). Bu, az miktarda doğruluk karşılığında gecikme süresini ve aktarım hızını iyileştirebilir. 4096
diskANN Hızlı ve verimli yaklaşık arama için DiskANN tabanlı bir dizin oluşturur. 4096

Dikkate almak için birkaç nokta:

  • ve quantizedFlat dizin türleri, flat vektör araması yaparken her vektöri depolamak ve okumak için Azure Cosmos DB'nin dizinini kullanır. Dizin içeren flat vektör aramaları deneme yanılma aramalarıdır ve %100 doğruluk veya geri çekme üretir. Başka bir ifadeyle, veri kümesindeki en benzer vektörleri bulmak garanti edilir. Ancak düz bir dizindeki vektörler için boyut sınırlaması 505 vardır.

  • Dizin, quantizedFlat dizinde nicelenmiş (sıkıştırılmış) vektörleri depolar. Dizinli quantizedFlat vektör aramaları da deneme yanılma aramalarıdır, ancak vektörler dizine eklemeden önce ölçüleceğinden doğrulukları %100'ün biraz altında olabilir. Ancak, ile quantized flat vektör aramalarının dizindeki flat vektör aramalarına göre daha düşük gecikme süresi, daha yüksek aktarım hızı ve daha düşük RU maliyeti olmalıdır. Bu, daha küçük senaryolar veya vektör aramasını görece küçük bir vektör kümesine daraltmak için sorgu filtrelerini kullandığınız senaryolar için iyi bir seçenektir. quantizedFlat kapsayıcısında en az 1.000 vektör ve 100.000'den az vektör olduğunda kullanılmalıdır.

  • DizindiskANN, Microsoft Research tarafından geliştirilen yüksek performanslı vektör dizinleme algoritmaları paketi olan DiskANN kullanan vektörler için özel olarak tanımlanan ayrı bir dizindir. DiskANN dizinleri en düşük gecikme süresi, en yüksek aktarım hızı ve en düşük RU maliyeti sorgularından bazılarını sunarken yüksek doğruluğu korumaya devam edebilir. Ancak, DiskANN yaklaşık en yakın komşular (ANN) dizini olduğundan doğruluk veya flatdeğerinden quantizedFlat düşük olabilir. DiskANN, erken geçitli önizleme sürümünde kullanılabilir ve bu formun doldurulması gerekir.

Geçerli vektör dizini ilkelerine örnekler aşağıda verilmiştir:

{
    "indexingMode": "consistent",
    "automatic": true,
    "includedPaths": [
        {
            "path": "/*"
        }
    ],
    "excludedPaths": [
        {
            "path": "/_etag/?"
        }
    ],
    "vectorIndexes": [
        {
            "path": "/vector1",
            "type": "quantizedFlat"
        }
    ]
}
{
    "indexingMode": "consistent",
    "automatic": true,
    "includedPaths": [
        {
            "path": "/*"
        }
    ],
    "excludedPaths": [
        {
            "path": "/_etag/?"
        }
    ],
    "vectorIndexes": [
        {
            "path": "/vector1",
            "type": "quantizedFlat"
        },
        {
            "path": "/vector2",
            "type": "DiskANN"
        }
    ]
}

Not

Quantized Flat ve DiskANN dizinleri, en az 1.000 vektör eklenmesini gerektirir. Bu, niceleme işleminin doğruluğunu sağlamaktır. 1.000'den az vektör varsa, bunun yerine tam tarama yürütülür ve vektör arama sorgusu için daha yüksek RU ücretlerine yol açar.

Önemli

Şu anda vektör arama önizlemesinde, vektör ilkesinin yolunda iç içe yerleştirilmiş yol veya joker karakterler kullanmayın. Vektör ilkesindeki değiştirme işlemleri şu anda desteklenmiyor.

VectorDistance() kullanarak sorgularla vektör araması yapma

İstenen vektör ilkesine sahip bir kapsayıcı oluşturduktan ve kapsayıcıya vektör verileri ekledikten sonra, sorgudaki Vektör Uzaklığı sistem işlevini kullanarak vektör araması yapabilirsiniz. Benzerlik puanını diğer ad SimilarityScoreolarak projeleyen ve en küçük benzere en benzer şekilde sıralayan bir NoSQL sorgusu örneği:

SELECT c.title, VectorDistance(c.contentVector, [1,2,3]) AS SimilarityScore   
FROM c  
ORDER BY VectorDistance(c.contentVector, [1,2,3])   

Geçerli sınırlar ve kısıtlamalar

NoSQL için Azure Cosmos DB'de vektör dizin oluşturma ve arama, genel önizlemenin ilk aşamalarındayken bazı sınırlamalara sahiptir.

  • Vektör dizin ilkesinde yol başına en fazla bir dizin türü belirtebilirsiniz
  • Kapsayıcı başına en fazla bir DiskANN dizin türü belirtebilirsiniz
  • Vektör dizin oluşturma yalnızca yeni kapsayıcılarda desteklenir.
  • Dizin türüyle flat dizine alınan vektörler en fazla 505 boyutta olabilir. veya DiskANN dizin türüyle quantizedFlat dizine alınan vektörler en fazla 4.096 boyutta olabilir.
  • quantizedFlat DiskANN ile aynı niceleme yöntemini kullanır ve şu anda yapılandırılamaz.
  • Paylaşılan aktarım hızı veritabanları şu anda vektör arama önizleme özelliğini kullanamaz.
  • DiskANN'nin erken önizlemesi kullanılırken alım oranı sınırlı olmalıdır.

Sonraki adım