Indexování a dotazování vektorů ve službě Azure Cosmos DB for NoSQL v Javě

Platí pro: ✅ NoSQL

Tento článek vysvětluje, jak vytvořit vektorová data, indexovat data a potom dotazovat data v kontejneru.

Před použitím indexování a vyhledávání vektorů musíte nejprve povolit vektorové vyhledávání ve službě Azure Cosmos DB for NoSQL. Po nastavení kontejneru Azure Cosmos DB pro vektorové vyhledávání vytvoříte zásadu vkládání vektorů. Dále přidáte vektorové indexy do zásad indexování kontejneru. Pak vytvoříte kontejner s vektorovými indexy a zásadami vkládání vektorů. Nakonec provedete vektorové vyhledávání uložených dat.

Požadavky

Existující účet Azure Cosmos DB pro NoSQL.
- Pokud předplatné Azure nemáte, můžete si ho zdarma vytvořit.
- Pokud máte existující předplatné Azure, vytvořte nový účet Azure Cosmos DB for NoSQL.
Nejnovější verze sady Azure Cosmos DB Java SDK.

Povolení funkce

Pokud chcete povolit vektorové vyhledávání pro Azure Cosmos DB for NoSQL, postupujte takto:

Přejděte na stránku prostředku Azure Cosmos DB pro NoSQL.
V levém podokně v části Nastavení vyberte Funkce.
Vyberte Vektorové vyhledávání pro rozhraní API NoSQL.
Přečtěte si popis funkce a potvrďte, že ji chcete povolit.
Výběrem možnosti Povolit zapnete vektorové vyhledávání ve službě Azure Cosmos DB for NoSQL.

Tip

Případně můžete pomocí Azure CLI aktualizovat možnosti vašeho účtu tak, aby podporovaly vektorové vyhledávání Ve službě Azure Cosmos DB for NoSQL.

az cosmosdb update \
     --resource-group <resource-group-name> \
     --name <account-name> \
     --capabilities EnableNoSQLVectorSearch

Žádost o registraci je automaticky schválena, ale může trvat 15 minut, než se projeví.

Vysvětlení kroků spojených s hledáním vektorů

Následující kroky předpokládají, že víte, jak nastavit účet Azure Cosmos DB for NoSQL a vytvořit databázi. Funkce vektorového vyhledávání se v současné době nepodporuje u existujících kontejnerů. Musíte vytvořit nový kontejner. Při vytváření kontejneru zadáte zásadu vkládání vektoru na úrovni kontejneru a zásadu indexování vektorů.

Podívejme se na příklad vytvoření databáze pro internetový knihkupectví. Chcete uložit název, autora, ISBN a informace o popisu každé knihy. Musíte také definovat následující dvě vlastnosti, které budou obsahovat vektorové vkládání:

Vlastnost contentVector obsahuje vložené texty , které jsou generovány z textového obsahu knihy. Například zřetězíte vlastnosti title, author, isbn a description před vytvořením vložení.
Vlastnost coverImageVector se generuje z obrázků titulní stránky knihy.

Pokud chcete provést vektorové vyhledávání, postupujte takhle:

Vytvořte a uložte vkládání vektorů pro pole, na kterých chcete provádět vektorové vyhledávání.
Zadejte cesty pro vkládání vektorů v zásadách vkládání vektorů.
Do zásad indexování kontejneru zahrňte všechny vektorové indexy, které chcete použít.

V dalších částech tohoto článku zvažte následující strukturu položek uložených v kontejneru:

{
  "title": "book-title", 
  "author": "book-author", 
  "isbn": "book-isbn", 
  "description": "book-description", 
  "contentVector": [2, -1, 4, 3, 5, -2, 5, -7, 3, 1], 
  "coverImageVector": [0.33, -0.52, 0.45, -0.67, 0.89, -0.34, 0.86, -0.78] 
}

Nejprve vytvořte CosmosContainerProperties objekt.

CosmosContainerProperties collectionDefinition = new CosmosContainerProperties(UUID.randomUUID().toString(), "Partition_Key_Def");

Vytvoření zásady vkládání vektorů pro kontejner

Teď potřebujete definovat zásadu vektoru kontejneru. Tato zásada poskytuje informace, které informují dotazovací stroj Azure Cosmos DB o tom, jak zpracovávat vlastnosti vektoru v systémových VectorDistance funkcích. Tato zásada také poskytuje nezbytné informace pro zásadu indexování vektorů, pokud se rozhodnete jednu zásadu zadat.

Do zásad vektoru kontejneru jsou zahrnuty následující informace:

Parametr	Popis
`path`	Cesta k vlastnosti, která obsahuje vektory.
`datatype`	Typ prvků vektoru. Výchozí hodnota je `Float32`.
`dimensions`	Délka každého vektoru v cestě. Výchozí hodnota je `1536`.
`distanceFunction`	Metrika použitá k výpočtu vzdálenosti a podobnosti. Výchozí hodnota je `Cosine`.

V příkladu s podrobnostmi knihy může politika vektoru vypadat jako v následujícím příkladu.

// Creating vector embedding policy
CosmosVectorEmbeddingPolicy cosmosVectorEmbeddingPolicy = new CosmosVectorEmbeddingPolicy();

CosmosVectorEmbedding embedding1 = new CosmosVectorEmbedding();
embedding1.setPath("/coverImageVector");
embedding1.setDataType(CosmosVectorDataType.FLOAT32);
embedding1.setDimensions(8L);
embedding1.setDistanceFunction(CosmosVectorDistanceFunction.COSINE);

CosmosVectorEmbedding embedding2 = new CosmosVectorEmbedding();
embedding2.setPath("/contentVector");
embedding2.setDataType(CosmosVectorDataType.FLOAT32);
embedding2.setDimensions(10L);
embedding2.setDistanceFunction(CosmosVectorDistanceFunction.DOT_PRODUCT);

cosmosVectorEmbeddingPolicy.setCosmosVectorEmbeddings(Arrays.asList(embedding1, embedding2, embedding3));

collectionDefinition.setVectorEmbeddingPolicy(cosmosVectorEmbeddingPolicy);

Vytvoření vektorového indexu v zásadách indexování

Jakmile se rozhodnete o cestách vkládání vektorů, musíte do zásad indexování přidat vektorové indexy. Funkce vektorového vyhledávání pro Azure Cosmos DB for NoSQL se v současné době podporuje jenom u nových kontejnerů. Při vytváření kontejneru použijete zásadu vektoru. Zásady nemůžete později upravit. Zásady indexování vypadají přibližně jako v následujícím příkladu:

IndexingPolicy indexingPolicy = new IndexingPolicy();
indexingPolicy.setIndexingMode(IndexingMode.CONSISTENT);
ExcludedPath excludedPath1 = new ExcludedPath("/coverImageVector/*");
ExcludedPath excludedPath2 = new ExcludedPath("/contentVector/*");
indexingPolicy.setExcludedPaths(ImmutableList.of(excludedPath1, excludedPath2));

IncludedPath includedPath1 = new IncludedPath("/*");
indexingPolicy.setIncludedPaths(Collections.singletonList(includedPath1));

// Creating vector indexes
CosmosVectorIndexSpec cosmosVectorIndexSpec1 = new CosmosVectorIndexSpec();
cosmosVectorIndexSpec1.setPath("/coverImageVector");
cosmosVectorIndexSpec1.setType(CosmosVectorIndexType.QUANTIZED_FLAT.toString());

CosmosVectorIndexSpec cosmosVectorIndexSpec2 = new CosmosVectorIndexSpec();
cosmosVectorIndexSpec2.setPath("/contentVector");
cosmosVectorIndexSpec2.setType(CosmosVectorIndexType.DISK_ANN.toString());

indexingPolicy.setVectorIndexes(Arrays.asList(cosmosVectorIndexSpec1, cosmosVectorIndexSpec2, cosmosVectorIndexSpec3));

collectionDefinition.setIndexingPolicy(indexingPolicy);

Nakonec vytvořte kontejner se zásadami indexu kontejneru a zásadami indexu vektoru.

database.createContainer(collectionDefinition).block();

Důležité

Cesta vektoru se přidá do excludedPaths části zásad indexování, aby se zajistil optimalizovaný výkon pro vložení. Nepřidání vektorové cesty do excludedPaths vede k vyššímu poplatku za jednotku požadavku a prodlevě při vkládání vektorů.

Spuštění vyhledávacího dotazu vektorové podobnosti

Po vytvoření kontejneru s požadovanými vektorovými zásadami a vložením vektorových dat do kontejneru použijte funkci systému VectorDistance v dotazu k provedení vektorového vyhledávání.

Předpokládejme, že chcete hledat knihy o receptech na jídlo tak, že se podíváte na popis. Nejdřív potřebujete získat vložené texty dotazu. V tomto případě můžete chtít vygenerovat embeddingy pro text dotazu food recipe. Po vložení vyhledávacího dotazu ho můžete použít ve VectorDistance funkci ve vektorovém vyhledávacím dotazu, abyste získali všechny položky podobné vašemu dotazu:

SELECT TOP 10 c.title, VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10]) AS SimilarityScore   
FROM c  
ORDER BY VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10])

Tento dotaz načte názvy knih spolu se skóre podobnosti vzhledem k vašemu dotazu. Tady je příklad v Javě:

float[] embedding = new float[10];
for (int i = 0; i < 10; i++) {
    array[i] = i + 1;
}
ArrayList<SqlParameter> paramList = new ArrayList<SqlParameter>();
  paramList.add(new SqlParameter("@embedding", embedding));
  SqlQuerySpec querySpec = new SqlQuerySpec("SELECT c.title, VectorDistance(c.contentVector,@embedding) AS SimilarityScore  FROM c ORDER BY VectorDistance(c.contentVector,@embedding)", paramList);
  CosmosPagedIterable<Family> filteredFamilies = container.queryItems(querySpec, new CosmosQueryRequestOptions(), Family.class);

  if (filteredFamilies.iterator().hasNext()) {
      Family family = filteredFamilies.iterator().next();
      logger.info(String.format("First query result: Family with (/id, partition key) = (%s,%s)",family.getId(),family.getLastName()));
  }

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-09-22