이 문서에서는 벡터 데이터를 만들고, 데이터를 인덱싱한 다음, 컨테이너의 데이터를 쿼리하는 방법을 안내합니다.
벡터 인덱싱 및 검색을 사용하려면 먼저 Azure Cosmos DB for NoSQL에서 벡터 검색을 사용하도록 설정해야 합니다. 벡터 검색을 위해 Azure Cosmos DB 컨테이너를 설정한 후 벡터 포함 정책을 만듭니다. 다음으로 컨테이너 인덱싱 정책에 벡터 인덱스를 추가합니다. 그런 다음 벡터 인덱스 및 벡터 포함 정책을 사용하여 컨테이너를 만듭니다. 마지막으로 저장된 데이터에 대해 벡터 검색을 수행합니다.
필수 조건
- 기존 Azure Cosmos DB for NoSQL 계정
- Azure 구독이 없는 경우 NoSQL용 Azure Cosmos DB를 무료로 사용해 보세요.
- 기존 Azure 구독이 있는 경우 새 Azure Cosmos DB for NoSQL 계정을 만듭니다.
- Azure Cosmos DB Java SDK의 최신 버전입니다.
기능 활성화
NoSQL용 Azure Cosmos DB에 대한 벡터 검색을 사용하도록 설정하려면 다음 단계를 수행합니다.
- NoSQL용 Azure Cosmos DB 리소스 페이지로 이동합니다.
- 왼쪽 창의 설정에서 기능을 선택합니다.
- Azure Cosmos DB for NoSQL에서 벡터 검색을 선택합니다.
- 기능에 대한 설명을 읽어 사용하도록 설정할지 확인합니다.
- NoSQL용 Azure Cosmos DB에서 벡터 검색을 켜려면 [사용 ]을 선택합니다.
팁
또는 Azure CLI를 사용하여 계정의 기능을 업데이트하여 NoSQL용 Azure Cosmos DB 벡터 검색을 지원합니다.
az cosmosdb update \
--resource-group <resource-group-name> \
--name <account-name> \
--capabilities EnableNoSQLVectorSearch
등록 요청은 자동 승인되지만 적용하는 데 15분이 걸릴 수 있습니다.
벡터 검색과 관련된 단계 이해
다음 단계에서는 NoSQL용 Azure Cosmos DB 계정을 설정하고 데이터베이스를 만드는 방법을 알고 있다고 가정합니다. 벡터 검색 기능은 현재 기존 컨테이너에서 지원되지 않습니다. 새 컨테이너를 만들어야 합니다. 컨테이너를 만들 때 컨테이너 수준 벡터 포함 정책 및 벡터 인덱싱 정책을 지정합니다.
인터넷 기반 서점에 대한 데이터베이스를 만드는 방법의 예를 살펴보겠습니다. 각 책에 대한 제목, 작성자, ISBN 및 설명 정보를 저장하려고 합니다. 벡터 포함을 포함하려면 다음 두 속성을 정의해야 합니다.
- 이 속성에는
contentVector
책의 텍스트 콘텐츠로부터 생성된 텍스트 임베딩이 포함됩니다. 예를 들어 임베딩을 만들기 전에title
,author
,isbn
및description
속성을 연결합니다. - 이
coverImageVector
속성은 책 표지의 이미지에서 생성됩니다.
벡터 검색을 수행하려면 다음을 수행합니다.
- 벡터 검색을 수행하려는 필드에 대한 벡터 임베딩을 만들고 저장합니다.
- 벡터 임베딩 정책에서 벡터 임베딩 경로를 지정합니다.
- 컨테이너의 인덱싱 정책에 원하는 벡터 인덱스를 포함합니다.
이 문서의 후속 섹션에서는 컨테이너에 저장된 항목에 대해 다음 구조를 고려합니다.
{
"title": "book-title",
"author": "book-author",
"isbn": "book-isbn",
"description": "book-description",
"contentVector": [2, -1, 4, 3, 5, -2, 5, -7, 3, 1],
"coverImageVector": [0.33, -0.52, 0.45, -0.67, 0.89, -0.34, 0.86, -0.78]
}
먼저, CosmosContainerProperties
개체를 만듭니다.
CosmosContainerProperties collectionDefinition = new CosmosContainerProperties(UUID.randomUUID().toString(), "Partition_Key_Def");
컨테이너에 대한 벡터 포함 정책 만들기
이제 컨테이너 벡터 정책을 정의해야 합니다. 이 정책은 시스템 함수에서 벡터 속성을 처리하는 방법에 대해 Azure Cosmos DB 쿼리 엔진에 VectorDistance
알리는 정보를 제공합니다. 또한 이 정책은 벡터 인덱싱 정책을 지정하도록 선택하는 경우 필요한 정보를 벡터 인덱싱 정책에 제공합니다.
컨테이너 벡터 정책에는 다음 정보가 포함됩니다.
매개 변수 | 설명 |
---|---|
path |
벡터가 포함된 속성 경로입니다. |
datatype |
벡터 요소의 형식입니다. (기본값은 Float32 .) |
dimensions |
경로에 있는 각 벡터의 길이입니다. (기본값은 1536 .) |
distanceFunction |
거리/유사성을 계산하는 데 사용되는 메트릭입니다. (기본값은 Cosine .) |
책 세부 정보가 포함된 예제의 경우 벡터 정책은 다음 예제와 같이 표시될 수 있습니다.
// Creating vector embedding policy
CosmosVectorEmbeddingPolicy cosmosVectorEmbeddingPolicy = new CosmosVectorEmbeddingPolicy();
CosmosVectorEmbedding embedding1 = new CosmosVectorEmbedding();
embedding1.setPath("/coverImageVector");
embedding1.setDataType(CosmosVectorDataType.FLOAT32);
embedding1.setDimensions(8L);
embedding1.setDistanceFunction(CosmosVectorDistanceFunction.COSINE);
CosmosVectorEmbedding embedding2 = new CosmosVectorEmbedding();
embedding2.setPath("/contentVector");
embedding2.setDataType(CosmosVectorDataType.FLOAT32);
embedding2.setDimensions(10L);
embedding2.setDistanceFunction(CosmosVectorDistanceFunction.DOT_PRODUCT);
cosmosVectorEmbeddingPolicy.setCosmosVectorEmbeddings(Arrays.asList(embedding1, embedding2, embedding3));
collectionDefinition.setVectorEmbeddingPolicy(cosmosVectorEmbeddingPolicy);
인덱싱 정책에서 벡터 인덱스 만들기
벡터 포함 경로를 결정한 후에는 인덱싱 정책에 벡터 인덱스를 추가해야 합니다. 현재 NoSQL용 Azure Cosmos DB에 대한 벡터 검색 기능은 새 컨테이너에서만 지원됩니다. 컨테이너를 만들 때 벡터 정책을 적용합니다. 나중에 정책을 수정할 수 없습니다. 인덱싱 정책은 다음 예제와 같습니다.
IndexingPolicy indexingPolicy = new IndexingPolicy();
indexingPolicy.setIndexingMode(IndexingMode.CONSISTENT);
ExcludedPath excludedPath1 = new ExcludedPath("/coverImageVector/*");
ExcludedPath excludedPath2 = new ExcludedPath("/contentVector/*");
indexingPolicy.setExcludedPaths(ImmutableList.of(excludedPath1, excludedPath2));
IncludedPath includedPath1 = new IncludedPath("/*");
indexingPolicy.setIncludedPaths(Collections.singletonList(includedPath1));
// Creating vector indexes
CosmosVectorIndexSpec cosmosVectorIndexSpec1 = new CosmosVectorIndexSpec();
cosmosVectorIndexSpec1.setPath("/coverImageVector");
cosmosVectorIndexSpec1.setType(CosmosVectorIndexType.QUANTIZED_FLAT.toString());
CosmosVectorIndexSpec cosmosVectorIndexSpec2 = new CosmosVectorIndexSpec();
cosmosVectorIndexSpec2.setPath("/contentVector");
cosmosVectorIndexSpec2.setType(CosmosVectorIndexType.DISK_ANN.toString());
indexingPolicy.setVectorIndexes(Arrays.asList(cosmosVectorIndexSpec1, cosmosVectorIndexSpec2, cosmosVectorIndexSpec3));
collectionDefinition.setIndexingPolicy(indexingPolicy);
마지막으로 컨테이너 인덱스 정책과 벡터 인덱스 정책을 사용하여 컨테이너를 만듭니다.
database.createContainer(collectionDefinition).block();
중요한
삽입에 최적화된 성능을 보장하기 위해 excludedPaths
인덱싱 정책의 섹션에 벡터 경로가 추가됩니다. 벡터 경로를 excludedPaths
추가하지 않으면 벡터 삽입에 대한 요청 단위 요금 및 대기 시간이 높아질 수 있습니다.
벡터 유사성 검색 쿼리 실행
원하는 벡터 정책을 사용하여 컨테이너를 만들고 컨테이너에 벡터 데이터를 삽입한 후 쿼리에서 VectorDistance 시스템 함수를 사용하여 벡터 검색을 수행합니다.
설명을 확인하여 음식 조리법에 대한 책을 검색하려고한다고 가정해 보겠습니다. 먼저 쿼리 텍스트의 임베딩을 가져와야 합니다. 이 경우 쿼리 텍스트 food recipe
에 대한 임베딩을 생성할 수 있습니다. 검색 쿼리에 대한 포함이 있으면 벡터 검색 쿼리의 VectorDistance
함수에서 이를 사용하여 쿼리와 유사한 모든 항목을 가져올 수 있습니다.
SELECT TOP 10 c.title, VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10]) AS SimilarityScore
FROM c
ORDER BY VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10])
이 쿼리는 사용자의 쿼리에 대한 유사성 점수와 함께 책 제목을 쿼리합니다. 다음은 Java의 예입니다.
float[] embedding = new float[10];
for (int i = 0; i < 10; i++) {
array[i] = i + 1;
}
ArrayList<SqlParameter> paramList = new ArrayList<SqlParameter>();
paramList.add(new SqlParameter("@embedding", embedding));
SqlQuerySpec querySpec = new SqlQuerySpec("SELECT c.title, VectorDistance(c.contentVector,@embedding) AS SimilarityScore FROM c ORDER BY VectorDistance(c.contentVector,@embedding)", paramList);
CosmosPagedIterable<Family> filteredFamilies = container.queryItems(querySpec, new CosmosQueryRequestOptions(), Family.class);
if (filteredFamilies.iterator().hasNext()) {
Family family = filteredFamilies.iterator().next();
logger.info(String.format("First query result: Family with (/id, partition key) = (%s,%s)",family.getId(),family.getLastName()));
}