다음을 통해 공유


Python의 NoSQL용 Azure Cosmos DB의 인덱스 및 쿼리 벡터

이 문서에서는 벡터 데이터를 만들고, 데이터를 인덱싱한 다음, 컨테이너의 데이터를 쿼리하는 방법을 안내합니다.

벡터 인덱싱 및 검색을 사용하려면 먼저 Azure Cosmos DB for NoSQL에서 벡터 검색을 사용하도록 설정해야 합니다. 벡터 검색을 위해 Azure Cosmos DB 컨테이너를 설정한 후 벡터 포함 정책을 만듭니다. 다음으로 컨테이너 인덱싱 정책에 벡터 인덱스를 추가합니다. 그런 다음 벡터 인덱스 및 벡터 포함 정책을 사용하여 컨테이너를 만듭니다. 마지막으로 저장된 데이터에 대해 벡터 검색을 수행합니다.

필수 조건

기능 활성화

NoSQL용 Azure Cosmos DB에 대한 벡터 검색을 사용하도록 설정하려면 다음 단계를 수행합니다.

  1. NoSQL용 Azure Cosmos DB 리소스 페이지로 이동합니다.
  2. 왼쪽 창의 설정에서 기능을 선택합니다.
  3. Azure Cosmos DB for NoSQL에서 벡터 검색을 선택합니다.
  4. 기능에 대한 설명을 읽어 사용하도록 설정할지 확인합니다.
  5. NoSQL용 Azure Cosmos DB에서 벡터 검색을 켜려면 [사용 ]을 선택합니다.

또는 Azure CLI를 사용하여 계정의 기능을 업데이트하여 NoSQL용 Azure Cosmos DB 벡터 검색을 지원합니다.

az cosmosdb update \
     --resource-group <resource-group-name> \
     --name <account-name> \
     --capabilities EnableNoSQLVectorSearch

등록 요청은 자동 승인되지만 적용하는 데 15분이 걸릴 수 있습니다.

다음 단계에서는 NoSQL용 Azure Cosmos DB 계정을 설정하고 데이터베이스를 만드는 방법을 알고 있다고 가정합니다. 벡터 검색 기능은 현재 기존 컨테이너에서 지원되지 않습니다. 새 컨테이너를 만들어야 합니다. 컨테이너를 만들 때 컨테이너 수준 벡터 포함 정책 및 벡터 인덱싱 정책을 지정합니다.

인터넷 기반 서점에 대한 데이터베이스를 만드는 방법의 예를 살펴보겠습니다. 각 책에 대한 제목, 작성자, ISBN 및 설명 정보를 저장하려고 합니다. 벡터 포함을 포함하려면 다음 두 속성을 정의해야 합니다.

  • 이 속성에는 contentVector 책의 텍스트 콘텐츠로부터 생성된 텍스트 임베딩이 포함됩니다. 예를 들어 임베딩을 만들기 전에 title, author, isbndescription 속성을 연결합니다.
  • coverImageVector 속성은 책 표지의 이미지에서 생성됩니다.

벡터 검색을 수행하려면 다음을 수행합니다.

  1. 벡터 검색을 수행하려는 필드에 대한 벡터 임베딩을 만들고 저장합니다.
  2. 벡터 임베딩 정책에서 벡터 임베딩 경로를 지정합니다.
  3. 컨테이너의 인덱싱 정책에 원하는 벡터 인덱스를 포함합니다.

이 문서의 후속 섹션에서는 컨테이너에 저장된 항목에 대해 다음 구조를 고려합니다.

{
  "title": "book-title", 
  "author": "book-author", 
  "isbn": "book-isbn", 
  "description": "book-description", 
  "contentVector": [2, -1, 4, 3, 5, -2, 5, -7, 3, 1], 
  "coverImageVector": [0.33, -0.52, 0.45, -0.67, 0.89, -0.34, 0.86, -0.78] 
}

컨테이너에 대한 벡터 포함 정책 만들기

이제 컨테이너 벡터 정책을 정의해야 합니다. 이 정책은 시스템 함수에서 벡터 속성을 처리하는 방법에 대해 Azure Cosmos DB 쿼리 엔진에 VectorDistance 알리는 데 사용되는 정보를 제공합니다. 또한 이 정책은 벡터 인덱싱 정책을 지정하도록 선택하는 경우 필요한 정보를 벡터 인덱싱 정책에 제공합니다.

컨테이너 벡터 정책에는 다음 정보가 포함됩니다.

매개 변수 설명
path 벡터가 포함된 속성 경로입니다.
datatype 벡터 요소의 형식입니다. (기본값은 Float32.)
dimensions 경로에 있는 각 벡터의 길이입니다. (기본값은 1536.)
distanceFunction 거리/유사성을 계산하는 데 사용되는 메트릭입니다. (기본값은 Cosine.)

책 세부 정보가 포함된 예제의 경우 벡터 정책은 다음 예제와 같이 표시될 수 있습니다.

vector_embedding_policy = { 
    "vectorEmbeddings": [ 
        { 
            "path": "/coverImageVector", 
            "dataType": "float32", 
            "distanceFunction": "dotproduct", 
            "dimensions": 8 
        }, 
        { 
            "path": "/contentVector", 
            "dataType": "float32", 
            "distanceFunction": "cosine", 
            "dimensions": 10 
        } 
    ]    
} 

인덱싱 정책에서 벡터 인덱스 만들기

벡터 포함 경로를 결정한 후에는 인덱싱 정책에 벡터 인덱스를 추가해야 합니다. 인덱싱 정책은 다음 예제와 같습니다.

indexing_policy = { 
    "includedPaths": [ 
        { 
            "path": "/*" 
        } 
    ], 
    "excludedPaths": [ 
        { 
            "path": "/\"_etag\"/?",
            "path": "/coverImageVector/*",
            "path": "/contentVector/*"
            
        } 
    ], 
    "vectorIndexes": [ 
        {"path": "/coverImageVector", 
         "type": "quantizedFlat" 
        }, 
        {"path": "/contentVector", 
         "type": "quantizedFlat" 
        } 
    ] 
} 

중요

삽입에 최적화된 성능을 보장하기 위해 excludedPaths 인덱싱 정책의 섹션에 벡터 경로가 추가됩니다. 벡터 경로를 excludedPaths 추가하지 않으면 벡터 삽입에 대한 요청 단위 요금 및 대기 시간이 높아질 수 있습니다.

현재 NoSQL용 Azure Cosmos DB의 벡터 검색은 새 컨테이너에서만 지원됩니다. 나중에 수정할 수 없으므로 컨테이너를 만들 때 컨테이너 벡터 정책과 벡터 인덱싱 정책을 모두 설정해야 합니다.

벡터 정책을 사용하여 컨테이너 만들기

현재 NoSQL용 Azure Cosmos DB에 대한 벡터 검색 기능은 새 컨테이너에서만 지원됩니다. 컨테이너를 만들 때 벡터 정책을 적용합니다. 나중에 정책을 수정할 수 없습니다.

try:     
    container = db.create_container_if_not_exists( 
                    id=CONTAINER_NAME, 
                    partition_key=PartitionKey(path='/id'), 
                    indexing_policy=indexing_policy, 
                    vector_embedding_policy=vector_embedding_policy) 
    print('Container with id \'{0}\' created'.format(id)) 

except exceptions.CosmosHttpResponseError: 
        raise 

벡터 유사성 검색 쿼리 실행

원하는 벡터 정책을 사용하여 컨테이너를 만들고 컨테이너에 벡터 데이터를 삽입한 후 쿼리에서 VectorDistance 시스템 함수를 사용하여 벡터 검색을 수행합니다.

설명을 보고 음식 조리법에 대한 책을 검색하려는 경우를 가정해 보겠습니다. 먼저 쿼리 텍스트의 임베딩을 가져와야 합니다. 이 경우 쿼리 텍스트 food recipe에 대한 임베딩을 생성할 수 있습니다. 검색 쿼리에 대한 포함이 있으면 벡터 검색 쿼리의 VectorDistance 함수에서 이를 사용하여 쿼리와 유사한 모든 항목을 가져올 수 있습니다.

SELECT TOP 10 c.title, VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10]) AS SimilarityScore   
FROM c  
ORDER BY VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10])   

이 쿼리는 사용자의 쿼리에 대한 유사성 점수와 함께 책 제목을 쿼리합니다. 다음은 Python의 예입니다.

query_embedding = [1,2,3,4,5,6,7,8,9,10] 
# Query for items 
for item in container.query_items( 
            query='SELECT c.title, VectorDistance(c.contentVector,@embedding) AS SimilarityScore FROM c ORDER BY VectorDistance(c.contentVector,@embedding)', 
            parameters=[ 
                {"name": "@embedding", "value": query_embedding} 
            ], 
            enable_cross_partition_query=True): 
    print(json.dumps(item, indent=True))