Index- och frågevektorer i Azure Cosmos DB för NoSQL i Python

Gäller för: ✅ NoSQL

Den här artikeln beskriver hur du skapar vektordata, indexar data och sedan frågar efter data i en container.

Innan du använder vektorindexering och sökning måste du först aktivera vektorsökning i Azure Cosmos DB för NoSQL. När du har konfigurerat Azure Cosmos DB-containern för vektorsökning skapar du en inbäddningsprincip för vektorer. Därefter lägger du till vektorindex i containerindexeringsprincipen. Sedan skapar du en container med vektorindex och en inbäddningsprincip för vektorer. Slutligen utför du en vektorsökning på lagrade data.

Förutsättningar

Ett befintligt Azure Cosmos DB för NoSQL-konto.
- Om du inte har en Azure-prenumeration kan du skapa en kostnadsfritt.
- Om du har en befintlig Azure-prenumeration skapar du ett nytt Azure Cosmos DB för NoSQL-konto.
Den senaste versionen av Azure Cosmos DB Python SDK.

Aktivera funktionen

Följ dessa steg för att aktivera vektorsökning för Azure Cosmos DB för NoSQL:

Gå till resurssidan för Azure Cosmos DB för NoSQL.
I den vänstra rutan, under Inställningar, väljer du Funktioner.
Välj Vektorsökning för NoSQL API.
Läs beskrivningen av funktionen för att bekräfta att du vill aktivera den.
Välj Aktivera för att aktivera vektorsökning i Azure Cosmos DB för NoSQL.

Tips

Du kan också använda Azure CLI för att uppdatera funktionerna i ditt konto för att stödja Azure Cosmos DB för NoSQL-vektorsökning.

az cosmosdb update \
     --resource-group <resource-group-name> \
     --name <account-name> \
     --capabilities EnableNoSQLVectorSearch

Registreringsbegäran godkänns automatiskt, men det kan ta 15 minuter att börja gälla.

Förstå stegen i vektorsökning

Följande steg förutsätter att du vet hur du konfigurerar ett Azure Cosmos DB för NoSQL-konto och skapar en databas. Vektorsökningsfunktionen stöds för närvarande inte på befintliga containrar. Du måste skapa en ny container. När du skapar containern anger du inbäddningsprincipen för vektorinbäddning på containernivå och vektorindexeringsprincipen.

Låt oss ta ett exempel på hur du skapar en databas för en internetbaserad bokhandel. Du vill lagra information om titel, författare, ISBN och beskrivning för varje bok. Du måste också definiera följande två egenskaper som ska innehålla inbäddningar av vektorer:

Egenskapen contentVector innehåller text inbäddningar som genereras från textinnehållet i boken. Till exempel sammanfogar du egenskaperna title, author, isbn och description innan du skapar inbäddningen.
Egenskapen coverImageVector genereras från bilder av bokens omslag.

Om du vill utföra en vektorsökning:

Skapa och lagra vektorinbäddningar för de fält där du vill utföra vektorsökning.
Ange inbäddningsvägarna för vektorer i vektorens inbäddningspolicy.
Inkludera eventuella vektorindex som du vill använda i indexeringsprincipen för containern.

För efterföljande avsnitt i den här artikeln bör du överväga följande struktur för de objekt som lagras i containern:

{
  "title": "book-title", 
  "author": "book-author", 
  "isbn": "book-isbn", 
  "description": "book-description", 
  "contentVector": [2, -1, 4, 3, 5, -2, 5, -7, 3, 1], 
  "coverImageVector": [0.33, -0.52, 0.45, -0.67, 0.89, -0.34, 0.86, -0.78] 
}

Skapa en vektorinbäddningsprincip för din container

Nu måste du definiera en containervektorpolicy. Den här principen innehåller information som används för att informera Azure Cosmos DB-frågemotorn om hur du hanterar vektoregenskaper i systemfunktionerna VectorDistance . Den här principen ger också nödvändig information till vektorindexeringsprincipen om du väljer att ange en.

Följande information ingår i containervektorprincipen:

Parameter	Beskrivning
`path`	Egenskapsvägen som innehåller vektorer.
`datatype`	Typ av element i vektorn. Standardvärdet är `Float32`.
`dimensions`	Längden på varje vektor i sökvägen. Standardvärdet är `1536`.
`distanceFunction`	Måttet som används för att beräkna avstånd/likhet. Standardvärdet är `Cosine`.

I exemplet med bokinformation kan vektorprincipen se ut som i följande exempel:

vector_embedding_policy = { 
    "vectorEmbeddings": [ 
        { 
            "path": "/coverImageVector", 
            "dataType": "float32", 
            "distanceFunction": "dotproduct", 
            "dimensions": 8 
        }, 
        { 
            "path": "/contentVector", 
            "dataType": "float32", 
            "distanceFunction": "cosine", 
            "dimensions": 10 
        } 
    ]    
}

Skapa ett vektorindex i indexeringsprincipen

När du har bestämt dig för sökvägarna för inbäddning av vektorer måste du lägga till vektorindex i indexeringsprincipen. Indexeringsprincipen ser ut ungefär som i följande exempel:

indexing_policy = { 
    "includedPaths": [ 
        { 
            "path": "/*" 
        } 
    ], 
    "excludedPaths": [ 
        { 
            "path": "/\"_etag\"/?",
            "path": "/coverImageVector/*",
            "path": "/contentVector/*"
            
        } 
    ], 
    "vectorIndexes": [ 
        {"path": "/coverImageVector", 
         "type": "quantizedFlat" 
        }, 
        {"path": "/contentVector", 
         "type": "quantizedFlat" 
        } 
    ] 
}

Viktigt!

Vektorsökvägen läggs till i excludedPaths avsnittet i indexeringsprincipen för att säkerställa optimerad prestanda för infogning. Att inte lägga till vektorsökvägen till excludedPaths resulterar i en högre kostnad och latens för vektorinfogningar.

För närvarande stöds endast vektorsökning i Azure Cosmos DB för NoSQL på nya containrar. Du måste ange både containervektorprincipen och valfri vektorindexeringsprincip när du skapar containern eftersom du inte kan ändra den senare.

Skapa en container med en vektorpolicy

För närvarande stöds vektorsökningsfunktionen för Azure Cosmos DB for NoSQL endast i nya containrar. När du skapar containern tillämpar du vektorprincipen. Du kan inte ändra principen senare.

try:     
    container = db.create_container_if_not_exists( 
                    id=CONTAINER_NAME, 
                    partition_key=PartitionKey(path='/id'), 
                    indexing_policy=indexing_policy, 
                    vector_embedding_policy=vector_embedding_policy) 
    print('Container with id \'{0}\' created'.format(id)) 

except exceptions.CosmosHttpResponseError: 
        raise

Köra en vektorlikhetssökningsfråga

När du har skapat en container med den vektorprincip som du vill använda och infogat vektordata i containern använder du systemfunktionen VectorDistance i en fråga för att utföra en vektorsökning.

Anta att du vill söka efter böcker om matrecept genom att titta på beskrivningen. Du måste först hämta inbäddningarna för frågetexten. I det här fallet kanske du vill generera inbäddningar för frågetexten food recipe. När du har bäddat in för din sökfråga kan du använda den i VectorDistance funktionen i vektorsökningsfrågan för att hämta alla objekt som liknar din fråga:

SELECT TOP 10 c.title, VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10]) AS SimilarityScore   
FROM c  
ORDER BY VectorDistance(c.contentVector, [1,2,3,4,5,6,7,8,9,10])

Den här frågan hämtar boktitlarna tillsammans med likhetspoäng med avseende på din fråga. Här är ett exempel i Python:

query_embedding = [1,2,3,4,5,6,7,8,9,10] 
# Query for items 
for item in container.query_items( 
            query='SELECT c.title, VectorDistance(c.contentVector,@embedding) AS SimilarityScore FROM c ORDER BY VectorDistance(c.contentVector,@embedding)', 
            parameters=[ 
                {"name": "@embedding", "value": query_embedding} 
            ], 
            enable_cross_partition_query=True): 
    print(json.dumps(item, indent=True))

Feedback

Var den här sidan till hjälp?

Last updated on 2025-10-17