Quickstart: Geïntegreerde vectorisatie (preview)

Artikel
05/21/2024

Belangrijk

De wizard Gegevens importeren en vectoriseren bevindt zich in openbare preview onder Aanvullende gebruiksvoorwaarden. Het is gericht op de REST API 2024-05-01-Preview.

Ga aan de slag met geïntegreerde vectorisatie (preview) met behulp van de wizard Gegevens importeren en vectoriseren in Azure Portal. Met deze wizard wordt een Azure OpenAI-model voor het insluiten van tekst aangeroepen om inhoud tijdens het indexeren en voor query's vectoriseren.

In deze preview-versie van de wizard:

Brongegevens zijn blobs in Azure Storage of bestanden in OneLake, met behulp van de standaardparseermodus (één zoekdocument per blob of bestand).
Het indexschema kan niet worden geconfigureerd. Bronvelden bevatten content (gesegmenteerd en gevectoriseerd), metadata_storage_name voor titel en een metadata_storage_path voor de documentsleutel, weergegeven als parent_id in de index.
Vectorization is alleen Azure OpenAI (text-embedding-ada-002), met behulp van het HNSW-algoritme (Hierarchical Navigable Small Worlds) met standaardinstellingen.

Segmentering is niet geconfigureerd. De effectieve instellingen zijn:

textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500

Voor meer configuratie- en gegevensbronopties kunt u Python of de REST API's proberen. Zie het geïntegreerde vectorisatievoorbeeld voor meer informatie.

Een Azure-abonnement. Maak gratis een account.
Azure AI Search, in elke regio en op elke laag. De meeste bestaande services ondersteunen vectorzoekopdrachten. Voor een kleine subset van services die vóór januari 2019 zijn gemaakt, mislukt het maken van een index met vectorvelden. In dit geval moet er een nieuwe service worden gemaakt.
Azure OpenAI-eindpunt met een implementatie van tekst-embedding-ada-002 en een API-sleutel of Cognitive Services OpenAI-gebruikersmachtigingen voor het uploaden van gegevens. U kunt slechts één vectorizer kiezen in deze preview en de vectorizer moet Azure OpenAI zijn.
Azure Storage-account, standaardprestaties (algemeen gebruik v2), dynamische, statische en koude toegangslagen of OneLake.
Blobs of bestanden die alleen tekstinhoud, ongestructureerde documenten en metagegevens bieden.
Leesmachtigingen voor de gegevensbron. Voor verbindingen met Azure Storage kunt u sleutels of een roltoewijzing opslagblobgegevenslezer gebruiken. Voor verbindingen met OneLake moet u verbinding maken met behulp van de rol Inzender (er is geen ondersteuning voor sleutelverificatie).
Alle onderdelen (gegevensbron en eindpunt voor insluiten) moeten openbare toegang hebben ingeschakeld voor de portalknooppunten om ze te kunnen openen. Anders mislukt de wizard. Nadat de wizard is uitgevoerd, kunnen firewalls en privé-eindpunten worden ingeschakeld in de verschillende integratieonderdelen voor beveiliging. Als privé-eindpunten al aanwezig zijn en niet kunnen worden uitgeschakeld, kunt u de desbetreffende end-to-end-stroom uitvoeren vanuit een script of programma van een virtuele machine binnen hetzelfde virtuele netwerk als het privé-eindpunt. Hier volgt een Python-codevoorbeeld voor geïntegreerde vectorisatie. In dezelfde GitHub-opslagplaats zijn voorbeelden in andere programmeertalen.

Controleren of er voldoende ruimte is

Veel klanten beginnen met de gratis service. De gratis laag is beperkt tot drie indexen, drie gegevensbronnen, drie vaardighedensets en drie indexeerfuncties. Zorg ervoor dat er voldoende ruimte is voor extra items voordat u begint. In deze quickstart wordt een van elk object gemaakt.

Controleren op semantische classificatie

Deze wizard ondersteunt semantische classificatie, maar alleen op de Basic-laag en hoger, en alleen als semantische classificatie al is ingeschakeld voor uw zoekservice. Als u een factureerbare laag gebruikt, controleert u of semantische classificatie is ingeschakeld.

Voorbeeldgegevens voorbereiden

In deze sectie wordt u verwezen naar gegevens die geschikt zijn voor deze quickstart.

Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure Storage-account.
Selecteer Containers in het navigatiedeelvenster onder Gegevensopslag.
Maak een nieuwe container en upload vervolgens de PDF-documenten van het statusplan die voor deze quickstart worden gebruikt.
Voordat u het Azure Storage-account in De Azure-portal verlaat, verleent u machtigingen voor opslagblobgegevenslezer aan de container, ervan uitgaande dat u toegang op basis van rollen wilt. U kunt ook een verbindingsreeks naar het opslagaccount ophalen via de pagina Toegangssleutels.

Verbindingsgegevens ophalen voor Azure OpenAI

De wizard heeft een eindpunt nodig, een implementatie van tekst-embedding-ada-002 en een API-sleutel of een door een zoekservice beheerde identiteit met de gebruikersmachtigingen van Cognitive Services OpenAI.

Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure OpenAI-resource.
Kopieer onder Sleutels en beheer het eindpunt.
Kopieer op dezelfde pagina een sleutel of controleer het toegangsbeheer om rolleden toe te wijzen aan uw identiteit van uw zoekservice.
Selecteer onder Modelimplementaties implementaties beheren om Azure AI Studio te openen. Kopieer de implementatienaam van tekst-embedding-ada-002.

De wizard starten

Als u wilt beginnen, bladert u naar uw Azure AI-Search-service in Azure Portal en opent u de wizard Gegevens importeren en vectoriseren.

Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure AI-Search-service.
Selecteer gegevens importeren en vectoriseren op de pagina Overzicht.

Verbinding maken met uw gegevens

De volgende stap bestaat uit het maken van verbinding met een gegevensbron die moet worden gebruikt voor de zoekindex.

Vouw in de wizard Gegevens importeren en vectoriseren op het Verbinding maken naar het tabblad Gegevens uit, vouw de vervolgkeuzelijst Gegevensbron uit en selecteer Azure Blob Storage.
Geef het Azure-abonnement, het opslagaccount en de container op die de gegevens levert.
Geef voor de verbinding een volledige toegang op verbindingsreeks die een sleutel bevat of geef een beheerde identiteit op met machtigingen voor opslagblobgegevenslezer voor de container.
Geef op of u verwijderingsdetectie wilt:
Selecteer Volgende: Vectorize en Verrijken om door te gaan.

Uw gegevens verrijken en vectoriseren

In deze stap geeft u het insluitmodel op dat wordt gebruikt om gesegmenteerde gegevens te vectoriseren.

Geef het abonnement, het eindpunt, de API-sleutel en de naam van de modelimplementatie op.
U kunt desgewenst binaire afbeeldingen (bijvoorbeeld gescande documentbestanden) kraken en OCR gebruiken om tekst te herkennen.
U kunt desgewenst semantische rangschikking toevoegen om de resultaten aan het einde van de queryuitvoering opnieuw te rangschikkingen , zodat de meest semantisch relevante overeenkomsten aan de bovenkant worden gepromoot.
Geef een uitvoeringstijdschema op voor de indexeerfunctie.
Selecteer Volgende: Maken en controleren om door te gaan.

De wizard uitvoeren

Met deze stap maakt u de volgende objecten:

Gegevensbronverbinding met uw blobcontainer.
Indexeren met vectorvelden, vectorizers, vectorprofielen, vectoralgoritmen. U wordt niet gevraagd om de standaardindex te ontwerpen of te wijzigen tijdens de werkstroom van de wizard. Indexen voldoen aan de versie 2023-10-01-Preview.
Vaardighedenset met de vaardigheid Text Split voor segmentering en AzureOpenAIEmbeddingModel voor vectorisatie.
Indexeerfunctie met veldtoewijzingen en uitvoerveldtoewijzingen (indien van toepassing).

Als er fouten optreden, controleert u eerst de machtigingen. U hebt Cognitive Services OpenAI-gebruiker in Azure OpenAI en Storage Blob Data Reader in Azure Storage nodig. Uw blobs moeten ongestructureerd zijn (gesegmenteerde gegevens worden opgehaald uit de eigenschap 'inhoud' van de blob).

Resultaten controleren

Search Explorer accepteert teksttekenreeksen als invoer en vectoriseert vervolgens de tekst voor het uitvoeren van vectorquery's.

Selecteer uw index.
Selecteer desgewenst queryopties en verberg vectorwaarden in zoekresultaten. Met deze stap kunt u uw zoekresultaten gemakkelijker lezen.
Selecteer de JSON-weergave zodat u tekst voor uw vectorquery kunt invoeren in de parameter voor de tekstvectorquery .

Deze wizard biedt een standaardquery die een vectorquery op het veld Vector uitgeeft, waardoor de vijf dichtstbijzijnde buren worden geretourneerd. Als u ervoor kiest om vectorwaarden te verbergen, bevat uw standaardquery een 'select'-instructie die het vectorveld uitsluit van zoekresultaten.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
Vervang de tekst "*" door een vraag met betrekking tot gezondheidsplannen, zoals "welk plan het laagste aftrekbare plan heeft".
Selecteer Zoeken om de query uit te voeren.

U ziet vijf overeenkomsten, waarbij elk document een segment van het oorspronkelijke PDF-bestand is. In het titelveld ziet u uit welk PDF-bestand het segment afkomstig is.

Als u alle segmenten uit een specifiek document wilt zien, voegt u een filter toe voor het titelveld voor een specifiek PDF-bestand:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

Opschonen

Azure AI Search is een factureerbare resource. Als u deze niet meer nodig hebt, verwijdert u deze uit uw abonnement om kosten te voorkomen.

Volgende stappen

In deze quickstart hebt u kennisgemaakt met de wizard Gegevens importeren en vectoriseren waarmee alle objecten worden gemaakt die nodig zijn voor geïntegreerde vectorisatie. Als u elke stap in detail wilt verkennen, kunt u een geïntegreerd vectorisatievoorbeeld proberen.

Share via