Delen via


Quickstart: Wizard Gegevens importeren en vectoriseren (preview)

Belangrijk

De wizard Gegevens importeren en vectoriseren bevindt zich in openbare preview onder Aanvullende gebruiksvoorwaarden. Standaard is deze gericht op de REST API 2024-05-01-Preview.

Ga aan de slag met geïntegreerde vectorisatie (preview) met behulp van de wizard Gegevens importeren en vectoriseren in Azure Portal. Deze wizard roept een door de gebruiker opgegeven insluitingsmodel aan om inhoud te vectoriseren tijdens het indexeren en voor query's.

U hebt drie Azure-resources en enkele voorbeeldbestanden nodig om dit scenario te voltooien:

  • Azure Blob Storage of Microsoft Fabric met OneLake voor uw gegevens
  • Azure Vectorizations: Azure AI Services multiservice-account, Azure OpenAI of Azure AI Studio-modelcatalogus
  • Azure AI Search voor indexering en query's

Preview-beperkingen

  • Brongegevens zijn Azure Blob Storage- of OneLake-bestanden en -snelkoppelingen, met behulp van de standaardparseermodus (één zoekdocument per blob of bestand).

  • Het indexschema kan niet worden geconfigureerd. Bronvelden bevatten 'inhoud' (gesegmenteerd en gevectoriseerd), 'metadata_storage_name' voor titel en een 'metadata_storage_path' voor de documentsleutel, weergegeven als parent_id in de index.

  • Segmentering is niet geconfigureerd. De effectieve instellingen zijn:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Probeer een codebasisbenadering voor minder beperkingen of meer opties voor gegevensbronnen. Zie het geïntegreerde vectorisatievoorbeeld voor meer informatie.

Vereisten

  • Een Azure-abonnement. Maak gratis een account.

  • Gebruik voor gegevens een Azure Storage-account of een OneLake Lakehouse. Gebruik voor Azure Storage een standaardprestatieaccount (algemeen gebruik v2). Toegangslagen kunnen dynamisch, statisch en koud zijn.

  • Voor vectorisatie hebt u een Azure AI-services-account met meerdere services of een Azure OpenAI-eindpunt met implementaties.

    Voor multimodale toepassingen met Azure AI Vision maakt u een Azure AI-service in SwedenCentral, EastUS, NorthEurope, WestEurope, WestUS, SoutheastAsia, KoreaCentral, FranceCentral, AustraliaEast, WestUS2, SwitzerlandNorth, JapanEast. Raadpleeg de documentatie voor een bijgewerkte lijst.

    U kunt ook azure AI Studio-modelcatalogus (en hub en project) gebruiken met modelimplementaties.

  • Azure AI Search, in dezelfde regio als uw Azure AI-service. We raden de Basic-laag of hoger aan.

  • Roltoewijzingen of API-sleutels zijn vereist voor verbindingen met het insluiten van modellen en gegevensbronnen. In dit artikel worden instructies gegeven voor op rollen gebaseerde toegang.

Alle bovenstaande resources moeten openbare toegang hebben ingeschakeld voor de portalknooppunten om ze te kunnen openen. Anders mislukt de wizard. Nadat de wizard is uitgevoerd, kunnen firewalls en privé-eindpunten worden ingeschakeld op de verschillende integratieonderdelen voor beveiliging.

Als privé-eindpunten al aanwezig zijn en niet kunnen worden uitgeschakeld, kunt u de desbetreffende end-to-end-stroom uitvoeren vanuit een script of programma van een virtuele machine binnen hetzelfde virtuele netwerk als het privé-eindpunt. Hier volgt een Python-codevoorbeeld voor geïntegreerde vectorisatie. In dezelfde GitHub-opslagplaats zijn voorbeelden in andere programmeertalen.

Een gratis zoekservice biedt ondersteuning voor op rollen gebaseerd toegangsbeheer voor verbindingen met Azure AI Search, maar biedt geen ondersteuning voor beheerde identiteiten bij uitgaande verbindingen met Azure Storage of Azure AI Vision. Dit betekent dat u verificatie op basis van sleutels moet gebruiken voor gratis zoekserviceverbindingen met andere Azure-services. Voor veiligere verbindingen gebruikt u de basic-laag of hoger en configureert u een beheerde identiteit en roltoewijzingen om aanvragen van Azure AI Search toe te laten op andere Azure-services.

Controleren of er voldoende ruimte is

Als u begint met de gratis service, bent u beperkt tot drie indexen, drie gegevensbronnen, drie vaardighedensets en drie indexeerfuncties. Zorg ervoor dat er voldoende ruimte is voor extra items voordat u begint. In deze quickstart wordt een van elk object gemaakt.

Controleren op service-identiteit

We raden roltoewijzingen aan voor zoekserviceverbindingen met andere resources.

  1. Schakel in Azure AI Search op rollen gebaseerde toegang in.

  2. Configureer uw zoekservice voor het gebruik van een door het systeem of de gebruiker toegewezen beheerde identiteit.

In de volgende secties kunt u de beheerde identiteit van de zoekservice toewijzen aan rollen in andere services. Stappen voor roltoewijzingen worden opgegeven, indien van toepassing.

Controleren op semantische classificatie

Deze wizard ondersteunt semantische classificatie, maar alleen op de Basic-laag en hoger en alleen als semantische classificatie al is ingeschakeld voor uw zoekservice. Als u een factureerbare laag gebruikt, controleert u of semantische classificatie is ingeschakeld.

Voorbeeldgegevens voorbereiden

In deze sectie wordt u verwezen naar gegevens die geschikt zijn voor deze quickstart.

  1. Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure Storage-account.

  2. Selecteer Containers in het navigatiedeelvenster onder Gegevensopslag.

  3. Maak een nieuwe container en upload vervolgens de PDF-documenten van het statusplan die voor deze quickstart worden gebruikt.

  4. Wijs in Toegangsbeheer Storage Blob-gegevenslezer aan de container toe aan de identiteit van de zoekservice. U kunt ook een verbindingsreeks naar het opslagaccount ophalen via de pagina Toegangssleutels.

Insluitmodellen instellen

Geïntegreerde vectorisatie en de wizard Gegevens importeren en vectoriseren maken gebruik van geïmplementeerde insluitingsmodellen tijdens het indexeren om tekst en afbeeldingen te converteren naar vectoren.

U kunt insluitmodellen gebruiken die zijn geïmplementeerd in Azure OpenAI, Azure AI Vision voor multimodale insluitingen of in de modelcatalogus in Azure AI Studio.

Gegevens importeren en vectoriseren ondersteunt: tekst-insluiten-ada-002, tekst-insluiten-3-groot, tekst-insluiten-3-klein. Intern gebruikt de wizard de vaardigheid AzureOpenAIEmbedding om verbinding te maken met Azure OpenAI.

Gebruik deze instructies om machtigingen toe te wijzen of een API-sleutel op te halen voor een zoekserviceverbinding met Azure OpenAI. U moet machtigingen instellen of verbindingsgegevens in handen hebben voordat u de wizard uitvoert.

  1. Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure OpenAI-resource.

  2. Machtigingen instellen:

    1. Selecteer Toegangsbeheer in het linkermenu.

    2. Selecteer Toevoegen en selecteer vervolgens Roltoewijzing toevoegen.

    3. Selecteer onder Functierollen voor De functie van Cognitive Services Cognitive Services OpenAI-gebruiker en selecteer vervolgens Volgende.

    4. Selecteer onder Leden beheerde identiteit en selecteer vervolgens Leden.

    5. Filter op abonnement en resourcetype (Search-service s) en selecteer vervolgens de beheerde identiteit van uw zoekservice.

    6. Selecteer Controleren + toewijzen.

  3. Selecteer op de pagina Overzicht de optie Klik hier om eindpunten weer te geven en klik hier om sleutels te beheren als u een eindpunt of API-sleutel moet kopiëren. U kunt deze waarden in de wizard plakken als u een Azure OpenAI-resource gebruikt met verificatie op basis van sleutels.

  4. Selecteer onder Resourcebeheer- en modelimplementaties Implementaties beheren om Azure AI Studio te openen.

  5. Kopieer de implementatienaam van tekst-embedding-ada-002 of een ander ondersteund insluitingsmodel. Als u geen insluitmodel hebt, implementeert u er nu een.

De wizard starten

  1. Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure AI-Search-service.

  2. Selecteer gegevens importeren en vectoriseren op de pagina Overzicht.

    Schermopname van de wizardopdracht.

Verbinding maken met uw gegevens

De volgende stap bestaat uit het maken van verbinding met een gegevensbron die moet worden gebruikt voor de zoekindex.

  1. Vouw in de wizard Gegevens importeren en vectoriseren op het tabblad Verbinding maken met uw gegevens de vervolgkeuzelijst Gegevensbron uit en selecteer Azure Blob Storage of OneLake.

  2. Geef het Azure-abonnement op.

  3. Geef voor OneLake de URL van lakehouse op of geef de werkruimte- en lakehouse-id's op.

  4. Selecteer voor Azure Storage het account en de container die de gegevens levert.

  5. Geef op of u verwijderingsdetectie wilt.

  6. Selecteer Volgende.

De tekst vectoriseren

In deze stap geeft u het insluitmodel op dat wordt gebruikt om gesegmenteerde gegevens te vectoriseren.

  1. Geef op of geïmplementeerde modellen zich in Azure OpenAI, de Azure AI Studio-modelcatalogus of een bestaande Multimodale Azure AI Vision-resource in dezelfde regio bevinden als Azure AI Search.

  2. Geef het Azure-abonnement op.

  3. Selecteer voor Azure OpenAI de service, modelimplementatie en verificatietype. Zie Insluitmodellen instellen voor meer informatie.

  4. Selecteer voor de AI Studio-catalogus het project, de modelimplementatie en het verificatietype. Zie Insluitmodellen instellen voor meer informatie.

  5. Selecteer het account voor AI Vision-vectorisatie. Zie Insluitmodellen instellen voor meer informatie.

  6. Schakel het selectievakje in om te bevestigen dat de factureringsimpact van het gebruik van deze resources is.

  7. Selecteer Volgende.

Uw afbeeldingen vectoriseren en verrijken

Als uw inhoud afbeeldingen bevat, kunt u AI op twee manieren toepassen:

  • Gebruik een ondersteund model voor het insluiten van afbeeldingen uit de catalogus of kies de API voor multimodale insluitingen van Azure AI Vision om afbeeldingen te vectoriseren.
  • Gebruik OCR om tekst in afbeeldingen te herkennen.

Azure AI Search en uw Azure AI-resource moeten zich in dezelfde regio bevinden.

  1. Geef het type verbinding op dat de wizard moet maken. Voor afbeeldingsvectorisatie kan het verbinding maken met het insluiten van modellen in Azure AI Studio of Azure AI Vision.

  2. Geef het abonnement op.

  3. Geef voor de modelcatalogus van Azure AI Studio het project en de implementatie op. Zie Een insluitmodel instellen voor meer informatie.

  4. U kunt desgewenst binaire afbeeldingen (bijvoorbeeld gescande documentbestanden) kraken en OCR gebruiken om tekst te herkennen.

  5. Schakel het selectievakje in om te bevestigen dat de factureringsimpact van het gebruik van deze resources is.

  6. Selecteer Volgende.

Geavanceerde instellingen

  1. U kunt desgewenst semantische rangschikking toevoegen om de resultaten aan het einde van de queryuitvoering opnieuw te rangschikkingen , zodat de meest semantisch relevante overeenkomsten aan de bovenkant worden gepromoot.

  2. Geef desgewenst een uitvoeringstijdschema op voor de indexeerfunctie.

  3. Selecteer Volgende.

De wizard uitvoeren

  1. Geef bij Controleren en maken een voorvoegsel op voor de objecten die zijn gemaakt wanneer de wizard wordt uitgevoerd. Een gemeenschappelijk voorvoegsel helpt u georganiseerd te blijven.

  2. Selecteer Maken om de wizard uit te voeren. Met deze stap maakt u de volgende objecten:

    • Verbinding met gegevensbron.

    • Indexeren met vectorvelden, vectorizers, vectorprofielen, vectoralgoritmen. U wordt niet gevraagd om de standaardindex te ontwerpen of te wijzigen tijdens de werkstroom van de wizard. Indexen voldoen aan de REST API 2024-05-01-preview.

    • Vaardighedenset met tekstsplitsingsvaardigheden voor segmentering en een insluitvaardigheid voor vectorisatie. De vaardigheid voor insluiten is de vaardigheid AzureOpenAIEmbeddingModel voor Azure OpenAI of AML-vaardigheid voor azure AI Studio-modelcatalogus.

    • Indexeerfunctie met veldtoewijzingen en uitvoerveldtoewijzingen (indien van toepassing).

Als u Geen Azure AI Vision-vectorizer kunt selecteren, moet u ervoor zorgen dat u een Azure AI Vision-resource in een ondersteunde regio hebt en dat uw beheerde identiteit voor de zoekservice Cognitive Services OpenAI-gebruikersmachtigingen heeft.

Als u de wizard niet kunt doorlopen omdat er geen andere opties beschikbaar zijn (u kunt bijvoorbeeld geen gegevensbron of een insluitmodel selecteren), gaat u opnieuw naar de roltoewijzingen. Foutberichten geven aan dat modellen of implementaties niet bestaan, wanneer het echte probleem is dat de zoekservice geen toegang heeft tot deze modellen of implementaties.

Resultaten controleren

Search Explorer accepteert teksttekenreeksen als invoer en vectoriseert vervolgens de tekst voor het uitvoeren van vectorquery's.

  1. Selecteer in Azure Portal onder Search Management en Indexen de index die u hebt gemaakt.

  2. Selecteer desgewenst queryopties en verberg vectorwaarden in zoekresultaten. Met deze stap kunt u uw zoekresultaten gemakkelijker lezen.

    Schermopname van de knop Queryopties.

  3. Selecteer de JSON-weergave zodat u tekst voor uw vectorquery kunt invoeren in de parameter voor de tekstvectorquery .

    Schermopname van de JSON-selector.

    Deze wizard biedt een standaardquery die een vectorquery op het veld Vector uitgeeft, waardoor de vijf dichtstbijzijnde buren worden geretourneerd. Als u ervoor kiest om vectorwaarden te verbergen, bevat uw standaardquery een 'select'-instructie die het vectorveld uitsluit van zoekresultaten.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Vervang de tekst "*" door een vraag met betrekking tot gezondheidsplannen, zoals "welk plan het laagste aftrekbare plan heeft".

  5. Selecteer Zoeken om de query uit te voeren.

    Schermopname van zoekresultaten.

    U ziet vijf overeenkomsten, waarbij elk document een segment van het oorspronkelijke PDF-bestand is. In het titelveld ziet u uit welk PDF-bestand het segment afkomstig is.

  6. Als u alle segmenten uit een specifiek document wilt zien, voegt u een filter toe voor het titelveld voor een specifiek PDF-bestand:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Opschonen

Azure AI Search is een factureerbare resource. Als u deze niet meer nodig hebt, verwijdert u deze uit uw abonnement om kosten te voorkomen.

Volgende stappen

In deze quickstart hebt u kennisgemaakt met de wizard Gegevens importeren en vectoriseren waarmee alle objecten worden gemaakt die nodig zijn voor geïntegreerde vectorisatie. Als u elke stap in detail wilt verkennen, kunt u een geïntegreerd vectorisatievoorbeeld proberen.