Quickstart: Tekst en afbeeldingen vectoriseren met behulp van Azure Portal

Artikel
10/20/2024

Deze quickstart helpt u aan de slag te gaan met geïntegreerde vectorisatie met behulp van de wizard Gegevens importeren en vectoriseren in Azure Portal. De wizard segmenteert uw inhoud en roept een insluitmodel aan om inhoud te vectoriseren tijdens het indexeren en voor query's.

Belangrijke punten over de wizard:

Ondersteunde gegevensbronnen zijn Azure Blob Storage, Azure Data Lake Storage (ADLS) Gen2 of OneLake-bestanden en snelkoppelingen.
Ondersteunde insluitingsmodellen worden gehost in Azure OpenAI, Azure AI Studio-modelcatalogus, Azure AI Vision multimodal.
Indexschema biedt vector- en niet-vectorvelden voor gesegmenteerde gegevens.
U kunt velden toevoegen, maar u kunt gegenereerde velden niet verwijderen of wijzigen.
In de documentparseermodus worden segmenten gemaakt (één zoekdocument per segment).

Segmentering is niet geconfigureerd. De effectieve instellingen zijn:

"textSplitMode": "pages",
"maximumPageLength": 2000,
"pageOverlapLength": 500,
"maximumPagesToTake": 0, #unlimited
"unit": "characters",

Vereisten

Een Azure-abonnement. Maak gratis een account.
Azure AI Search-service in dezelfde regio als Azure AI. We raden de Basic-laag of hoger aan.
Azure Blob Storage, Azure Data Lake Storage (ADLS) Gen2 (een opslagaccount met een hiërarchische naamruimte) of een OneLake Lakehouse.

Azure Storage moet een standaardprestatieaccount (algemeen gebruik v2) zijn. Toegangslagen kunnen dynamisch, statisch en koud zijn.

Een insluitmodel op een Azure AI-platform in dezelfde regio als Azure AI Search. Implementatie-instructies staan in dit artikel.

Provider	Ondersteunde modellen
Azure OpenAI-service	text-embedding-ada-002, text-embedding-3-large of text-embedding-3-small.
Azure AI Studio-modelcatalogus	Azure-, Cohere- en Facebook-insluitingsmodellen.
Account voor meerdere services voor Azure AI-services	Azure AI Vision multimodal voor afbeeldings- en tekstvectorisatie. Azure AI Vision multimodal is beschikbaar in geselecteerde regio's. Raadpleeg de documentatie voor een bijgewerkte lijst. Als u deze resource wilt gebruiken, moet het account zich in een beschikbare regio en in dezelfde regio bevinden als Azure AI Search.

Als u de Azure OpenAI-service gebruikt, moet deze een gekoppeld aangepast subdomein hebben. Als de service is gemaakt via Azure Portal, wordt dit subdomein automatisch gegenereerd als onderdeel van de installatie van uw service. Zorg ervoor dat uw service een aangepast subdomein bevat voordat u deze gebruikt met de Integratie van Azure AI Search.

Azure OpenAI Service-resources (met toegang tot insluitmodellen) die zijn gemaakt in AI Studio, worden niet ondersteund. Alleen de Azure OpenAI Service-resources die in Azure Portal zijn gemaakt, zijn compatibel met de integratie van vaardigheden voor Azure OpenAI Embedding .

Vereisten voor openbare eindpunten

Alle voorgaande resources moeten openbare toegang hebben ingeschakeld, zodat de portalknooppunten er toegang toe hebben. Anders mislukt de wizard. Nadat de wizard is uitgevoerd, kunt u firewalls en privé-eindpunten inschakelen op de integratieonderdelen voor beveiliging. Zie Beveiligde verbindingen in de wizards importeren voor meer informatie.

Als privé-eindpunten al aanwezig zijn en u deze niet kunt uitschakelen, kunt u de desbetreffende end-to-end-stroom uitvoeren vanuit een script of programma op een virtuele machine. De virtuele machine moet zich in hetzelfde virtuele netwerk bevinden als het privé-eindpunt. Hier volgt een Python-codevoorbeeld voor geïntegreerde vectorisatie. Dezelfde GitHub-opslagplaats bevat voorbeelden in andere programmeertalen.

Vereisten voor op rollen gebaseerd toegangsbeheer

We raden roltoewijzingen aan voor zoekserviceverbindingen met andere resources.

Schakel in Azure AI Search rollen in.
Configureer uw zoekservice voor het gebruik van een beheerde identiteit.
Maak op uw gegevensbronplatform en insluitmodelprovider roltoewijzingen waarmee de zoekservice toegang heeft tot gegevens en modellen. Voorbeeldgegevens voorbereiden bevat instructies voor het instellen van rollen.

Een gratis zoekservice ondersteunt RBAC op verbindingen met Azure AI Search, maar biedt geen ondersteuning voor beheerde identiteiten voor uitgaande verbindingen met Azure Storage of Azure AI Vision. Dit ondersteuningsniveau betekent dat u verificatie op basis van sleutels moet gebruiken voor verbindingen tussen een gratis zoekservice en andere Azure-services.

Voor veiligere verbindingen:

Gebruik de Basic-laag of hoger.
Configureer een beheerde identiteit en gebruik rollen voor geautoriseerde toegang.

Notitie

Als u de wizard niet kunt doorlopen omdat er geen opties beschikbaar zijn (u kunt bijvoorbeeld geen gegevensbron of een insluitmodel selecteren), gaat u opnieuw naar de roltoewijzingen. Foutberichten geven aan dat modellen of implementaties niet bestaan, wanneer in feite de echte oorzaak is dat de zoekservice geen toegang heeft tot deze modellen of implementaties.

Controleren of er voldoende ruimte is

Als u begint met de gratis service, bent u beperkt tot drie indexen, gegevensbronnen, vaardighedensets en indexeerfuncties. Basislimieten tot 15. Zorg ervoor dat er voldoende ruimte is voor extra items voordat u begint. In deze quickstart wordt een van elk object gemaakt.

Controleren op semantische rangschikking

De wizard ondersteunt semantische rangschikking, maar alleen op de Basic-laag en hoger en alleen als semantische rangschikking al is ingeschakeld in uw zoekservice. Als u een factureerbare laag gebruikt, controleert u of semantische rangschikking is ingeschakeld.

Voorbeeldgegevens voorbereiden

In deze sectie wordt u verwezen naar gegevens die geschikt zijn voor deze quickstart.

Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure Storage-account.
Selecteer Containers in het linkerdeelvenster onder Gegevensopslag.
Maak een nieuwe container en upload vervolgens de PDF-documenten van het statusplan die voor deze quickstart worden gebruikt.
Wijs in het linkerdeelvenster onder Toegangsbeheer de rol Opslagblobgegevenslezer toe aan de identiteit van de zoekservice. U kunt ook een verbindingsreeks naar het opslagaccount ophalen via de pagina Toegangssleutels.
Synchroniseer eventueel de verwijderingen in uw container met verwijderingen in de zoekindex. Met deze volgende stappen kunt u de indexeerfunctie configureren voor verwijderingsdetectie:
1. Schakel voorlopig verwijderen in voor uw opslagaccount.
2. Als u systeemeigen voorlopig verwijderen gebruikt, zijn er geen verdere stappen vereist in Azure Storage.
3. Voeg anders aangepaste metagegevens toe die een indexeerfunctie kan scannen om te bepalen welke blobs zijn gemarkeerd voor verwijdering. Geef uw aangepaste eigenschap een beschrijvende naam. U kunt bijvoorbeeld de eigenschap IsDeleted een naam geven, ingesteld op false. Doe dit voor elke blob in de container. Wanneer u de blob later wilt verwijderen, wijzigt u de eigenschap in Waar. Zie Detectie wijzigen en verwijderen bij het indexeren vanuit Azure Storage voor meer informatie

Meld u aan bij Power BI en maak een werkruimte.
Selecteer werkruimten in het linkermenu in Power BI en open de werkruimte die u hebt gemaakt.
Machtigingen toewijzen op werkruimteniveau:
1. Selecteer toegang beheren in het menu rechtsboven.
2. Selecteer Personen of groepen toevoegen.
3. Voer de naam van uw zoekservice in. Als de URL bijvoorbeeld is, is https://my-demo-service.search.windows.netmy-demo-servicede naam van de zoekservice.
4. Selecteer een rol. De standaardwaarde is Viewer, maar u hebt Inzender nodig om gegevens op te halen in een zoekindex.
Laad de voorbeeldgegevens:
1. Selecteer in de Power BI-switcher linksonder Data-engineer ing.
2. Selecteer Lakehouse in het deelvenster Data-engineer om een lakehouse te maken.
3. Geef een naam op en selecteer Vervolgens Maken om het nieuwe lakehouse te maken en te openen.
4. Selecteer Bestanden uploaden en upload vervolgens de PDF-documenten van het statusplan die voor deze quickstart worden gebruikt.
Voordat u het lakehouse verlaat, kopieert u de URL of haalt u de werkruimte- en lakehouse-id's op, zodat u het lakehouse in de wizard kunt opgeven. Voor de URL wordt de volgende notatie gebruikt: https://msit.powerbi.com/groups/00000000-0000-0000-0000-000000000000/lakehouses/11111111-1111-1111-1111-111111111111?experience=data-engineering.

Insluitmodellen instellen

De wizard kan insluitmodellen gebruiken die zijn geïmplementeerd vanuit Azure OpenAI, Azure AI Vision of vanuit de modelcatalogus in Azure AI Studio.

De wizard ondersteunt tekst-insluiten-ada-002, tekst-insluiten-3-groot en tekst-insluiten-3-klein. Intern roept de wizard de vaardigheid AzureOpenAIEmbedding aan om verbinding te maken met Azure OpenAI.

Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure OpenAI-resource.
Machtigingen instellen:
1. Selecteer Toegangsbeheer in het linkermenu.
2. Selecteer Toevoegen en selecteer vervolgens Roltoewijzing toevoegen.
3. Selecteer onder Functierollen voor De functie van Cognitive Services Cognitive Services OpenAI-gebruiker en selecteer vervolgens Volgende.
4. Selecteer onder Leden beheerde identiteit en selecteer vervolgens Leden.
5. Filter op abonnement en resourcetype (zoekservices) en selecteer vervolgens de beheerde identiteit van uw zoekservice.
6. Selecteer Controleren + toewijzen.
Selecteer op de pagina Overzicht de optie Klik hier om eindpunten weer te geven of klik hier om sleutels te beheren als u een eindpunt of API-sleutel moet kopiëren. U kunt deze waarden in de wizard plakken als u een Azure OpenAI-resource gebruikt met verificatie op basis van sleutels.
Selecteer onder Resourcebeheer- en modelimplementaties Implementaties beheren om Azure AI Studio te openen.
Kopieer de implementatienaam van text-embedding-ada-002 of een ander ondersteund insluitingsmodel. Als u geen insluitmodel hebt, implementeert u er nu een.

De wizard starten

Meld u aan bij Azure Portal met uw Azure-account en ga naar uw Azure AI-Search-service.
Selecteer gegevens importeren en vectoriseren op de pagina Overzicht.

Verbinding maken met uw gegevens

De volgende stap bestaat uit het maken van verbinding met een gegevensbron die moet worden gebruikt voor de zoekindex.

Selecteer Azure Blob Storage op de pagina Uw gegevensverbinding instellen.
Geef het Azure-abonnement op.
Kies het opslagaccount en de container die de gegevens leveren.
Geef op of u ondersteuning voor verwijderingsdetectie wilt. Bij volgende indexeringsuitvoeringen wordt de zoekindex bijgewerkt om zoekdocumenten te verwijderen op basis van voorlopig verwijderde blobs in Azure Storage.
- Blobs ondersteunen systeemeigen blob voorlopig verwijderen of voorlopig verwijderen met behulp van aangepaste gegevens.
- U moet voorlopig verwijderen eerder hebben ingeschakeld in Azure Storage en eventueel aangepaste metagegevens hebben toegevoegd die indexering kan herkennen als een verwijderingsvlag. Zie Voorbeeldgegevens voorbereiden voor meer informatie over deze stappen.
- Als u uw blobs hebt geconfigureerd voor voorlopig verwijderen met behulp van aangepaste gegevens, geeft u in deze stap het naam-waardepaar van de metagegevenseigenschap op. We raden 'IsDeleted' aan. Als 'IsDeleted' is ingesteld op true op een blob, wordt het bijbehorende zoekdocument in de volgende indexeerfunctie verwijderd.
De wizard controleert Azure Storage niet op geldige instellingen of genereert een fout als niet aan de vereisten wordt voldaan. In plaats daarvan werkt de verwijderingsdetectie niet en de zoekindex verzamelt waarschijnlijk zwevende documenten in de loop van de tijd.
Geef op of uw zoekservice verbinding moet maken met Azure Storage met behulp van de beheerde identiteit.
- U wordt gevraagd om een door het systeem beheerde of door de gebruiker beheerde identiteit te kiezen.
- De identiteit moet de rol Opslagblobgegevenslezer hebben in Azure Storage.
- Sla deze stap niet over. Er treedt een verbindingsfout op tijdens het indexeren als de wizard geen verbinding kan maken met Azure Storage.
Selecteer Volgende.

De tekst vectoriseren

In deze stap geeft u het insluitmodel op voor het vectoriseren van gesegmenteerde gegevens.

Kies op de pagina Vectorize de bron van het insluitmodel:
- Azure OpenAI
- Azure AI Studio-modelcatalogus
- Een bestaande Multimodale Azure AI Vision-resource in dezelfde regio als Azure AI Search. Als er geen Azure AI Services-account voor meerdere services in dezelfde regio is, is deze optie niet beschikbaar.
Kies het Azure-abonnement.
Maak selecties op basis van de resource:
- Kies voor Azure OpenAI een bestaande implementatie van tekst-insluiten-ada-002, tekst-insluiten-3-groot of tekst-insluiten-3-klein.
- Voor AI Studio-catalogus kiest u een bestaande implementatie van een Azure-, Cohere- en Facebook-insluitingsmodel.
- Selecteer het account voor multimodale insluitingen in AI Vision.
Zie Insluitmodellen instellen eerder in dit artikel voor meer informatie.
Geef op of uw zoekservice moet worden geverifieerd met behulp van een API-sleutel of beheerde identiteit.
- De identiteit moet een OpenAI-gebruikersrol Cognitive Services hebben voor het Azure AI-account voor meerdere services.
Schakel het selectievakje in dat de gevolgen van de facturering voor het gebruik van deze resources bevestigt.
Selecteer Volgende.

Uw afbeeldingen vectoriseren en verrijken

Als uw inhoud afbeeldingen bevat, kunt u AI op twee manieren toepassen:

Gebruik een ondersteund model voor het insluiten van afbeeldingen uit de catalogus of kies de API voor multimodale insluitingen van Azure AI Vision om afbeeldingen te vectoriseren.
Optische tekenherkenning (OCR) gebruiken om tekst in afbeeldingen te herkennen. Met deze optie wordt de OCR-vaardigheid aangeroepen om tekst uit afbeeldingen te lezen.

Azure AI Search en uw Azure AI-resource moeten zich in dezelfde regio bevinden.

Geef op de pagina Vectorize uw afbeeldingen op welk type verbinding de wizard moet maken. Voor afbeeldingsvectorisatie kan de wizard verbinding maken met het insluiten van modellen in Azure AI Studio of Azure AI Vision.
Geef het abonnement op.
Geef voor de Azure AI Studio-modelcatalogus het project en de implementatie op. Zie Insluitmodellen instellen eerder in dit artikel voor meer informatie.
U kunt desgewenst binaire afbeeldingen (bijvoorbeeld gescande documentbestanden) kraken en OCR gebruiken om tekst te herkennen.
Schakel het selectievakje in dat de gevolgen van de facturering voor het gebruik van deze resources bevestigt.
Selecteer Volgende.

Semantische rangschikking toevoegen

Op de pagina Geavanceerde instellingen kunt u desgewenst semantische rangschikking toevoegen om de resultaten aan het einde van de queryuitvoering opnieuw te rangschikkingen. Reranking bevordert de meest semantisch relevante overeenkomsten aan de bovenkant.

Nieuwe velden toewijzen

Op de pagina Geavanceerde instellingen kunt u desgewenst nieuwe velden toevoegen. De wizard genereert standaard de volgende velden met deze kenmerken:

Veld	Van toepassing op:	Beschrijving
chunk_id	Tekst- en afbeeldingsvectoren	Gegenereerd tekenreeksveld. Doorzoekbaar, ophaalbaar, sorteerbaar. Dit is de documentsleutel voor de index.
parent_id	Tekstvectoren	Gegenereerd tekenreeksveld. Ophaalbaar, filterbaar. Identificeert het bovenliggende document waaruit het segment afkomstig is.
chunk	Tekst- en afbeeldingsvectoren	Tekenreeksveld. Door mensen leesbare versie van het gegevenssegment. Doorzoekbaar en ophaalbaar, maar niet filterbaar, facetable of sorteerbaar.
title	Tekst- en afbeeldingsvectoren	Tekenreeksveld. Leesbare documenttitel of paginatitel of paginanummer. Doorzoekbaar en ophaalbaar, maar niet filterbaar, facetable of sorteerbaar.
text_vector	Tekstvectoren	Collection(Edm.single). Vectorweergave van het segment. Doorzoekbaar en ophaalbaar, maar niet filterbaar, facetable of sorteerbaar.

U kunt de gegenereerde velden of hun kenmerken niet wijzigen, maar u kunt wel nieuwe velden toevoegen als uw gegevensbron deze levert. Azure Blob Storage biedt bijvoorbeeld een verzameling metagegevensvelden.

Selecteer Nieuwe toevoegen.
Kies een bronveld in de lijst met beschikbare velden, geef een veldnaam op voor de index en accepteer zo nodig het standaardgegevenstype of de onderdrukking.

Metagegevensvelden zijn doorzoekbaar, maar kunnen niet worden opgehaald, gefilterd, facetable of sorteerbaar.
Selecteer Opnieuw instellen als u het schema wilt herstellen naar de oorspronkelijke versie.

Indexering plannen

Op de pagina Geavanceerde instellingen kunt u desgewenst een uitvoeringsschema voor de indexeerfunctie opgeven.

Selecteer Volgende wanneer u klaar bent met de pagina Geavanceerde instellingen .

De wizard voltooien

Geef op de pagina Uw configuratie controleren een voorvoegsel op voor de objecten die de wizard maakt. Een gemeenschappelijk voorvoegsel helpt u georganiseerd te blijven.
Selecteer Maken.

Wanneer de wizard de configuratie voltooit, worden de volgende objecten gemaakt:

Verbinding met gegevensbron.
Indexeren met vectorvelden, vectorizers, vectorprofielen en vectoralgoritmen. U kunt de standaardindex niet ontwerpen of wijzigen tijdens de werkstroom van de wizard. Indexen voldoen aan de REST API 2024-05-01-preview.
Vaardighedenset met de vaardigheid Tekst splitsen voor segmenteren en een insluitvaardigheid voor vectorisatie. De insluitvaardigheid is de vaardigheid AzureOpenAIEmbeddingModel voor Azure OpenAI of de AML-vaardigheid voor de Azure AI Studio-modelcatalogus. De vaardighedenset heeft ook de configuratie van indexprojecties waarmee gegevens uit één document in de gegevensbron kunnen worden toegewezen aan de bijbehorende segmenten in een onderliggende index.
Indexeerfunctie met veldtoewijzingen en uitvoerveldtoewijzingen (indien van toepassing).

Resultaten controleren

Search Explorer accepteert tekstreeksen als invoer en vectoriseert vervolgens de tekst voor het uitvoeren van vectorquery's.

Ga in Azure Portal naar Zoekbeheerindexen> en selecteer vervolgens de index die u hebt gemaakt.
Selecteer desgewenst queryopties en verberg vectorwaarden in zoekresultaten. Met deze stap kunt u uw zoekresultaten gemakkelijker lezen.
Selecteer in het menu Beeld de JSON-weergave, zodat u tekst voor uw vectorquery kunt invoeren in de text parameter vectorquery.

De wizard biedt een standaardquery die een vectorquery op het vector veld uitgeeft en de vijf dichtstbijzijnde buren retourneert. Als u ervoor hebt gekozen vectorwaarden te verbergen, bevat uw standaardquery een select instructie die het vector veld uitsluit van zoekresultaten.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
Vervang voor de text waarde het sterretje (*) door een vraag met betrekking tot gezondheidsplannen, zoals Which plan has the lowest deductible?.
Selecteer Zoeken om de query uit te voeren.

Er moeten vijf overeenkomsten worden weergegeven. Elk document is een segment van het oorspronkelijke PDF-bestand. In title het veld ziet u uit welk PDF-bestand het segment afkomstig is.

Als u alle segmenten uit een specifiek document wilt zien, voegt u een filter toe voor het title veld voor een specifiek PDF-bestand:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

Opschonen

Azure AI Search is een factureerbare resource. Als u deze niet meer nodig hebt, verwijdert u deze uit uw abonnement om kosten te voorkomen.

Volgende stap

In deze quickstart hebt u kennisgemaakt met de wizard Gegevens importeren en vectoriseren waarmee alle benodigde objecten voor geïntegreerde vectorisatie worden gemaakt. Als u elke stap in detail wilt verkennen, kunt u een geïntegreerd vectorisatievoorbeeld proberen.

Share via