Wizards importeren in Azure AI Search

Artikel
09/01/2024

Azure AI Search heeft twee wizards voor importeren waarmee indexering en objectdefinities worden geautomatiseerd, zodat u direct met query's kunt beginnen. Als u niet bekend bent met Azure AI Search, zijn deze wizards een van de krachtigste functies die u kunt gebruiken. Met minimale inspanning kunt u een indexerings- of verrijkingspijplijn maken die de meeste functionaliteit van Azure AI Search uitvoert.

De wizard Gegevens importeren ondersteunt niet-ctorwerkstromen. U kunt alfanumerieke tekst extraheren uit onbewerkte documenten. U kunt ook toegepaste AI- en ingebouwde vaardigheden configureren waarmee structuur wordt afgeleid en tekst doorzoekbare inhoud wordt gegenereerd op basis van afbeeldingsbestanden en ongestructureerde gegevens.

De wizard Gegevens importeren en vectoriseren ondersteunt vectorisatie. U moet een bestaande implementatie van een insluitmodel opgeven, maar de wizard maakt de verbinding, formuleert de aanvraag en verwerkt het antwoord. Hiermee wordt vectorinhoud gegenereerd op basis van tekst- of afbeeldingsinhoud.

Als u de wizard gebruikt voor het testen van proof-of-concept, wordt in dit artikel de interne werking van de wizards uitgelegd, zodat u deze effectiever kunt gebruiken.

Dit artikel is geen stap voor stap. Zie voor hulp bij het gebruik van de wizard met ingebouwde voorbeeldgegevens:

De wizards starten

Open in Azure Portal de zoekservicepagina vanuit het dashboard of zoek uw service in de lijst met services.
Selecteer op de pagina Overzicht van de service bovenaan Gegevens importeren of Gegevens importeren en vectoriseren.

De wizards worden volledig uitgevouwen in het browservenster, zodat u meer ruimte hebt om te werken.
Als u Gegevens importeren hebt geselecteerd, kunt u de optie Voorbeelden selecteren om een vooraf samengesteld voorbeeld van gegevens uit een ondersteunde gegevensbron te gebruiken.
Volg de resterende stappen in de wizard om de index en indexeerfunctie te maken.

U kunt ook importgegevens starten uit andere Azure-services, waaronder Azure Cosmos DB, Azure SQL Database, SQL Managed Instance en Azure Blob Storage. Zoek naar Azure AI Search toevoegen in het linkernavigatiedeelvenster op de overzichtspagina van de service.

Objecten die door de wizard zijn gemaakt

De wizard voert de objecten in de volgende tabel uit. Nadat de objecten zijn gemaakt, kunt u hun JSON-definities bekijken in de portal of ze aanroepen vanuit code.

Object	Beschrijving
Indexeerfunctie	Een configuratieobject dat een gegevensbron, doelindex, een optionele vaardighedenset, optionele planning en optionele configuratie-instellingen opgeeft voor fout-handing en base-64-codering.
Gegevensbron	Bewaart verbindingsgegevens met een ondersteunde gegevensbron in Azure. Een gegevensbronobject wordt uitsluitend gebruikt met indexeerfuncties.
Index	Fysieke gegevensstructuur die wordt gebruikt voor zoeken in volledige tekst en andere query's.
Vaardighedenset	Optioneel. Een volledige set instructies voor het bewerken, transformeren en vormgeven van inhoud, waaronder het analyseren en extraheren van informatie uit afbeeldingsbestanden. Vaardighedensets worden ook gebruikt voor geïntegreerde vectorisatie. Tenzij het werkvolume onder de limiet van 20 transacties per indexeerfunctie per dag valt, moet de vaardighedenset een verwijzing bevatten naar een Azure AI-resource voor meerdere services die verrijking biedt. Voor geïntegreerde vectorisatie kunt u Azure AI Vision of een insluitmodel gebruiken in de Azure AI Studio-modelcatalogus.
Kennisarchief	Optioneel. Slaat uitvoer op uit tabellen en blobs in Azure Storage voor onafhankelijke analyse of downstreamverwerking in scenario's zonder onderzoek.

Vergoedingen

Voordat u code schrijft, kunt u de wizards gebruiken voor prototypen en testen van proof-of-concept. De wizards maken verbinding met externe gegevensbronnen, voorbeeld van de gegevens voor het maken van een initiële index en importeren en optioneel de gegevens als JSON-documenten importeren in een index in Azure AI Search.

Als u vaardighedensets evalueert, verwerkt de wizard uitvoerveldtoewijzingen en voegt u helperfuncties toe om bruikbare objecten te maken. Tekstsplitsing wordt toegevoegd als u een parseermodus opgeeft. Tekst samenvoegen wordt toegevoegd als u afbeeldingsanalyse hebt gekozen, zodat de wizard tekstbeschrijvingen opnieuw kan combineren met afbeeldingsinhoud. Shaper-vaardigheden die zijn toegevoegd om geldige projecties te ondersteunen als u de optie voor het kennisarchief hebt gekozen. Alle bovenstaande taken hebben een leercurve. Als u geen ervaring hebt met verrijking, kunt u met de mogelijkheid om deze stappen af te handelen, de waarde van een vaardigheid meten zonder dat u veel tijd en moeite hoeft te investeren.

Steekproeven zijn het proces waarmee een indexschema wordt afgeleid en er zijn enkele beperkingen. Wanneer de gegevensbron wordt gemaakt, kiest de wizard een willekeurig voorbeeld van documenten om te bepalen welke kolommen deel uitmaken van de gegevensbron. Niet alle bestanden worden gelezen, omdat dit mogelijk uren kan duren voor zeer grote gegevensbronnen. Gezien een selectie van documenten, bronmetagegevens, zoals veldnaam of type, wordt gebruikt om een verzameling velden in een indexschema te maken. Afhankelijk van de complexiteit van brongegevens moet u mogelijk het oorspronkelijke schema bewerken voor nauwkeurigheid of deze uitbreiden voor volledigheid. U kunt uw wijzigingen inline aanbrengen op de pagina indexdefinitie.

Over het algemeen zijn de voordelen van het gebruik van de wizard duidelijk: zolang aan de vereisten wordt voldaan, kunt u binnen enkele minuten een doorzoekbare index maken. Sommige complexiteiten van het indexeren, zoals het serialiseren van gegevens als JSON-documenten, worden verwerkt door de wizard.

Beperkingen

De wizard is niet zonder beperkingen. Beperkingen worden als volgt samengevat:

De wizard biedt geen ondersteuning voor iteratie of hergebruik. Elke pass through de wizard maakt een nieuwe index, vaardighedenset en indexeerfunctieconfiguratie. Alleen gegevensbronnen kunnen worden behouden en opnieuw worden gebruikt in de wizard. Als u andere objecten wilt bewerken of verfijnen, verwijdert u de objecten en begint u opnieuw, of gebruikt u de REST API's of .NET SDK om de structuren te wijzigen.
Broninhoud moet zich in een ondersteunde gegevensbron bevinden.
Steekproeven zijn meer dan een subset van brongegevens. Voor grote gegevensbronnen is het mogelijk dat de wizard velden mist. Mogelijk moet u het schema uitbreiden of de uitgestelde gegevenstypen corrigeren als er onvoldoende steekproeven zijn.
AI-verrijking, zoals weergegeven in de portal, is beperkt tot een subset van ingebouwde vaardigheden.
Een kennisarchief, dat door de wizard kan worden gemaakt, is beperkt tot enkele standaardprojecties en maakt gebruik van een standaardnaamconventie. Als u namen of projecties wilt aanpassen, moet u het kennisarchief maken via REST API of de SDK's.

Beveiligde verbindingen

De importwizards maken uitgaande verbindingen met behulp van de portalcontroller en openbare eindpunten. U kunt de wizards niet gebruiken als Azure-resources worden geopend via een privéverbinding of via een gedeelde privékoppeling.

U kunt de wizards gebruiken via beperkte openbare verbindingen, maar niet alle functionaliteit is beschikbaar.

Voor het importeren van de ingebouwde voorbeeldgegevens in een zoekservice zijn een openbaar eindpunt en geen firewallregels vereist.

Voorbeeldgegevens worden gehost door Microsoft op specifieke Azure-resources. De portalcontroller maakt verbinding met deze resources via een openbaar eindpunt. Als u uw zoekservice achter een firewall plaatst, krijgt u deze fout wanneer u probeert de ingebouwde voorbeeldgegevens op te halen: Import configuration failed, error creating Data Source, gevolgd door "An error has occured.".
Op ondersteunde Azure-gegevensbronnen die worden beveiligd door firewalls, kunt u gegevens ophalen als u over de juiste firewallregels beschikt.

De Azure-resource moet netwerkaanvragen van het IP-adres van het apparaat dat op de verbinding wordt gebruikt, toelaten. U moet azure AI Search ook vermelden als een vertrouwde service in de netwerkconfiguratie van de resource. In Azure Storage kunt u bijvoorbeeld een lijst weergeven Microsoft.Search/searchServices als een vertrouwde service.
Bij verbindingen met een Azure AI-account voor meerdere services dat u opgeeft, of op verbindingen voor het insluiten van modellen die zijn geïmplementeerd in Azure AI Studio of Azure OpenAI, moet openbare internettoegang zijn ingeschakeld. Deze Azure-resources worden aangeroepen wanneer u ingebouwde vaardigheden gebruikt in de wizard Gegevens importeren of geïntegreerde vectorisatie in de wizard Gegevens importeren en vectoriseren .
- In de wizard Gegevens importeren en vectoriseren is de fout "Access denied due to Virtual Network/Firewall rules."
- In de wizard Gegevens importeren is er geen fout, maar de vaardighedenset wordt niet gemaakt.

Als firewallinstellingen voorkomen dat uw wizardwerkstromen slagen, kunt u in plaats daarvan een script- of programmatische benadering overwegen.

Workflow

De wizard is ingedeeld in vier hoofdstappen:

Verbinding maken met een ondersteunde Azure-gegevensbron.
Maak een indexschema, afgeleid door steekproefbrongegevens.
Voeg eventueel toegepaste AI toe om inhoud en structuur te extraheren of te genereren. In deze stap worden invoer voor het maken van een kennisarchief verzameld.
Voer de wizard uit om objecten te maken, optioneel gegevens te vectoriseren, gegevens in een index te laden, een schema en andere configuratieopties in te stellen.

De werkstroom is een pijplijn, dus op één manier. U kunt de wizard niet gebruiken om een van de gemaakte objecten te bewerken, maar u kunt andere portalhulpprogramma's gebruiken, zoals de index- of indexeerfunctieontwerper of de JSON-editors, voor toegestane updates.

Configuratie van gegevensbron in de wizard

De wizards maken verbinding met een externe ondersteunde gegevensbron met behulp van de interne logica van Azure AI Search-indexeerfuncties, die zijn uitgerust om de bron te samplen, metagegevens te lezen, documenten te kraken om inhoud en structuur te lezen en inhoud te serialiseren als JSON voor volgende import naar Azure AI Search.

U kunt een verbinding met een ondersteunde gegevensbron in een ander abonnement of een andere regio plakken, maar de optie Een bestaande verbindingskiezer kiezen is gericht op het actieve abonnement.

Niet alle voorbeeldgegevensbronnen zijn gegarandeerd beschikbaar in de wizard. Omdat elke gegevensbron de mogelijkheid heeft om andere wijzigingen downstream in te voeren, wordt een voorbeeldgegevensbron alleen toegevoegd aan de lijst met gegevensbronnen als deze volledig ondersteuning biedt voor alle ervaringen in de wizard, zoals definitie van vaardighedenset en indexschemadeductie.

U kunt alleen importeren uit één tabel, databaseweergave of equivalente gegevensstructuur, maar de structuur kan hiërarchische of geneste substructuren bevatten. Zie Complexe typen modelleren voor meer informatie.

Vaardighedensetconfiguratie in de wizard

De configuratie van de vaardighedenset vindt plaats na de definitie van de gegevensbron omdat het type gegevensbron de beschikbaarheid van bepaalde ingebouwde vaardigheden informeert. Met name als u bestanden indexeert uit Blob Storage, bepaalt uw keuze uit de parseringsmodus van deze bestanden of sentimentanalyse beschikbaar is.

De wizard voegt de vaardigheden toe die u kiest. Het voegt ook andere vaardigheden toe die nodig zijn voor het bereiken van een succesvol resultaat. Als u bijvoorbeeld een kennisarchief opgeeft, voegt de wizard een Shaper-vaardigheid toe om projecties (of fysieke gegevensstructuren) te ondersteunen.

Vaardighedensets zijn optioneel en er is een knop onder aan de pagina om verder te gaan als u geen AI-verrijking wilt.

Indexschemaconfiguratie in de wizard

De wizards voorbeeld van uw gegevensbron om de velden en het veldtype te detecteren. Afhankelijk van de gegevensbron kan het ook velden bieden voor het indexeren van metagegevens.

Omdat steekproeven een onnauwkeurig oefening zijn, bekijkt u de index voor de volgende overwegingen:

Is de lijst met velden nauwkeurig? Als uw gegevensbron velden bevat die niet zijn opgehaald in steekproeven, kunt u handmatig nieuwe velden toevoegen die een steekproef hebben gemist en die geen waarde toevoegen aan een zoekervaring of die niet worden gebruikt in een filterexpressie of scoreprofiel.
Is het gegevenstype geschikt voor de binnenkomende gegevens? Azure AI Search ondersteunt de gegevenstypen van het entiteitsgegevensmodel (EDM). Voor Azure SQL-gegevens is er een toewijzingsgrafiek waarin equivalente waarden worden vastgelegd. Zie Veldtoewijzingen en -transformaties voor meer achtergrondinformatie.
Hebt u één veld dat als sleutel kan fungeren? Dit veld moet Edm.string zijn en moet een document uniek identificeren. Voor relationele gegevens kan deze worden toegewezen aan een primaire sleutel. Voor blobs kan het de metadata-storage-path. Als veldwaarden spaties of streepjes bevatten, moet u de optie Base-64-coderingssleutel instellen in de stap Indexeerfunctie maken onder Geavanceerde opties om de validatiecontrole voor deze tekens te onderdrukken.
Stel kenmerken in om te bepalen hoe dat veld wordt gebruikt in een index.

Neem uw tijd met deze stap omdat kenmerken de fysieke expressie van velden in de index bepalen. Als u later kenmerken wilt wijzigen, zelfs programmatisch, moet u de index bijna altijd verwijderen en opnieuw opbouwen. Kernkenmerken zoals Doorzoekbaar en Ophaalbaar hebben een te verwaarlozen invloed op de opslag. Het inschakelen van filters en het gebruik van suggesties verhogen de opslagvereisten.
- Doorzoekbaar maakt zoeken in volledige tekst mogelijk. Elk veld dat wordt gebruikt in vrije formulierquery's of in query-expressies, moet dit kenmerk hebben. Omgekeerde indexen worden gemaakt voor elk veld dat u als doorzoekbaar markeert.
- Ophalen mogelijk retourneert het veld in zoekresultaten. Elk veld dat inhoud aan zoekresultaten levert, moet dit kenmerk hebben. Het instellen van dit veld heeft geen invloed op de indexgrootte.
- Met Filterbaar kan naar het veld worden verwezen in filterexpressies. Elk veld dat in een $filter expressie wordt gebruikt, moet dit kenmerk hebben. Filterexpressies zijn bedoeld voor exacte overeenkomsten. Omdat teksttekenreeksen intact blijven, is er meer opslagruimte vereist voor de exacte inhoud.
- Facetable maakt het veld mogelijk voor facetnavigatie. Alleen velden die als filterbaar zijn gemarkeerd, kunnen worden gemarkeerd als Facetable.
- Sorteerbaar maakt het mogelijk dat het veld in een sortering wordt gebruikt. Elk veld dat in een $Orderby expressie wordt gebruikt, moet dit kenmerk hebben.
Hebt u lexicale analyse nodig? Voor Edm.string-velden die doorzoekbaar zijn, kunt u een Analyzer instellen als u taalverbreeding en query's wilt uitvoeren.

De standaardwaarde is Standard Lucene, maar u kunt Microsoft Engels kiezen als u De analyse van Microsoft wilt gebruiken voor geavanceerde lexicale verwerking, zoals het oplossen van onregelmatige zelfstandig naamwoorden en werkwoordvormen. Alleen taalanalyses kunnen worden opgegeven in de portal. Als u een aangepaste analyse of een niet-taalanalyse zoals Trefwoord, Patroon enzovoort gebruikt, moet u deze programmatisch maken. Zie Taalanalyses toevoegen voor meer informatie over analyse.
Hebt u typeaheadfunctionaliteit nodig in de vorm van automatisch aanvullen of voorgestelde resultaten? Schakel het selectievakje Suggestie in om suggesties voor typeaheadquery's in te schakelen en automatisch aan te vullen voor geselecteerde velden. Suggesties voegen toe aan het aantal tokenized termen in uw index en verbruiken dus meer opslagruimte.

Configuratie van indexeerfunctie in de wizard

De laatste pagina van de wizard verzamelt gebruikersinvoer voor de configuratie van de indexeerfunctie. U kunt een planning opgeven en andere opties instellen die variëren per gegevensbrontype.

Intern stelt de wizard ook de volgende definities in, die pas zichtbaar zijn in de indexeerfunctie nadat deze is gemaakt:

veldtoewijzingen tussen de gegevensbron en index
uitvoerveldtoewijzingen tussen vaardigheidsuitvoer en een index

Volgende stappen

De beste manier om de voordelen en beperkingen van de wizard te begrijpen, is door deze te doorlopen. Hier volgt een quickstart met uitleg over elke stap.

Quickstart: Een zoekindex maken met behulp van Azure Portal

Delen via