Guiden Importera data i Azure AI Search

Guiden Importera data i Azure-portalen skapar flera objekt som används för indexering och AI-berikning i en söktjänst. Om du inte har använt Azure AI Search tidigare är det en av de mest kraftfulla funktionerna som du har tillgång till. Med minimal ansträngning kan du skapa en indexerings- eller berikningspipeline som använder de flesta funktionerna i Azure AI Search.

Om du använder guiden för test av konceptbevis förklarar den här artikeln de interna funktionerna i guiden så att du kan använda den mer effektivt.

Den här artikeln är inte ett steg för steg. Hjälp med att använda guiden med inbyggda exempeldata finns i Snabbstart: Skapa ett sökindex eller snabbstart: Skapa en textöversättning och entitetskunskaper.

Starta guiden

I Azure-portalen öppnar du söktjänstsidan från instrumentpanelen eller hittar din tjänst i tjänstlistan. På sidan Tjänstöversikt överst väljer du Importera data.

Screenshot of the Import data command

Guiden öppnas helt expanderad i webbläsarfönstret så att du har mer utrymme att arbeta.

Du kan också starta Importera data från andra Azure-tjänster, inklusive Azure Cosmos DB, Azure SQL Database, SQL Managed Instance och Azure Blob Storage. Leta efter Lägg till Azure AI Search i det vänstra navigeringsfönstret på översiktssidan för tjänsten.

Objekt som skapats av guiden

Guiden matar ut objekten i följande tabell. När objekten har skapats kan du granska deras JSON-definitioner i portalen eller anropa dem från kod.

Objekt beskrivning
Indexerare Ett konfigurationsobjekt som anger en datakälla, ett målindex, en valfri kompetensuppsättning, valfritt schema och valfria konfigurationsinställningar för felhantering och base-64-kodning.
Datakälla Bevarar anslutningsinformation till en datakälla som stöds i Azure. Ett datakällans objekt används uteslutande med indexerare.
Index Fysisk datastruktur som används för fulltextsökning och andra frågor.
Skillset Valfritt. En fullständig uppsättning instruktioner för att manipulera, transformera och forma innehåll, inklusive analys och extrahering av information från bildfiler. Om inte arbetsvolymen ligger under gränsen på 20 transaktioner per indexerare per dag måste kompetensuppsättningen innehålla en referens till en Azure AI-resurs med flera tjänster som ger berikande.
Kunskapslager Valfritt. Lagrar utdata från en AI-berikningspipeline i tabeller och blobar i Azure Storage för oberoende analys eller nedströmsbearbetning.

Fördelar och begränsningar

Innan du skriver någon kod kan du använda guiden för prototyper och test av konceptbevis. Guiden ansluter till externa datakällor, exempel på data för att skapa ett första index och importerar sedan data som JSON-dokument till ett index i Azure AI Search.

Om du utvärderar kompetensuppsättningar hanterar guiden alla utdatafältmappningar och lägger till hjälpfunktioner för att skapa användbara objekt. Textdelning läggs till om du anger ett parsningsläge. Textsammanslagning läggs till om du väljer bildanalys så att guiden kan återförena textbeskrivningar med bildinnehåll. Shaper-kunskaper har lagts till för att stödja giltiga projektioner om du väljer alternativet kunskapslager. Alla ovanstående uppgifter har en inlärningskurva. Om du är nybörjare på berikning kan du mäta värdet för en färdighet utan att behöva investera mycket tid och ansträngning för att kunna hantera de här stegen.

Sampling är den process genom vilken ett indexschema härleds och har vissa begränsningar. När datakällan skapas väljer guiden ett slumpmässigt urval av dokument för att avgöra vilka kolumner som är en del av datakällan. Alla filer läss inte eftersom det kan ta timmar för mycket stora datakällor. Med tanke på ett urval av dokument används källmetadata, till exempel fältnamn eller typ, för att skapa en fältsamling i ett indexschema. Beroende på komplexiteten i källdata kan du behöva redigera det ursprungliga schemat för noggrannhet eller utöka det för fullständighet. Du kan göra dina ändringar infogade på indexdefinitionssidan.

Överlag är fördelarna med att använda guiden tydliga: så länge kraven uppfylls kan du skapa en prototyp för ett frågebart index inom några minuter. Vissa av komplexiteterna i indexering, till exempel serialisering av data som JSON-dokument, hanteras av guiden.

Guiden är inte utan begränsningar. Begränsningar sammanfattas på följande sätt:

  • Guiden stöder inte iteration eller återanvändning. Varje pass genom guiden skapar ett nytt index, en ny kompetensuppsättning och en indexerare. Endast datakällor kan sparas och återanvändas i guiden. Om du vill redigera eller förfina andra objekt tar du antingen bort objekten och börjar om eller använder REST-API:erna eller .NET SDK för att ändra strukturerna.

  • Källinnehållet måste finnas i en datakälla som stöds.

  • Sampling är över en delmängd av källdata. För stora datakällor är det möjligt att guiden missar fält. Du kan behöva utöka schemat eller korrigera de härledda datatyperna om samplingen är otillräcklig.

  • AI-berikande, som exponeras i portalen, är begränsat till en delmängd av inbyggda färdigheter.

  • Ett kunskapslager, som kan skapas av guiden, är begränsat till några standardprojektioner och använder en standardnamngivningskonvention. Om du vill anpassa namn eller projektioner måste du skapa kunskapsarkivet via REST API eller SDK:erna.

  • Offentlig åtkomst till alla nätverk måste vara aktiverad på den datakälla som stöds medan guiden används, eftersom portalen inte kommer att kunna komma åt datakällan under installationen om offentlig åtkomst är inaktiverad. Det innebär att om datakällan har en brandvägg aktiverad eller om du har angett en delad privat länk måste du inaktivera dem, köra guiden Importera data och sedan aktivera den när guiden har konfigurerats. Om det här inte är ett alternativ kan du skapa Azure AI Search-datakälla, indexerare, kompetensuppsättning och index via REST API eller SDK:erna.

Arbetsflöde

Guiden är uppdelad i fyra huvudsteg:

  1. Anslut till en Azure-datakälla som stöds.

  2. Skapa ett indexschema som härleds av sampling av källdata.

  3. Du kan också lägga till AI-berikanden för att extrahera eller generera innehåll och struktur. Indata för att skapa ett kunskapslager samlas in i det här steget.

  4. Kör guiden för att skapa objekt, läsa in data, ange ett schema och andra konfigurationsalternativ.

Arbetsflödet är en pipeline, så det är ett sätt. Du kan inte använda guiden för att redigera något av de objekt som har skapats, men du kan använda andra portalverktyg, till exempel index- eller indexerarens designer eller JSON-redigerare, för tillåtna uppdateringar.

Konfiguration av datakälla i guiden

Guiden Importera data ansluter till en extern datakälla som stöds med hjälp av den interna logik som tillhandahålls av Azure AI Search-indexerare, som är utrustade för att sampla källan, läsa metadata, knäcka dokument för att läsa innehåll och struktur och serialisera innehåll som JSON för efterföljande import till Azure AI Search.

Du kan klistra in en anslutning till en datakälla som stöds i en annan prenumeration eller region, men Välj en befintlig anslutningsväljare är begränsad till den aktiva prenumerationen.

Screenshot of the Connect to your data tab.

Alla förhandsgranskningsdatakällor är inte garanterade tillgängliga i guiden. Eftersom varje datakälla har potential att införa andra ändringar nedströms läggs en datakälla för förhandsversion bara till i listan över datakällor om den har fullt stöd för alla funktioner i guiden, till exempel definition av kompetensuppsättningar och indexschemainferens.

Du kan bara importera från en enskild tabell, databasvy eller motsvarande datastruktur, men strukturen kan innehålla hierarkiska eller kapslade understrukturer. Mer information finns i Så här modellerar du komplexa typer.

Konfiguration av kompetensuppsättning i guiden

Konfigurationen av kompetensuppsättningen sker efter datakällans definition eftersom typen av datakälla informerar om tillgängligheten för vissa inbyggda kunskaper. Om du indexerar filer från Blob Storage avgör ditt val av parsningsläge för dessa filer om attitydanalys är tillgängligt.

Guiden lägger till de färdigheter du väljer, men den lägger även till andra färdigheter som är nödvändiga för att uppnå ett lyckat resultat. Om du till exempel anger ett kunskapslager lägger guiden till en Shaper-färdighet för att stödja projektioner (eller fysiska datastrukturer).

Kompetensuppsättningar är valfria och det finns en knapp längst ned på sidan för att hoppa framåt om du inte vill ha AI-berikning.

Indexschemakonfiguration i guiden

Guiden exempel på datakällan för att identifiera fält och fälttyp. Beroende på datakällan kan den även erbjuda fält för indexering av metadata.

Eftersom sampling är en oprecis övning bör du granska indexet för följande överväganden:

  1. Stämmer fältlistan? Om datakällan innehåller fält som inte har hämtats i samplingen kan du manuellt lägga till nya fält som samplingen missade och ta bort alla fält som inte lägger till värde i en sökupplevelse eller som inte används i ett filteruttryck eller en bedömningsprofil.

  2. Är datatypen lämplig för inkommande data? Azure AI Search stöder datatyperna entitetsdatamodell (EDM). För Azure SQL-data finns det ett mappningsdiagram som beskriver motsvarande värden. Mer bakgrund finns i Fältmappningar och transformeringar.

  3. Har du ett fält som kan fungera som nyckel? Det här fältet måste vara Edm.string och det måste unikt identifiera ett dokument. För relationsdata kan den mappas till en primärnyckel. För blobar kan det vara metadata-storage-path. Om fältvärden innehåller blanksteg eller bindestreck måste du ange alternativet Base-64 Encode Key i steget Skapa en indexerare under Avancerade alternativ för att förhindra verifieringskontrollen för dessa tecken.

  4. Ange attribut för att avgöra hur fältet används i ett index.

    Ta dig tid med det här steget eftersom attribut avgör det fysiska uttrycket för fält i indexet. Om du vill ändra attribut senare, även programmatiskt, behöver du nästan alltid släppa och återskapa indexet. Grundläggande attribut som Sökbar och Hämtningsbar har en försumbar inverkan på lagringen. Genom att aktivera filter och använda förslagsgivare ökar lagringskraven.

    • Sökbar aktiverar fulltextsökning. Varje fält som används i frågor i fritt format eller i frågeuttryck måste ha det här attributet. Inverterade index skapas för varje fält som du markerar som Sökbara.

    • Hämtningsbar returnerar fältet i sökresultat. Varje fält som innehåller innehåll för sökresultat måste ha det här attributet. Om du anger det här fältet påverkas inte indexstorleken märkbart.

    • Filterable gör att fältet kan refereras till i filteruttryck. Varje fält som används i ett $filter uttryck måste ha det här attributet. Filteruttryck är för exakta matchningar. Eftersom textsträngarna förblir intakta krävs mer lagringsutrymme för att hantera det ordagranna innehållet.

    • Facetable aktiverar fältet för fasetterad navigering. Endast fält som också är markerade som Filterable kan markeras som Facetable.

    • Sortable tillåter att fältet används i en sortering. Varje fält som används i ett $Orderby uttryck måste ha det här attributet.

  5. Behöver du lexikal analys? För Edm.string-fält som är sökbara kan du ange en Analyzer om du vill ha språkförstärkt indexering och frågor.

    Standardvärdet är Standard Lucene , men du kan välja Microsoft English om du vill använda Microsofts analysverktyg för avancerad lexikal bearbetning, till exempel för att lösa oregelbundna substantiv och verbformer. Endast språkanalysverktyg kan anges i portalen. Användning av en anpassad analysator eller ett icke-språkanalysverktyg som Nyckelord, Mönster och så vidare måste göras programmatiskt. Mer information om analysverktyg finns i Lägga till språkanalysverktyg.

  6. Behöver du typeahead-funktioner i form av automatisk komplettering eller föreslagna resultat? Markera kryssrutan Föreslå för att aktivera typeahead-frågeförslag och komplettera automatiskt i markerade fält. Förslagsgivare lägger till antalet tokeniserade termer i ditt index och förbrukar därmed mer lagringsutrymme.

Indexerarens konfiguration i guiden

Den sista sidan i guiden samlar in användarindata för indexerarens konfiguration. Du kan ange ett schema och ange andra alternativ som varierar beroende på datakällans typ.

Internt konfigurerar guiden även följande definitioner, som inte visas i indexeraren förrän den har skapats:

Nästa steg

Det bästa sättet att förstå fördelarna och begränsningarna i guiden är att gå igenom det. I följande snabbstart förklaras varje steg.