Snabbstart: Skapa en Azure Cognitive Search kompetensuppsättning i Azure Portal

I den här snabbstarten får du lära dig hur AI-berikande i Azure Cognitive Search lägger till optisk teckenläsning (OCR), bildanalys, språkidentifiering, textöversättning och entitetsigenkänning för att skapa textsökbart innehåll i ett sökindex.

Du kör guiden Importera data i Azure Portal för att tillämpa kunskaper som transformerar och berikar innehåll under indexeringen. Utdata är ett sökbart index som innehåller AI-genererad bildtext, bildtexter och entiteter. Berikat innehåll kan efterfrågas i portalen med hjälp av Sökutforskaren.

Du förbereder genom att skapa några resurser och ladda upp exempelfiler innan du kör guiden.

Förutsättningar

Innan du börjar måste du ha följande förutsättningar på plats:

Anteckning

Den här snabbstarten använder Cognitive Services för AI. Eftersom arbetsbelastningen är så liten, knackas Cognitive Services i bakgrunden för kostnadsfri bearbetning för upp till 20 transaktioner. Du kan slutföra den här övningen utan att behöva skapa en Cognitive Services-resurs.

Konfigurera dina data

I följande steg konfigurerar du en blobcontainer i Azure Storage för att lagra heterogena innehållsfiler.

  1. Ladda ned exempeldata som består av en liten filuppsättning med olika typer av data. Packa upp filerna.

  2. Logga in på Azure-portalen med ditt Azure-konto.

  3. Skapa ett Azure Storage-konto eller hitta ett befintligt konto.

    • Välj samma region som Azure Cognitive Search för att undvika bandbreddsavgifter.

    • Välj StorageV2 (generell användning V2).

  4. I Azure Portal öppnar du din Azure Storage-sida och skapar en container. Du kan använda standardnivån för offentlig åtkomst.

  5. I Container väljer du Ladda upp för att ladda upp exempelfilerna som du laddade ned i det första steget. Observera att du har en mängd olika innehållstyper, inklusive bilder och programfiler som inte kan sökas i fulltext i sina interna format.

    Skärmbild av källfiler i Azure Blob Storage.

Nu är du redo att gå vidare med guiden Importera data.

Kör guiden Importera data

  1. Logga in på Azure-portalen med ditt Azure-konto.

  2. Leta upp söktjänsten och välj Importera data i kommandofältet på sidan Översikt för att konfigurera kognitiv berikning i fyra steg.

    Skärmbild av kommandot Importera data.

Steg 1 – Skapa en datakälla

  1. I Anslut till dina data väljer du Azure Blob Storage.

  2. Välj en befintlig anslutning till lagringskontot och välj den container som du skapade. Namnge datakällan och lämna standardvärdena för resten av inställningarna.

    Skärmbild av definitionssidan för datakällan.

    Fortsätt till nästa sida.

Steg 2 – Lägga till kognitiva färdigheter

Konfigurera sedan AI-berikning för att anropa OCR, bildanalys och bearbetning av naturligt språk.

  1. I den här snabbstarten använder vi den kostnadsfria Cognitive Services-resursen. Exempeldata består av 14 filer, så den kostnadsfria tilldelningen av 20 transaktioner på Cognitive Services räcker för den här snabbstarten.

    Skärmbild av fliken Bifoga Cognitive Services.

  2. Expandera Lägg till berikanden och gör sex val.

    Aktivera OCR för att lägga till bildanalyskunskaper på guidesidan.

    Välj entitetsigenkänning (personer, organisationer, platser) och kunskaper i bildanalys (taggar, undertexter).

    Skärmbild av definitionssidan för kompetensuppsättningen.

    Fortsätt till nästa sida.

Steg 3 – Konfigurera indexet

Ett index innehåller ditt sökbara innehåll och guiden Importera data kan vanligtvis skapa schemat åt dig genom att sampling av datakällan. I det här steget granskar du det genererade schemat och ändrar eventuellt eventuella inställningar. Nedan visas standardschemat som skapats för demo-blobdatauppsättningen.

I den här snabbstarten passar guidens standardinställningar bra:

  • Standardfält baseras på metadataegenskaper för befintliga blobar, plus de nya fälten för berikningsutdata (till exempel people, organizations, locations). Datatyper härleds från metadata och av datasampling.

  • Standarddokumentnyckeln är metadata_storage_path (markerad eftersom fältet innehåller unika värden).

  • Standardattributen är Hämtningsbara och Sökbara. Sökbar tillåter fulltextsökning i ett fält. Hämtningsbar innebär att fältvärden kan returneras i resultat. Guiden förutsätter att du vill att dessa fält ska vara hämtningsbara och sökbara, eftersom du har skapat dem via en kompetensuppsättning. Välj Filterable om du vill använda fält i ett filteruttryck.

    Skärmbild av sidan för indexdefinition.

Att markera ett fält som Hämtningsbart innebär inte att fältet måste finnas i sökresultaten. Du kan styra sökresultatets sammansättning med hjälp av frågeparametern $select för att ange vilka fält som ska inkluderas.

Fortsätt till nästa sida.

Steg 4 – Konfigurera indexeraren

Indexeraren styr indexeringsprocessen. Indexeraren definierar datakällans namn, ett målindex och körningsfrekvensen. Guiden Importera data skapar flera objekt, inklusive en indexerare som du kan återställa och köra upprepade gånger.

  1. På sidan Indexerare kan du acceptera standardnamnet och välja En gång för att köra det omedelbart.

    Skärmbild av sidan för indexeringsdefinition.

  2. Välj Skicka för att skapa och samtidigt köra indexeraren.

Övervakningsstatus

Indexering av kognitiva färdigheter tar längre tid att slutföra än vanlig textbaserad indexering, särskilt OCR och bildanalys. Om du vill övervaka förloppet går du till sidan Översikt och väljer Indexerare mitt på sidan.

Skärmbild av indexeringsstatussidan.

Om du vill kontrollera information om körningsstatus väljer du en indexerare i listan och väljer sedan Lyckades (eller Misslyckades) för att visa körningsinformation.

I den här demonstrationen finns det en varning: "Det gick inte att köra färdighet eftersom en eller flera indata för färdigheten var ogiltiga." Den anger att en PNG-fil i datakällan inte ger någon textinmatning till Entitetsigenkänning. Den här varningen beror på att den överordnade OCR-färdigheten inte kände igen någon text i bilden och därför inte kunde ge någon textinmatning till den underordnade entitetsigenkänningsfärdigheten.

Varningar är vanliga vid körning av kompetensuppsättningar. När du bekantar dig med hur kunskaper itererar över dina data börjar du märka mönster och lära dig vilka varningar som är säkra att ignorera.

Fråga i Sökutforskaren

När ett index har skapats kör du frågor i Sökutforskaren för att returnera resultat.

  1. På instrumentpanelen för söktjänsten väljer du Sökutforskaren i kommandofältet.

  2. Välj Ändra index längst upp och välj det index som du skapade.

  3. Ange en söksträng för att fråga indexet, till exempel search=Satya Nadella&$select=people,organizations,locations&$count=true.

Resultaten returneras som utförlig JSON, vilket kan vara svårt att läsa, särskilt i stora dokument. Några tips för att söka i det här verktyget är följande tekniker:

  • $select Lägg till för att begränsa fälten som returneras i resultat.
  • Använd CTRL-F för att söka i JSON efter specifika egenskaper eller termer.

Frågesträngar är skiftlägeskänsliga, så om du får meddelandet "okänt fält" kontrollerar du namn och skiftläge genom att markera Fält eller Indexdefinition (JSON).

Skärmbild av sidan Sökutforskaren.

Lärdomar

Nu har du skapat din första kompetensuppsättning och lärt dig viktiga begrepp som är användbara för prototyper av en berikad söklösning med dina egna data.

Bland de viktigaste lärdomarna som vi hoppas att du tar med dig är beroendet av Azure-datakällor. En kompetensuppsättning är bunden till en indexerare och indexerare är Azure och källspecifika. Även om den här snabbstarten använder Azure Blob Storage är andra Azure-datakällor möjliga. Mer information finns i Indexerare i Azure Cognitive Search.

Ett annat viktigt begrepp är att färdigheter fungerar över innehållstyper, och när du arbetar med heterogent innehåll hoppas vissa indata över. Dessutom kan stora filer eller fält överskrida indexeringsgränserna för din tjänstnivå. Det är normalt att se varningar när dessa händelser inträffar.

Utdata dirigeras till ett sökindex och det finns en mappning mellan namn/värde-par som skapats under indexering och enskilda fält i ditt index. Internt konfigurerar portalen anteckningar och definierar en kunskapsuppsättning, som definierar ordningen på åtgärder och det allmänna flödet. Dessa steg är dolda på portalen, men när du börjar skriva kod blir dessa begrepp viktiga.

Slutligen lärde du dig att verifiera innehåll genom att fråga indexet. I slutändan är det Azure Cognitive Search ett sökbart index som du kan köra frågor mot med hjälp av antingen den enkla eller fullständigt utökade frågesyntaxen. Ett index som innehåller berikade fält är precis som andra fält. Om du vill inkludera standardanalysverktyg eller anpassade analysverktyg, bedömningsprofiler, synonymer, aspektbaserad navigering, geo-sökning eller någon annan Azure Cognitive Search funktion kan du verkligen göra det.

Rensa resurser

När du arbetar i din egen prenumeration kan det dock vara klokt att i slutet av ett projekt kontrollera om du fortfarande behöver de resurser som du skapade. Resurser som fortsätter att köras kostar pengar. Du kan ta bort resurser individuellt eller ta bort resursgruppen om du vill ta bort hela uppsättningen resurser.

Du kan hitta och hantera resurser i portalen med hjälp av länken Alla resurser eller Resursgrupper i det vänstra navigeringsfönstret.

Kom ihåg att du är begränsad till tre index, indexerare och datakällor om du använder en kostnadsfri tjänst. Du kan ta bort enskilda objekt i portalen för att hålla dig under gränsen.

Nästa steg

Du kan skapa kompetensuppsättningar med hjälp av portalen, .NET SDK eller REST API. Om du vill veta mer kan du prova REST-API:et med Postman och fler exempeldata.