Analysverktyg för textbearbetning i Azure AI Search

Artikel
2025-01-16

En analysverktyg är en komponent i sökmotorn i fulltext som ansvarar för bearbetning av strängar under indexering och frågekörning. Textbearbetning (kallas även lexikal analys) är transformerande och ändrar en sträng genom åtgärder som dessa:

Ta bort icke-väsentliga ord (stoppord) och skiljetecken
Dela upp fraser och avstavade ord i komponentdelar
Gemener eller versaler
Minska ord till primitiva rotformer för lagringseffektivitet och så att matchningar kan hittas oavsett tempus

Utdata från en lexikal analys är en sekvens med token.

Lexikal analys gäller för Edm.String fält som är markerade som "sökbara", vilket indikerar fulltextsökning. För fält i den här konfigurationen sker analys under indexering när token skapas och sedan igen under frågekörningen när frågor parsas och motorn söker efter matchande token. Det är mer troligt att en matchning inträffar när samma analysverktyg används för både indexering och frågor, men du kan ange analysatorn för varje arbetsbelastning oberoende av dina behov.

Frågetyper som inte är fulltextsökning, till exempel filter eller fuzzy-sökning, går inte igenom analysfasen på frågesidan. I stället skickar parsern dessa strängar direkt till sökmotorn med hjälp av det mönster som du anger som grund för matchningen. Dessa frågeformulär kräver vanligtvis helsträngstoken för att mönstermatchning ska fungera. För att säkerställa att hela termtoken bevaras under indexeringen kan du behöva anpassade analysverktyg. Mer information om när och varför frågetermer analyseras finns i Fulltextsökning i Azure AI Search.

Om du vill ha mer bakgrund om lexikal analys kan du lyssna på följande videoklipp för en kort förklaring.

Standardanalys

I Azure AI Search anropas en analysator automatiskt på alla strängfält som markerats som sökbara.

Som standard använder Azure AI Search Apache Lucene Standard-analysatorn (standard lucene), som delar upp text i element som följer reglerna för "Unicode-textsegmentering" . Standardanalysatorn konverterar alla tecken till deras gemener. Både indexerade dokument och söktermer går igenom analysen under indexering och frågebearbetning.

Du kan åsidosätta standardinställningen fält för fält. Alternativa analysverktyg är:

language analyzer för språkbearbetning
anpassad analysverktyg för anpassade konfigurationer
inbyggda analysverktyg för användning i sig

Typer av analysverktyg

I följande lista beskrivs vilka analysverktyg som är tillgängliga i Azure AI Search.

Kategori	beskrivning
Standard Lucene analyzer	Standard. Ingen specifikation eller konfiguration krävs. Den här general-purpose analyzer fungerar bra för många språk och scenarier.
Inbyggda analysverktyg	Förbrukas som den är och refereras med namn. Det finns två typer: språk och språkagnostisk. Specialiserade (språkagnostiska) analysverktyg används när textindata kräver specialiserad bearbetning eller minimal bearbetning. Exempel på analysverktyg i den här kategorin är Asciifolding, Keyword, Pattern, Simple, Stop, Whitespace. Språkanalysverktyg används när du behöver omfattande språkstöd för enskilda språk. Azure AI Search har stöd för 35 lucene-språkanalyserare och 50 analysverktyg för bearbetning av naturligt språk från Microsoft.
Anpassade analysverktyg	Refererar till en användardefinierad konfiguration av en kombination av befintliga element, som består av en tokenizer (krävs) och valfria filter (tecken eller token).

Några inbyggda analysverktyg, till exempel Mönster eller Stopp, stöder en begränsad uppsättning konfigurationsalternativ. Om du vill ange de här alternativen skapar du en anpassad analysator som består av den inbyggda analysatorn och ett av de alternativ som beskrivs i inbyggda analysverktyg. Precis som med alla anpassade konfigurationer anger du den nya konfigurationen med ett namn, till exempel myPatternAnalyzer för att skilja den från Lucene Pattern-analysatorn.

Ange analysverktyg

Det är valfritt att ange en analysator. Som en allmän regel kan du prova att använda standardstandarden Lucene analyzer först för att se hur den fungerar. Om frågor inte returnerar det förväntade resultatet är det ofta rätt lösning att växla till en annan analysator.

Om du använder en anpassad analysator lägger du till den i sökindexet under avsnittet "analyzer". Mer information finns i Skapa index och även Lägg till anpassade analysverktyg.
När du definierar ett fält anger du egenskapen "analyzer" till något av följande: en inbyggd analysator , till exempel nyckelord, ett språkanalysverktyg som en.microsoft, eller en anpassad analysator (definierad i samma indexschema).

JSON
```
  "fields": [
 {
   "name": "Description",
   "type": "Edm.String",
   "retrievable": true,
   "searchable": true,
   "analyzer": "en.microsoft",
   "indexAnalyzer": null,
   "searchAnalyzer": null
 },
```
Om du använder en språkanalys måste du använda egenskapen "analyzer" för att ange den. Egenskaperna "searchAnalyzer" och "indexAnalyzer" gäller inte för språkanalysverktyg.
Du kan också ange "indexAnalyzer" och "searchAnalyzer" för att variera analysatorn för varje arbetsbelastning. Dessa egenskaper fungerar tillsammans som en ersättning för egenskapen "analyzer", som måste vara null. Du kan använda olika analysverktyg för indexering och frågor om en av dessa aktiviteter kräver en specifik transformering som inte behövs av den andra.

JSON
```
  "fields": [
 {
   "name": "ProductGroup",
   "type": "Edm.String",
   "retrievable": true,
   "searchable": true,
   "analyzer": null,
   "indexAnalyzer": "keyword",
   "searchAnalyzer": "standard"
 },
```

När du ska lägga till analysverktyg

Den bästa tiden att lägga till och tilldela analysverktyg är under aktiv utveckling, när det är rutin att släppa och återskapa index.

Eftersom analysverktyg används för att tokenisera termer bör du tilldela en analysator när fältet skapas. Faktum är att det inte är tillåtet att tilldela en analysator eller indexAnalyzer till ett fält som redan har skapats fysiskt (även om du kan ändra egenskapen searchAnalyzer när som helst utan att indexet påverkas).

Om du vill ändra analysatorn för ett befintligt fält måste du släppa och återskapa hela indexet (du kan inte återskapa enskilda fält). För index i produktion kan du skjuta upp en ombyggnad genom att skapa ett nytt fält med den nya analystilldelningen och börja använda den i stället för den gamla. Använd Uppdateringsindex för att införliva det nya fältet och mergeOrUpload för att fylla i det. Senare, som en del av den planerade indexservicen, kan du rensa indexet för att ta bort föråldrade fält.

Om du vill lägga till ett nytt fält i ett befintligt index anropar du Uppdatera index för att lägga till fältet och mergeOrUpload för att fylla i det.

Om du vill lägga till en anpassad analysator i ett befintligt index skickar du flaggan "allowIndexDowntime" i Uppdateringsindex om du vill undvika det här felet:

"Index update not allowed because it would cause downtime. In order to add new analyzers, tokenizers, token filters, or character filters to an existing index, set the 'allowIndexDowntime' query parameter to 'true' in the index update request. Note that this operation will put your index offline for at least a few seconds, causing your indexing and query requests to fail. Performance and write availability of the index can be impaired for several minutes after the index is updated, or longer for very large indexes."

Rekommendationer för att arbeta med analysverktyg

Det här avsnittet innehåller råd om hur du arbetar med analysverktyg.

En analysator för läs- och skrivåtgärder om du inte har specifika krav

Med Azure AI Search kan du ange olika analysverktyg för indexering och söka igenom fältegenskaperna "indexAnalyzer" och "searchAnalyzer". Om den är ospecificerad används analysverktygsuppsättningen med egenskapen analyzer för både indexering och sökning. Om analysatorn är ospecificerad används standardanalysatorn Standard Lucene.

En allmän regel är att använda samma analysator för både indexering och frågekörning, såvida inte specifika krav kräver något annat. Var noga med att testa noggrant. När textbearbetningen skiljer sig åt vid sök- och indexeringstiden riskerar du att matchas fel mellan frågetermer och indexerade termer när analysverktygskonfigurationerna för sökning och indexering inte justeras.

Testa under aktiv utveckling

Om du ska åsidosätta standardanalysatorn måste du återskapa indexet. Om möjligt kan du bestämma vilka analysverktyg som ska användas under aktiv utveckling innan du rullar ett index till produktion.

Granska tokeniserade termer

Om en sökning inte returnerar förväntade resultat är det mest sannolika scenariot tokenavvikelser mellan termindata i frågan och tokeniserade termer i indexet. Om token inte är samma kan matchningar inte materialiseras. För att inspektera tokenizer-utdata rekommenderar vi att du använder analys-API:et som ett undersökningsverktyg. Svaret består av token som genereras av en specifik analysator.

REST-exempel

Exemplen nedan visar analysdefinitioner för några viktiga scenarier.

Exempel på anpassad analys
Tilldela analysverktyg till ett fältexempel
Blanda analysverktyg för indexering och sökning
Exempel på språkanalys

Exempel på anpassad analys

Det här exemplet illustrerar en analysdefinition med anpassade alternativ. Anpassade alternativ för teckenfilter, tokenizers och tokenfilter anges separat som namngivna konstruktioner och refereras sedan i analysdefinitionen. Fördefinierade element används som är och refereras med namn.

Gå igenom det här exemplet:

Analysverktyg är en egenskap för fältklassen för ett sökbart fält.
En anpassad analys är en del av en indexdefinition. Det kan vara lätt anpassat (till exempel att anpassa ett enda alternativ i ett filter) eller anpassas på flera platser.
I det här fallet är den anpassade analysatorn "my_analyzer", som i sin tur använder en anpassad standardtokeniserare "my_standard_tokenizer" och två tokenfilter: gemener och anpassat asciifoldingfilter "my_asciifolding".
Den definierar även 2 anpassade teckenfilter "map_dash" och "remove_whitespace". Den första ersätter alla bindestreck med understreck medan den andra tar bort alla blanksteg. Blanksteg måste vara UTF-8-kodade i mappningsreglerna. Teckenfiltren tillämpas före tokenisering och påverkar de resulterande token (standardtokeniseraren bryter på streck och blanksteg men inte på understreck).

JSON

  {
     "name":"myindex",
     "fields":[
        {
           "name":"id",
           "type":"Edm.String",
           "key":true,
           "searchable":false
        },
        {
           "name":"text",
           "type":"Edm.String",
           "searchable":true,
           "analyzer":"my_analyzer"
        }
     ],
     "analyzers":[
        {
           "name":"my_analyzer",
           "@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer",
           "charFilters":[
              "map_dash",
              "remove_whitespace"
           ],
           "tokenizer":"my_standard_tokenizer",
           "tokenFilters":[
              "my_asciifolding",
              "lowercase"
           ]
        }
     ],
     "charFilters":[
        {
           "name":"map_dash",
           "@odata.type":"#Microsoft.Azure.Search.MappingCharFilter",
           "mappings":["-=>_"]
        },
        {
           "name":"remove_whitespace",
           "@odata.type":"#Microsoft.Azure.Search.MappingCharFilter",
           "mappings":["\\u0020=>"]
        }
     ],
     "tokenizers":[
        {
           "name":"my_standard_tokenizer",
           "@odata.type":"#Microsoft.Azure.Search.StandardTokenizerV2",
           "maxTokenLength":20
        }
     ],
     "tokenFilters":[
        {
           "name":"my_asciifolding",
           "@odata.type":"#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
           "preserveOriginal":true
        }
     ]
  }

Exempel på analysverktygstilldelning per fält

Standardanalysatorn är standardvärdet. Anta att du vill ersätta standardvärdet med en annan fördefinierad analysator, till exempel mönsteranalysatorn. Om du inte anger anpassade alternativ behöver du bara ange det med namn i fältdefinitionen.

Elementet "analyzer" åsidosätter standardanalyseraren fält för fält. Det finns ingen global åsidosättning. I det här exemplet text1 använder mönsteranalysatorn och text2, som inte anger någon analysator, standardvärdet.

JSON

  {
     "name":"myindex",
     "fields":[
        {
           "name":"id",
           "type":"Edm.String",
           "key":true,
           "searchable":false
        },
        {
           "name":"text1",
           "type":"Edm.String",
           "searchable":true,
           "analyzer":"pattern"
        },
        {
           "name":"text2",
           "type":"Edm.String",
           "searchable":true
        }
     ]
  }

Blanda analysverktyg för indexering och sökåtgärder

API:erna innehåller indexattribut för att ange olika analysverktyg för indexering och sökning. Attributen searchAnalyzer och indexAnalyzer måste anges som ett par och ersätta attributet single analyzer.

JSON

  {
     "name":"myindex",
     "fields":[
        {
           "name":"id",
           "type":"Edm.String",
           "key":true,
           "searchable":false
        },
        {
           "name":"text",
           "type":"Edm.String",
           "searchable":true,
           "indexAnalyzer":"whitespace",
           "searchAnalyzer":"simple"
        },
     ],
  }

Exempel på språkanalys

Fält som innehåller strängar på olika språk kan använda ett språkanalysverktyg, medan andra fält behåller standardvärdet (eller använder någon annan fördefinierad eller anpassad analysator). Om du använder ett språkanalysverktyg måste det användas för både indexerings- och sökåtgärder. Fält som använder en språkanalys kan inte ha olika analysverktyg för indexering och sökning.

JSON

  {
     "name":"myindex",
     "fields":[
        {
           "name":"id",
           "type":"Edm.String",
           "key":true,
           "searchable":false
        },
        {
           "name":"text",
           "type":"Edm.String",
           "searchable":true,
           "indexAnalyzer":"whitespace",
           "searchAnalyzer":"simple"
        },
        {
           "name":"text_fr",
           "type":"Edm.String",
           "searchable":true,
           "analyzer":"fr.lucene"
        }
     ],
  }

C#-exempel

Om du använder .NET SDK-kodexemplen kan du lägga till dessa exempel för att använda eller konfigurera analysverktyg.

Tilldela en inbyggd analysator
Konfigurera en analysator

Tilldela en språkanalys

Alla analysverktyg som används som de är, utan konfiguration, anges i en fältdefinition. Det finns inget krav på att skapa en post i avsnittet [analysverktyg] i indexet.

Språkanalysverktyg används som de är. Om du vill använda dem anropar du LexicalAnalyzer och anger typen LexicalAnalyzerName som tillhandahåller en textanalys som stöds i Azure AI Search.

Anpassade analysverktyg anges på samma sätt i fältdefinitionen, men för att det ska fungera måste du ange analysatorn i indexdefinitionen enligt beskrivningen i nästa avsnitt.

    public partial class Hotel
    {
       . . . 
        [SearchableField(AnalyzerName = LexicalAnalyzerName.Values.EnLucene)]
        public string Description { get; set; }

        [SearchableField(AnalyzerName = LexicalAnalyzerName.Values.FrLucene)]
        [JsonPropertyName("Description_fr")]
        public string DescriptionFr { get; set; }

        [SearchableField(AnalyzerName = "url-analyze")]
        public string Url { get; set; }
      . . .
    }

Definiera en anpassad analysator

När anpassning eller konfiguration krävs lägger du till en analysverktygskonstruktion i ett index. När du har definierat den kan du lägga till fältdefinitionen som visas i föregående exempel.

Skapa ett CustomAnalyzer-objekt . En anpassad analysator är en användardefinierad kombination av en känd tokeniserare, noll eller fler tokenfilter och noll eller fler teckenfilternamn:

I följande exempel skapas en anpassad analysator med namnet "url-analyze" som använder uax_url_email tokenizer och tokenfiltret Gemener.

private static void CreateIndex(string indexName, SearchIndexClient adminClient)
{
   FieldBuilder fieldBuilder = new FieldBuilder();
   var searchFields = fieldBuilder.Build(typeof(Hotel));

   var analyzer = new CustomAnalyzer("url-analyze", "uax_url_email")
   {
         TokenFilters = { TokenFilterName.Lowercase }
   };

   var definition = new SearchIndex(indexName, searchFields);

   definition.Analyzers.Add(analyzer);

   adminClient.CreateOrUpdateIndex(definition);
}

Nästa steg

En detaljerad beskrivning av frågekörning finns i Fulltextsökning i Azure AI Search. Artikeln använder exempel för att förklara beteenden som kan verka kontraintuitiva på ytan.

Mer information om analysverktyg finns i följande artiklar:

Ytterligare resurser

Dokumentation

Lägga till anpassade analysverktyg i strängfält - Azure AI Search

Konfigurera texttokeniserare och teckenfilter för att utföra textanalys på strängar under indexering och frågor.
Lägga till språkanalysverktyg i strängfält - Azure AI Search

Konfigurera flerspråkig lexikal analys för frågor och index som inte är engelska i Azure AI Search.
Självstudie: Skapa en anpassad analysator - Azure AI Search

Lär dig hur du skapar en anpassad analysator för att förbättra kvaliteten på sökresultaten i Azure AI Search.
Indexering på flera språk för sökfrågor som inte är engelska - Azure AI Search

Skapa ett index som stöder innehåll på flera språk och skapa sedan frågor som är begränsade till innehållet.
Skapa en fullständig textfråga - Azure AI Search

Lär dig hur du skapar en frågebegäran för fulltextsökning i Azure AI Search.
Analysera text - Azure AI Search

Testa fördefinierade och anpassade analysverktyg som används för att dela upp text i token under Azure AI Search-indexering.
Lägga till stavningskontroll i frågor - Azure AI Search

Bifoga stavningskorrigering i frågepipelinen för att åtgärda stavfel på frågetermer innan du kör frågan.

Utbildning

Modul

Utöka dina data med Azure AI Language - Training

Azure AI Language ger dig kraften i bearbetning av naturligt språk (NLP) för att automatiskt förstå och analysera text. Du kan använda den kraften för att förbättra dina söklösningar.

Certifiering

Microsoft-certifierad: Azure AI-ingenjör Associate (Microsoft Certified: Azure AI Engineer Associate) - Certifications

Utforma och implementera en Azure AI-lösning med hjälp av Azure AI-tjänster, Azure AI Search och Azure Open AI.

Händelser

RAG-tid

5 mars 17 - 2 apr. 16

Delta i Den ultimata 5-veckorsresan för att lära dig RAG!

Kom igång nu

The future is yours

Dela via

Analysverktyg för textbearbetning i Azure AI Search

Standardanalys

Typer av analysverktyg

Ange analysverktyg

När du ska lägga till analysverktyg

Rekommendationer för att arbeta med analysverktyg

En analysator för läs- och skrivåtgärder om du inte har specifika krav

Testa under aktiv utveckling

Granska tokeniserade termer

REST-exempel

Exempel på anpassad analys

Exempel på analysverktygstilldelning per fält

Blanda analysverktyg för indexering och sökåtgärder

Exempel på språkanalys

C#-exempel

Tilldela en språkanalys

Definiera en anpassad analysator

Nästa steg

Feedback

Ytterligare resurser