Partager via


Indexes - Analyze

Montre comment un analyseur décompose le texte en jetons.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Paramètres URI

Nom Dans Obligatoire Type Description
endpoint
path True

string

URL du point de terminaison du service de recherche.

indexName
path True

string

Nom de l’index pour lequel tester un analyseur.

api-version
query True

string

Version de l’API cliente.

En-tête de la demande

Nom Obligatoire Type Description
x-ms-client-request-id

string

uuid

ID de suivi envoyé avec la demande d’aide pour le débogage.

Corps de la demande

Nom Obligatoire Type Description
text True

string

Texte à décomposer en jetons.

analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez plutôt spécifier un générateur de jetons. Les paramètres du générateur de jetons et de l’analyseur s’excluent mutuellement.

charFilters

CharFilterName[]

Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre de générateur de jetons.

tokenFilters

TokenFilterName[]

Liste facultative de filtres de jeton à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre de générateur de jetons.

tokenizer

LexicalTokenizerName

Nom du générateur de jetons à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez plutôt spécifier un analyseur. Les paramètres du générateur de jetons et de l’analyseur s’excluent mutuellement.

Réponses

Nom Type Description
200 OK

AnalyzeResult

Other Status Codes

SearchError

Réponse d’erreur.

Exemples

SearchServiceIndexAnalyze

Sample Request

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Définitions

Nom Description
AnalyzedTokenInfo

Informations sur un jeton retourné par un analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

AnalyzeResult

Résultat du test d’un analyseur sur du texte.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

LexicalTokenizerName

Définit les noms de tous les générateurs de jetons pris en charge par le moteur de recherche.

SearchError

Décrit une condition d’erreur pour l’API.

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

AnalyzedTokenInfo

Informations sur un jeton retourné par un analyseur.

Nom Type Description
endOffset

integer

Index du dernier caractère du jeton dans le texte d’entrée.

position

integer

Position du jeton dans le texte d’entrée par rapport aux autres jetons. Le premier jeton du texte d’entrée a la position 0, le suivant a la position 1, et ainsi de suite. Selon l’analyseur utilisé, certains jetons peuvent avoir la même position, par exemple s’ils sont synonymes les uns des autres.

startOffset

integer

Index du premier caractère du jeton dans le texte d’entrée.

token

string

Jeton retourné par l’analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

Nom Type Description
analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour rompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un générateur de jetons à la place. Les paramètres du générateur de jetons et de l’analyseur s’excluent mutuellement.

charFilters

CharFilterName[]

Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

text

string

Texte à décomposer en jetons.

tokenFilters

TokenFilterName[]

Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenizer

LexicalTokenizerName

Nom du générateur de jetons à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres du générateur de jetons et de l’analyseur s’excluent mutuellement.

AnalyzeResult

Résultat du test d’un analyseur sur du texte.

Nom Type Description
tokens

AnalyzedTokenInfo[]

Liste des jetons retournés par l’analyseur spécifié dans la requête.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

Nom Type Description
html_strip

string

Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

Nom Type Description
ar.lucene

string

Analyseur Lucene pour l’arabe.

ar.microsoft

string

Analyseur Microsoft pour l’arabe.

bg.lucene

string

Analyseur Lucene pour bulgare.

bg.microsoft

string

Analyseur Microsoft pour bulgare.

bn.microsoft

string

Analyseur Microsoft pour Bangla.

ca.lucene

string

Analyseur Lucene pour catalan.

ca.microsoft

string

Analyseur Microsoft pour catalan.

cs.lucene

string

Analyseur Lucene pour tchèque.

cs.microsoft

string

Analyseur Microsoft pour tchèque.

da.lucene

string

Analyseur Lucene pour danois.

da.microsoft

string

Analyseur Microsoft pour danois.

de.lucene

string

Analyseur Lucene pour l’allemand.

de.microsoft

string

Analyseur Microsoft pour l’allemand.

el.lucene

string

Analyseur Lucene pour grec.

el.microsoft

string

Analyseur Microsoft pour grec.

en.lucene

string

Analyseur Lucene pour l’anglais.

en.microsoft

string

Analyseur Microsoft pour l’anglais.

es.lucene

string

Analyseur Lucene pour espagnol.

es.microsoft

string

Analyseur Microsoft pour espagnol.

et.microsoft

string

Analyseur Microsoft pour l’estonien.

eu.lucene

string

Analyseur Lucene pour basque.

fa.lucene

string

Analyseur Lucene pour persan.

fi.lucene

string

Analyseur Lucene pour finnois.

fi.microsoft

string

Analyseur Microsoft pour finnois.

fr.lucene

string

Analyseur Lucene pour Français.

fr.microsoft

string

Analyseur Microsoft pour Français.

ga.lucene

string

Analyseur Lucene pour l’irlandais.

gl.lucene

string

Analyseur Lucene pour galicien.

gu.microsoft

string

Analyseur Microsoft pour Gujarati.

he.microsoft

string

Analyseur Microsoft pour hébreu.

hi.lucene

string

Analyseur Lucene pour hindi.

hi.microsoft

string

Analyseur Microsoft pour hindi.

hr.microsoft

string

Analyseur Microsoft pour croate.

hu.lucene

string

Analyseur Lucene pour hongrois.

hu.microsoft

string

Analyseur Microsoft pour le hongrois.

hy.lucene

string

Analyseur Lucene pour arménien.

id.lucene

string

Analyseur Lucene pour indonésien.

id.microsoft

string

Analyseur Microsoft pour indonésien (Bahasa).

is.microsoft

string

Analyseur Microsoft pour l’islandais.

it.lucene

string

Analyseur Lucene pour italien.

it.microsoft

string

Analyseur Microsoft pour italien.

ja.lucene

string

Analyseur Lucene pour japonais.

ja.microsoft

string

Analyseur Microsoft pour japonais.

keyword

string

Traite l’intégralité du contenu d’un champ comme un seul jeton. Cela est utile pour les données telles que les codes postaux, les numéros d’identification et certains noms de produit. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analyseur Microsoft pour Kannada.

ko.lucene

string

Analyseur Lucene pour coréen.

ko.microsoft

string

Analyseur Microsoft pour le coréen.

lt.microsoft

string

Analyseur Microsoft pour lituanien.

lv.lucene

string

Analyseur Lucene pour letton.

lv.microsoft

string

Analyseur Microsoft pour letton.

ml.microsoft

string

Analyseur Microsoft pour Malayalam.

mr.microsoft

string

Analyseur Microsoft pour Marathi.

ms.microsoft

string

Analyseur Microsoft pour malais (latin).

nb.microsoft

string

Analyseur Microsoft pour norvégien (Bokmål).

nl.lucene

string

Analyseur Lucene pour néerlandais.

nl.microsoft

string

Analyseur Microsoft pour néerlandais.

no.lucene

string

Analyseur Lucene pour norvégien.

pa.microsoft

string

Analyseur Microsoft pour pendjabi.

pattern

string

Sépare le texte de façon flexible en termes via un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analyseur Lucene pour polonais.

pl.microsoft

string

Analyseur Microsoft pour polonais.

pt-BR.lucene

string

Analyseur Lucene pour portugais (Brésil).

pt-BR.microsoft

string

Analyseur Microsoft pour portugais (Brésil).

pt-PT.lucene

string

Analyseur Lucene pour portugais (Portugal).

pt-PT.microsoft

string

Analyseur Microsoft pour portugais (Portugal).

ro.lucene

string

Analyseur Lucene pour roumain.

ro.microsoft

string

Analyseur Microsoft pour roumain.

ru.lucene

string

Analyseur Lucene pour russe.

ru.microsoft

string

Analyseur Microsoft pour russe.

simple

string

Divise le texte à l’endroit des caractères qui ne sont pas des lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analyseur Microsoft pour slovaque.

sl.microsoft

string

Analyseur Microsoft pour le slovène.

sr-cyrillic.microsoft

string

Analyseur Microsoft pour le serbe (cyrillique).

sr-latin.microsoft

string

Analyseur Microsoft pour le serbe (latin).

standard.lucene

string

Analyseur Lucene standard.

standardasciifolding.lucene

string

Analyseur Lucene de pliage ASCII standard. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divise le texte en non-lettres ; Applique les filtres de jeton en minuscules et en mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analyseur Lucene pour suédois.

sv.microsoft

string

Analyseur Microsoft pour suédois.

ta.microsoft

string

Analyseur Microsoft pour tamoul.

te.microsoft

string

Analyseur Microsoft pour Telugu.

th.lucene

string

Analyseur Lucene pour thaï.

th.microsoft

string

Analyseur Microsoft pour thaï.

tr.lucene

string

Analyseur Lucene pour turc.

tr.microsoft

string

Analyseur Microsoft pour le turc.

uk.microsoft

string

Analyseur Microsoft pour ukrainien.

ur.microsoft

string

Analyseur Microsoft pour ourdou.

vi.microsoft

string

Analyseur Microsoft pour vietnamien.

whitespace

string

Un analyseur qui utilise le générateur de jetons whitespace. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analyseur Lucene pour le chinois (simplifié).

zh-Hans.microsoft

string

Analyseur Microsoft pour le chinois (simplifié).

zh-Hant.lucene

string

Analyseur Lucene pour le chinois (traditionnel).

zh-Hant.microsoft

string

Analyseur Microsoft pour le chinois (traditionnel).

LexicalTokenizerName

Définit les noms de tous les générateurs de jetons pris en charge par le moteur de recherche.

Nom Type Description
classic

string

Générateur de jetons basé sur la grammaire qui convient pour le traitement de la plupart des documents en langue européenne. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Jetonse l’entrée d’un bord en n grammes de la ou des tailles données. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Génère la totalité de l’entrée sous la forme d’un unique jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divise un texte à l’endroit des caractères qui ne sont pas des lettres. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divise le texte à l’endroit des caractères qui ne sont pas des lettres et le convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divise le texte en utilisant des règles spécifiques à la langue et réduit les mots à leurs formes de base.

microsoft_language_tokenizer

string

Divise le texte en utilisant des règles spécifiques à la langue.

nGram

string

Génère des jetons à partir de l’entrée en n-grammes d’une ou plusieurs tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Générateur de jetons pour les hiérarchies de type chemin. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer qui utilise la correspondance de modèle regex pour construire des jetons distincts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analyseur Lucene standard ; Composé du générateur de jetons standard, du filtre en minuscules et du filtre d’arrêt. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Génère des jetons pour des URL et des e-mails sous la forme d’un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divise le texte au niveau des espaces. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Décrit une condition d’erreur pour l’API.

Nom Type Description
code

string

Un des ensembles de codes d’erreur définis par le serveur.

details

SearchError[]

Tableau de détails sur les erreurs spécifiques qui ont conduit à cette erreur signalée.

message

string

Représentation lisible de l’erreur.

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

Nom Type Description
apostrophe

string

Supprime tous les caractères suivant une apostrophe (y compris l’apostrophe elle-même). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Un filtre de jetons qui applique le normaliseur arabe pour normaliser l’orthographe. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, s’ils existent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forme des bigrams de termes CJK générés à partir du générateur de jetons standard. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalise les différences de largeur de CJC. Plie les variantes ASCII de pleine chasse dans le latin de base équivalent et les variantes katakana de demi-largeur dans le Kana équivalent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Supprime les possessifs en anglais et les points des acronymes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construit des digrammes pour les termes d’occurrence fréquente lors de l’indexation. Les termes uniques sont néanmoins aussi indexés, avec des digrammes superposés. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Supprime les élisions. Par exemple, « l’avion » sera converti en « avion ». Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalise les caractères allemands en fonction de l’heuristique de l’algorithme de boule de neige German2. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalise le texte dans Hindi de façon à supprimer des différences dans les variations orthographiques. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalise la représentation Unicode du texte dans les langues indiennes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Émet chaque jeton entrant deux fois, une fois en tant que mot clé et une fois en tant que jeton non mot clé. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Un filtre kstem à hautes performances pour l’anglais. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Supprime les mots qui sont trop longs ou trop courts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limite le nombre de jetons lors de l’indexation. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalise le texte des jetons en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

Génère des n-grammes de la taille donnée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Applique la normalisation pour le persan. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Crée des jetons pour les correspondances phonétiques. Voir https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Utilise l’algorithme de suivi porter pour transformer le flux de jetons. Voir http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverse la chaîne des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Convertit les caractères scandinaves åÅäæÄÆ->a et öÖøØ->o. Il identifie aussi l’utilisation des voyelles doubles aa, ae, ao, oe et oo, et conserve seulement la première voyelle. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalise l’utilisation des caractères scandinaves interchangeables. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Crée des combinaisons de jetons sous la forme d’un unique jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtre qui dérive les mots à l’aide d’un générateur de formes dérivées généré par Snowball. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalise la représentation Unicode du texte en sorani. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtre de recherche de contenu spécifique à la langue. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Supprime les mots vides d’un flux de jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Supprime les espaces de début et de fin des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Tronque les termes à une longueur spécifique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Élimine les jetons avec le même texte que le jeton précédent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalise le texte des jetons en majuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Divise les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots.