Partager via


Indexes - Analyze

Montre comment un analyseur décompose le texte en jetons.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Paramètres URI

Nom Dans Obligatoire Type Description
endpoint
path True

string

URL du point de terminaison du service de recherche.

indexName
path True

string

Nom de l’index pour lequel tester un analyseur.

api-version
query True

string

Version de l’API cliente.

En-tête de la demande

Nom Obligatoire Type Description
x-ms-client-request-id

string (uuid)

ID de suivi envoyé avec la demande pour faciliter le débogage.

Corps de la demande

Nom Obligatoire Type Description
text True

string

Texte à décomposer en jetons.

analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un tokenizer à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

charFilters

CharFilterName[]

Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenFilters

TokenFilterName[]

Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenizer

LexicalTokenizerName

Nom du tokenizer à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

Réponses

Nom Type Description
200 OK

AnalyzeResult

Other Status Codes

SearchError

Réponse d’erreur.

Exemples

SearchServiceIndexAnalyze

Exemple de requête

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Exemple de réponse

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Définitions

Nom Description
AnalyzedTokenInfo

Informations sur un jeton retourné par un analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

AnalyzeResult

Résultat du test d’un analyseur sur du texte.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

LexicalTokenizerName

Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.

SearchError

Décrit une condition d’erreur pour l’API.

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

AnalyzedTokenInfo

Informations sur un jeton retourné par un analyseur.

Nom Type Description
endOffset

integer (int32)

Index du dernier caractère du jeton dans le texte d’entrée.

position

integer (int32)

Position du jeton dans le texte d’entrée par rapport à d’autres jetons. Le premier jeton du texte d’entrée a la position 0, la position suivante a la position 1, et ainsi de suite. Selon l’analyseur utilisé, certains jetons peuvent avoir la même position, par exemple s’ils sont synonymes les uns des autres.

startOffset

integer (int32)

Index du premier caractère du jeton dans le texte d’entrée.

token

string

Jeton retourné par l’analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

Nom Type Description
analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un tokenizer à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

charFilters

CharFilterName[]

Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

text

string

Texte à décomposer en jetons.

tokenFilters

TokenFilterName[]

Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenizer

LexicalTokenizerName

Nom du tokenizer à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

AnalyzeResult

Résultat du test d’un analyseur sur du texte.

Nom Type Description
tokens

AnalyzedTokenInfo[]

Liste des jetons retournés par l’analyseur spécifié dans la requête.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

Valeur Description
html_strip

Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

Valeur Description
ar.lucene

Analyseur Lucene pour l’arabe.

ar.microsoft

Analyseur Microsoft pour l’arabe.

bg.lucene

Analyseur Lucene pour bulgare.

bg.microsoft

Analyseur Microsoft pour bulgare.

bn.microsoft

Analyseur Microsoft pour Bangla.

ca.lucene

Analyseur Lucene pour catalan.

ca.microsoft

Analyseur Microsoft pour catalan.

cs.lucene

Analyseur Lucene pour tchèque.

cs.microsoft

Analyseur Microsoft pour tchèque.

da.lucene

Analyseur Lucene pour danois.

da.microsoft

Analyseur Microsoft pour danois.

de.lucene

Analyseur Lucene pour allemand.

de.microsoft

Analyseur Microsoft pour allemand.

el.lucene

Analyseur Lucene pour grec.

el.microsoft

Analyseur Microsoft pour grec.

en.lucene

Analyseur Lucene pour l’anglais.

en.microsoft

Analyseur Microsoft pour l’anglais.

es.lucene

Analyseur Lucene pour l’espagnol.

es.microsoft

Analyseur Microsoft pour l’espagnol.

et.microsoft

Analyseur Microsoft pour estonien.

eu.lucene

Analyseur Lucene pour basque.

fa.lucene

Analyseur Lucene pour Persane.

fi.lucene

Analyseur Lucene pour le finnois.

fi.microsoft

Analyseur Microsoft pour finnois.

fr.lucene

Analyseur Lucene pour français.

fr.microsoft

Analyseur Microsoft pour français.

ga.lucene

Analyseur Lucene pour irlandais.

gl.lucene

Analyseur Lucene pour Galicien.

gu.microsoft

Analyseur Microsoft pour Gujarati.

he.microsoft

Analyseur Microsoft pour hébreu.

hi.lucene

Analyseur Lucene pour hindi.

hi.microsoft

Analyseur Microsoft pour hindi.

hr.microsoft

Analyseur Microsoft pour croate.

hu.lucene

Analyseur Lucene pour hongrois.

hu.microsoft

Analyseur Microsoft pour hongrois.

hy.lucene

Analyseur Lucene pour arménien.

id.lucene

Analyseur Lucene pour l’Indonésien.

id.microsoft

Analyseur Microsoft pour indonésien (Bahasa).

is.microsoft

Analyseur Microsoft pour l’Islande.

it.lucene

Analyseur Lucene pour italien.

it.microsoft

Analyseur Microsoft pour italien.

ja.lucene

Analyseur Lucene pour japonais.

ja.microsoft

Analyseur Microsoft pour japonais.

keyword

Traite l’intégralité du contenu d’un champ comme un seul jeton. Cela est utile pour les données telles que les codes postal, les ID et certains noms de produits. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

Analyseur Microsoft pour Kannada.

ko.lucene

Analyseur Lucene pour coréen.

ko.microsoft

Analyseur Microsoft pour coréen.

lt.microsoft

Analyseur Microsoft pour lituanien.

lv.lucene

Analyseur Lucene pour letton.

lv.microsoft

Analyseur Microsoft pour letton.

ml.microsoft

Analyseur Microsoft pour Malayalam.

mr.microsoft

Analyseur Microsoft pour Marathi.

ms.microsoft

Analyseur Microsoft pour Malay (latin).

nb.microsoft

Analyseur Microsoft pour norvégien (Bokmål).

nl.lucene

Analyseur Lucene pour néerlandais.

nl.microsoft

Analyseur Microsoft pour néerlandais.

no.lucene

Analyseur Lucene pour norvégien.

pa.microsoft

Analyseur Microsoft pour Punjabi.

pattern

Sépare de manière flexible le texte en termes par le biais d’un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

Analyseur Lucene pour polonais.

pl.microsoft

Analyseur Microsoft pour polonais.

pt-BR.lucene

Analyseur Lucene pour portugais (Brésil).

pt-BR.microsoft

Analyseur Microsoft pour portugais (Brésil).

pt-PT.lucene

Analyseur Lucene pour portugais (Portugal).

pt-PT.microsoft

Analyseur Microsoft pour portugais (Portugal).

ro.lucene

Analyseur Lucene pour roumain.

ro.microsoft

Analyseur Microsoft pour roumain.

ru.lucene

Analyseur Lucene pour russe.

ru.microsoft

Analyseur Microsoft pour russe.

simple

Divise le texte en lettres non lettres et les convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

Analyseur Microsoft pour slovaque.

sl.microsoft

Analyseur Microsoft pour le Slovène.

sr-cyrillic.microsoft

Analyseur Microsoft pour serbe (cyrillique).

sr-latin.microsoft

Analyseur Microsoft pour serbe (latin).

standard.lucene

Analyseur Lucene standard.

standardasciifolding.lucene

Analyseur Lucene pliant ASCII standard. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

Divise le texte en lettres non lettres ; Applique les filtres de jetons minuscules et de mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

Analyseur Lucene pour suédois.

sv.microsoft

Analyseur Microsoft pour suédois.

ta.microsoft

Analyseur Microsoft pour tamoul.

te.microsoft

Analyseur Microsoft pour Telugu.

th.lucene

Analyseur Lucene pour thaï.

th.microsoft

Analyseur Microsoft pour thaï.

tr.lucene

Analyseur Lucene pour turc.

tr.microsoft

Analyseur Microsoft pour turc.

uk.microsoft

Analyseur Microsoft pour ukrainien.

ur.microsoft

Analyseur Microsoft pour Urdu.

vi.microsoft

Analyseur Microsoft pour le Vietnamien.

whitespace

Analyseur qui utilise le générateur de jetons d’espace blanc. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

Analyseur Lucene pour chinois (simplifié).

zh-Hans.microsoft

Analyseur Microsoft pour chinois (simplifié).

zh-Hant.lucene

Analyseur Lucene pour chinois (traditionnel).

zh-Hant.microsoft

Analyseur Microsoft pour chinois (traditionnel).

LexicalTokenizerName

Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.

Valeur Description
classic

Tokenizer basé sur la grammaire qui convient pour le traitement de la plupart des documents en langue européenne. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

Tokenise l’entrée d’un bord en n-grammes de la ou des tailles données. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

Émet l’entrée entière sous forme de jeton unique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

Divise le texte en lettres non lettres. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

Divise le texte en lettres non lettres et les convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

Divise le texte à l’aide de règles spécifiques à la langue et réduit les mots à leurs formulaires de base.

microsoft_language_tokenizer

Divise le texte à l’aide de règles spécifiques à la langue.

nGram

Tokenise l’entrée en n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

Tokenizer pour les hiérarchies similaires au chemin d’accès. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

Tokenizer qui utilise le modèle regex correspondant pour construire des jetons distincts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

Analyseur Lucene standard ; Composé du générateur de jetons standard, du filtre minuscule et du filtre d’arrêt. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

Tokenise les URL et les e-mails sous la forme d’un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

Divise le texte à l’espace blanc. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Décrit une condition d’erreur pour l’API.

Nom Type Description
code

string

Un ensemble de codes d’erreur définis par le serveur.

details

SearchError[]

Tableau de détails sur des erreurs spécifiques qui ont conduit à cette erreur signalée.

message

string

Représentation lisible par l’homme de l’erreur.

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

Valeur Description
apostrophe

Supprime tous les caractères après une apostrophe (y compris l’apostrophe elle-même). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

Filtre de jeton qui applique le normaliseur arabe pour normaliser l’orthographie. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, s’il existe de tels équivalents. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

Forme des bigrams de termes CJK générés à partir du tokenizer standard. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

Normalise les différences de largeur CJK. Plie les variantes ASCII pleine chasse en latin de base équivalent, et les variantes Katakana de demi-largeur dans l’équivalent Kana. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

Supprime les possessifs anglais et les points des acronymes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

Construisez des bigrams pour des termes fréquents lors de l’indexation. Les termes uniques sont toujours indexés, avec des bigrams superposés. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

Supprime les élisions. Par exemple, « l’avion » (l’avion) est converti en « avion » (avion). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

Normalise les caractères allemands en fonction des heuristiques de l’algorithme de boule de neige allemand2. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

Normalise le texte en hindi pour supprimer certaines différences dans les variantes orthographiques. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

Normalise la représentation Unicode du texte dans les langues indiennes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

Émet chaque jeton entrant deux fois, une fois en tant que mot clé et une fois en tant que non-mot clé. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

Filtre kstem hautes performances pour l’anglais. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

Supprime les mots trop longs ou trop courts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

Limite le nombre de jetons lors de l’indexation. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

Normalise le texte du jeton en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

Génère des n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

Applique la normalisation pour persane. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

Créez des jetons pour les correspondances phonétiques. Voir https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

Utilise l’algorithme de recherche de type Porter pour transformer le flux de jetons. Voir http://tartarus.org/~martin/PorterStemmer

reverse

Inverse la chaîne de jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

Plie les caractères scandinaves åÅäæÄÆ->a et öÖøØ->o. Il discrimine également contre l’utilisation de voyelles doubles aa, ae, ao, oe et oo, laissant juste la première. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

Normalise l’utilisation des caractères scandinaves interchangeables. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

Crée des combinaisons de jetons en tant que jeton unique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

Filtre qui génère des mots à l’aide d’un générateur de tiges généré par Snowball. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

Normalise la représentation Unicode du texte Sorani. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

Filtre de recherche de recherche spécifique au langage. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

Supprime les mots d’arrêt d’un flux de jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

Supprime les espaces blancs de début et de fin des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

Tronque les termes à une longueur spécifique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

Filtre les jetons avec le même texte que le jeton précédent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

Normalise le texte du jeton en majuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

Fractionne les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots.