Partager via


Indexes - Analyze

Montre comment un analyseur décompose le texte en jetons.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Paramètres URI

Nom Dans Obligatoire Type Description
endpoint
path True

string

URL du point de terminaison du service de recherche.

indexName
path True

string

Nom de l’index pour lequel tester un analyseur.

api-version
query True

string

Version de l’API cliente.

En-tête de la demande

Nom Obligatoire Type Description
x-ms-client-request-id

string

uuid

ID de suivi envoyé avec la demande pour faciliter le débogage.

Corps de la demande

Nom Obligatoire Type Description
text True

string

Texte à décomposer en jetons.

analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un tokenizer à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

charFilters

CharFilterName[]

Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenFilters

TokenFilterName[]

Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenizer

LexicalTokenizerName

Nom du tokenizer à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

Réponses

Nom Type Description
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Réponse d’erreur.

Exemples

SearchServiceIndexAnalyze

Exemple de requête

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Exemple de réponse

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Définitions

Nom Description
AnalyzedTokenInfo

Informations sur un jeton retourné par un analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

AnalyzeResult

Résultat du test d’un analyseur sur du texte.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

ErrorAdditionalInfo

Informations supplémentaires sur l’erreur de gestion des ressources.

ErrorDetail

Détail de l’erreur.

ErrorResponse

Réponse d’erreur

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

LexicalTokenizerName

Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

AnalyzedTokenInfo

Informations sur un jeton retourné par un analyseur.

Nom Type Description
endOffset

integer

Index du dernier caractère du jeton dans le texte d’entrée.

position

integer

Position du jeton dans le texte d’entrée par rapport à d’autres jetons. Le premier jeton du texte d’entrée a la position 0, la position suivante a la position 1, et ainsi de suite. Selon l’analyseur utilisé, certains jetons peuvent avoir la même position, par exemple s’ils sont synonymes les uns des autres.

startOffset

integer

Index du premier caractère du jeton dans le texte d’entrée.

token

string

Jeton retourné par l’analyseur.

AnalyzeRequest

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

Nom Type Description
analyzer

LexicalAnalyzerName

Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un tokenizer à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

charFilters

CharFilterName[]

Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

text

string

Texte à décomposer en jetons.

tokenFilters

TokenFilterName[]

Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.

tokenizer

LexicalTokenizerName

Nom du tokenizer à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

AnalyzeResult

Résultat du test d’un analyseur sur du texte.

Nom Type Description
tokens

AnalyzedTokenInfo[]

Liste des jetons retournés par l’analyseur spécifié dans la requête.

CharFilterName

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

Nom Type Description
html_strip

string

Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Informations supplémentaires sur l’erreur de gestion des ressources.

Nom Type Description
info

object

Informations supplémentaires.

type

string

Type d’informations supplémentaire.

ErrorDetail

Détail de l’erreur.

Nom Type Description
additionalInfo

ErrorAdditionalInfo[]

Informations supplémentaires sur l’erreur.

code

string

Code d’erreur.

details

ErrorDetail[]

Détails de l’erreur.

message

string

Message d’erreur.

target

string

Cible d’erreur.

ErrorResponse

Réponse d’erreur

Nom Type Description
error

ErrorDetail

Objet d’erreur.

LexicalAnalyzerName

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

Nom Type Description
ar.lucene

string

Analyseur Lucene pour l’arabe.

ar.microsoft

string

Analyseur Microsoft pour l’arabe.

bg.lucene

string

Analyseur Lucene pour bulgare.

bg.microsoft

string

Analyseur Microsoft pour bulgare.

bn.microsoft

string

Analyseur Microsoft pour Bangla.

ca.lucene

string

Analyseur Lucene pour catalan.

ca.microsoft

string

Analyseur Microsoft pour catalan.

cs.lucene

string

Analyseur Lucene pour tchèque.

cs.microsoft

string

Analyseur Microsoft pour tchèque.

da.lucene

string

Analyseur Lucene pour danois.

da.microsoft

string

Analyseur Microsoft pour danois.

de.lucene

string

Analyseur Lucene pour allemand.

de.microsoft

string

Analyseur Microsoft pour allemand.

el.lucene

string

Analyseur Lucene pour grec.

el.microsoft

string

Analyseur Microsoft pour grec.

en.lucene

string

Analyseur Lucene pour l’anglais.

en.microsoft

string

Analyseur Microsoft pour l’anglais.

es.lucene

string

Analyseur Lucene pour l’espagnol.

es.microsoft

string

Analyseur Microsoft pour l’espagnol.

et.microsoft

string

Analyseur Microsoft pour estonien.

eu.lucene

string

Analyseur Lucene pour basque.

fa.lucene

string

Analyseur Lucene pour Persane.

fi.lucene

string

Analyseur Lucene pour le finnois.

fi.microsoft

string

Analyseur Microsoft pour finnois.

fr.lucene

string

Analyseur Lucene pour français.

fr.microsoft

string

Analyseur Microsoft pour français.

ga.lucene

string

Analyseur Lucene pour irlandais.

gl.lucene

string

Analyseur Lucene pour Galicien.

gu.microsoft

string

Analyseur Microsoft pour Gujarati.

he.microsoft

string

Analyseur Microsoft pour hébreu.

hi.lucene

string

Analyseur Lucene pour hindi.

hi.microsoft

string

Analyseur Microsoft pour hindi.

hr.microsoft

string

Analyseur Microsoft pour croate.

hu.lucene

string

Analyseur Lucene pour hongrois.

hu.microsoft

string

Analyseur Microsoft pour hongrois.

hy.lucene

string

Analyseur Lucene pour arménien.

id.lucene

string

Analyseur Lucene pour l’Indonésien.

id.microsoft

string

Analyseur Microsoft pour indonésien (Bahasa).

is.microsoft

string

Analyseur Microsoft pour l’Islande.

it.lucene

string

Analyseur Lucene pour italien.

it.microsoft

string

Analyseur Microsoft pour italien.

ja.lucene

string

Analyseur Lucene pour japonais.

ja.microsoft

string

Analyseur Microsoft pour japonais.

keyword

string

Traite l’intégralité du contenu d’un champ comme un seul jeton. Cela est utile pour les données telles que les codes postal, les ID et certains noms de produits. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analyseur Microsoft pour Kannada.

ko.lucene

string

Analyseur Lucene pour coréen.

ko.microsoft

string

Analyseur Microsoft pour coréen.

lt.microsoft

string

Analyseur Microsoft pour lituanien.

lv.lucene

string

Analyseur Lucene pour letton.

lv.microsoft

string

Analyseur Microsoft pour letton.

ml.microsoft

string

Analyseur Microsoft pour Malayalam.

mr.microsoft

string

Analyseur Microsoft pour Marathi.

ms.microsoft

string

Analyseur Microsoft pour Malay (latin).

nb.microsoft

string

Analyseur Microsoft pour norvégien (Bokmål).

nl.lucene

string

Analyseur Lucene pour néerlandais.

nl.microsoft

string

Analyseur Microsoft pour néerlandais.

no.lucene

string

Analyseur Lucene pour norvégien.

pa.microsoft

string

Analyseur Microsoft pour Punjabi.

pattern

string

Sépare de manière flexible le texte en termes par le biais d’un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analyseur Lucene pour polonais.

pl.microsoft

string

Analyseur Microsoft pour polonais.

pt-BR.lucene

string

Analyseur Lucene pour portugais (Brésil).

pt-BR.microsoft

string

Analyseur Microsoft pour portugais (Brésil).

pt-PT.lucene

string

Analyseur Lucene pour portugais (Portugal).

pt-PT.microsoft

string

Analyseur Microsoft pour portugais (Portugal).

ro.lucene

string

Analyseur Lucene pour roumain.

ro.microsoft

string

Analyseur Microsoft pour roumain.

ru.lucene

string

Analyseur Lucene pour russe.

ru.microsoft

string

Analyseur Microsoft pour russe.

simple

string

Divise le texte en lettres non lettres et les convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analyseur Microsoft pour slovaque.

sl.microsoft

string

Analyseur Microsoft pour le Slovène.

sr-cyrillic.microsoft

string

Analyseur Microsoft pour serbe (cyrillique).

sr-latin.microsoft

string

Analyseur Microsoft pour serbe (latin).

standard.lucene

string

Analyseur Lucene standard.

standardasciifolding.lucene

string

Analyseur Lucene pliant ASCII standard. Voir https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Divise le texte en lettres non lettres ; Applique les filtres de jetons minuscules et de mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analyseur Lucene pour suédois.

sv.microsoft

string

Analyseur Microsoft pour suédois.

ta.microsoft

string

Analyseur Microsoft pour tamoul.

te.microsoft

string

Analyseur Microsoft pour Telugu.

th.lucene

string

Analyseur Lucene pour thaï.

th.microsoft

string

Analyseur Microsoft pour thaï.

tr.lucene

string

Analyseur Lucene pour turc.

tr.microsoft

string

Analyseur Microsoft pour turc.

uk.microsoft

string

Analyseur Microsoft pour ukrainien.

ur.microsoft

string

Analyseur Microsoft pour Urdu.

vi.microsoft

string

Analyseur Microsoft pour le Vietnamien.

whitespace

string

Analyseur qui utilise le générateur de jetons d’espace blanc. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analyseur Lucene pour chinois (simplifié).

zh-Hans.microsoft

string

Analyseur Microsoft pour chinois (simplifié).

zh-Hant.lucene

string

Analyseur Lucene pour chinois (traditionnel).

zh-Hant.microsoft

string

Analyseur Microsoft pour chinois (traditionnel).

LexicalTokenizerName

Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.

Nom Type Description
classic

string

Tokenizer basé sur la grammaire qui convient pour le traitement de la plupart des documents en langue européenne. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenise l’entrée d’un bord en n-grammes de la ou des tailles données. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Émet l’entrée entière sous forme de jeton unique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Divise le texte en lettres non lettres. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Divise le texte en lettres non lettres et les convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Divise le texte à l’aide de règles spécifiques à la langue et réduit les mots à leurs formulaires de base.

microsoft_language_tokenizer

string

Divise le texte à l’aide de règles spécifiques à la langue.

nGram

string

Tokenise l’entrée en n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer pour les hiérarchies similaires au chemin d’accès. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer qui utilise le modèle regex correspondant pour construire des jetons distincts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Analyseur Lucene standard ; Composé du générateur de jetons standard, du filtre minuscule et du filtre d’arrêt. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokenise les URL et les e-mails sous la forme d’un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Divise le texte à l’espace blanc. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

Nom Type Description
apostrophe

string

Supprime tous les caractères après une apostrophe (y compris l’apostrophe elle-même). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtre de jeton qui applique le normaliseur arabe pour normaliser l’orthographie. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, s’il existe de tels équivalents. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Forme des bigrams de termes CJK générés à partir du tokenizer standard. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalise les différences de largeur CJK. Plie les variantes ASCII pleine chasse en latin de base équivalent, et les variantes Katakana de demi-largeur dans l’équivalent Kana. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Supprime les possessifs anglais et les points des acronymes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Construisez des bigrams pour des termes fréquents lors de l’indexation. Les termes uniques sont toujours indexés, avec des bigrams superposés. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Supprime les élisions. Par exemple, « l’avion » (l’avion) est converti en « avion » (avion). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalise les caractères allemands en fonction des heuristiques de l’algorithme de boule de neige allemand2. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalise le texte en hindi pour supprimer certaines différences dans les variantes orthographiques. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalise la représentation Unicode du texte dans les langues indiennes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Émet chaque jeton entrant deux fois, une fois en tant que mot clé et une fois en tant que non-mot clé. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Filtre kstem hautes performances pour l’anglais. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Supprime les mots trop longs ou trop courts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Limite le nombre de jetons lors de l’indexation. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalise le texte du jeton en minuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Génère des n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Applique la normalisation pour persane. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Créez des jetons pour les correspondances phonétiques. Voir https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Utilise l’algorithme de recherche de type Porter pour transformer le flux de jetons. Voir http://tartarus.org/~martin/PorterStemmer

reverse

string

Inverse la chaîne de jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Plie les caractères scandinaves åÅäæÄÆ->a et öÖøØ->o. Il discrimine également contre l’utilisation de voyelles doubles aa, ae, ao, oe et oo, laissant juste la première. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalise l’utilisation des caractères scandinaves interchangeables. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Crée des combinaisons de jetons en tant que jeton unique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtre qui génère des mots à l’aide d’un générateur de tiges généré par Snowball. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalise la représentation Unicode du texte Sorani. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtre de recherche de recherche spécifique au langage. Voir https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Supprime les mots d’arrêt d’un flux de jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Supprime les espaces blancs de début et de fin des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Tronque les termes à une longueur spécifique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtre les jetons avec le même texte que le jeton précédent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalise le texte du jeton en majuscules. Voir https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Fractionne les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots.