Indexes - Analyze

Référence

Service:: Search Service

Version d'API:: 2023-11-01

Montre comment un analyseur décompose le texte en jetons.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Paramètres URI

Nom	Dans	Obligatoire	Type	Description
endpoint	path	True	string	URL du point de terminaison du service de recherche.
indexName	path	True	string	Nom de l’index pour lequel tester un analyseur.
api-version	query	True	string	Version de l’API cliente.

En-tête de la demande

Nom	Obligatoire	Type	Description
x-ms-client-request-id		string (uuid)	ID de suivi envoyé avec la demande pour faciliter le débogage.

Corps de la demande

Nom	Obligatoire	Type	Description
text	True	string	Texte à décomposer en jetons.
analyzer		LexicalAnalyzerName	Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un tokenizer à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.
charFilters		CharFilterName[]	Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.
tokenFilters		TokenFilterName[]	Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.
tokenizer		LexicalTokenizerName	Nom du tokenizer à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

Réponses

Nom	Type	Description
200 OK	AnalyzeResult
Other Status Codes	SearchError	Réponse d’erreur.

Exemples

SearchServiceIndexAnalyze

Exemple de requête

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Exemple de réponse

Code d’état:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Définitions

Nom	Description
AnalyzedTokenInfo	Informations sur un jeton retourné par un analyseur.
AnalyzeRequest	Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.
AnalyzeResult	Résultat du test d’un analyseur sur du texte.
CharFilterName	Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.
LexicalAnalyzerName	Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.
LexicalTokenizerName	Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.
SearchError	Décrit une condition d’erreur pour l’API.
TokenFilterName	Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

AnalyzedTokenInfo

Object

Informations sur un jeton retourné par un analyseur.

Nom	Type	Description
endOffset	integer (int32)	Index du dernier caractère du jeton dans le texte d’entrée.
position	integer (int32)	Position du jeton dans le texte d’entrée par rapport à d’autres jetons. Le premier jeton du texte d’entrée a la position 0, la position suivante a la position 1, et ainsi de suite. Selon l’analyseur utilisé, certains jetons peuvent avoir la même position, par exemple s’ils sont synonymes les uns des autres.
startOffset	integer (int32)	Index du premier caractère du jeton dans le texte d’entrée.
token	string	Jeton retourné par l’analyseur.

AnalyzeRequest

Object

Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.

Nom	Type	Description
analyzer	LexicalAnalyzerName	Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un tokenizer à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.
charFilters	CharFilterName[]	Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.
text	string	Texte à décomposer en jetons.
tokenFilters	TokenFilterName[]	Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer.
tokenizer	LexicalTokenizerName	Nom du tokenizer à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement.

AnalyzeResult

Object

Résultat du test d’un analyseur sur du texte.

Nom	Type	Description
tokens	AnalyzedTokenInfo[]	Liste des jetons retournés par l’analyseur spécifié dans la requête.

CharFilterName

Énumération

Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.

Valeur	Description
html_strip	Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Énumération

Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.

Valeur	Description
ar.lucene	Analyseur Lucene pour l’arabe.
ar.microsoft	Analyseur Microsoft pour l’arabe.
bg.lucene	Analyseur Lucene pour bulgare.
bg.microsoft	Analyseur Microsoft pour bulgare.
bn.microsoft	Analyseur Microsoft pour Bangla.
ca.lucene	Analyseur Lucene pour catalan.
ca.microsoft	Analyseur Microsoft pour catalan.
cs.lucene	Analyseur Lucene pour tchèque.
cs.microsoft	Analyseur Microsoft pour tchèque.
da.lucene	Analyseur Lucene pour danois.
da.microsoft	Analyseur Microsoft pour danois.
de.lucene	Analyseur Lucene pour allemand.
de.microsoft	Analyseur Microsoft pour allemand.
el.lucene	Analyseur Lucene pour grec.
el.microsoft	Analyseur Microsoft pour grec.
en.lucene	Analyseur Lucene pour l’anglais.
en.microsoft	Analyseur Microsoft pour l’anglais.
es.lucene	Analyseur Lucene pour l’espagnol.
es.microsoft	Analyseur Microsoft pour l’espagnol.
et.microsoft	Analyseur Microsoft pour estonien.
eu.lucene	Analyseur Lucene pour basque.
fa.lucene	Analyseur Lucene pour Persane.
fi.lucene	Analyseur Lucene pour le finnois.
fi.microsoft	Analyseur Microsoft pour finnois.
fr.lucene	Analyseur Lucene pour français.
fr.microsoft	Analyseur Microsoft pour français.
ga.lucene	Analyseur Lucene pour irlandais.
gl.lucene	Analyseur Lucene pour Galicien.
gu.microsoft	Analyseur Microsoft pour Gujarati.
he.microsoft	Analyseur Microsoft pour hébreu.
hi.lucene	Analyseur Lucene pour hindi.
hi.microsoft	Analyseur Microsoft pour hindi.
hr.microsoft	Analyseur Microsoft pour croate.
hu.lucene	Analyseur Lucene pour hongrois.
hu.microsoft	Analyseur Microsoft pour hongrois.
hy.lucene	Analyseur Lucene pour arménien.
id.lucene	Analyseur Lucene pour l’Indonésien.
id.microsoft	Analyseur Microsoft pour indonésien (Bahasa).
is.microsoft	Analyseur Microsoft pour l’Islande.
it.lucene	Analyseur Lucene pour italien.
it.microsoft	Analyseur Microsoft pour italien.
ja.lucene	Analyseur Lucene pour japonais.
ja.microsoft	Analyseur Microsoft pour japonais.
keyword	Traite l’intégralité du contenu d’un champ comme un seul jeton. Cela est utile pour les données telles que les codes postal, les ID et certains noms de produits. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html
kn.microsoft	Analyseur Microsoft pour Kannada.
ko.lucene	Analyseur Lucene pour coréen.
ko.microsoft	Analyseur Microsoft pour coréen.
lt.microsoft	Analyseur Microsoft pour lituanien.
lv.lucene	Analyseur Lucene pour letton.
lv.microsoft	Analyseur Microsoft pour letton.
ml.microsoft	Analyseur Microsoft pour Malayalam.
mr.microsoft	Analyseur Microsoft pour Marathi.
ms.microsoft	Analyseur Microsoft pour Malay (latin).
nb.microsoft	Analyseur Microsoft pour norvégien (Bokmål).
nl.lucene	Analyseur Lucene pour néerlandais.
nl.microsoft	Analyseur Microsoft pour néerlandais.
no.lucene	Analyseur Lucene pour norvégien.
pa.microsoft	Analyseur Microsoft pour Punjabi.
pattern	Sépare de manière flexible le texte en termes par le biais d’un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html
pl.lucene	Analyseur Lucene pour polonais.
pl.microsoft	Analyseur Microsoft pour polonais.
pt-BR.lucene	Analyseur Lucene pour portugais (Brésil).
pt-BR.microsoft	Analyseur Microsoft pour portugais (Brésil).
pt-PT.lucene	Analyseur Lucene pour portugais (Portugal).
pt-PT.microsoft	Analyseur Microsoft pour portugais (Portugal).
ro.lucene	Analyseur Lucene pour roumain.
ro.microsoft	Analyseur Microsoft pour roumain.
ru.lucene	Analyseur Lucene pour russe.
ru.microsoft	Analyseur Microsoft pour russe.
simple	Divise le texte en lettres non lettres et les convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html
sk.microsoft	Analyseur Microsoft pour slovaque.
sl.microsoft	Analyseur Microsoft pour le Slovène.
sr-cyrillic.microsoft	Analyseur Microsoft pour serbe (cyrillique).
sr-latin.microsoft	Analyseur Microsoft pour serbe (latin).
standard.lucene	Analyseur Lucene standard.
standardasciifolding.lucene	Analyseur Lucene pliant ASCII standard. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers
stop	Divise le texte en lettres non lettres ; Applique les filtres de jetons minuscules et de mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html
sv.lucene	Analyseur Lucene pour suédois.
sv.microsoft	Analyseur Microsoft pour suédois.
ta.microsoft	Analyseur Microsoft pour tamoul.
te.microsoft	Analyseur Microsoft pour Telugu.
th.lucene	Analyseur Lucene pour thaï.
th.microsoft	Analyseur Microsoft pour thaï.
tr.lucene	Analyseur Lucene pour turc.
tr.microsoft	Analyseur Microsoft pour turc.
uk.microsoft	Analyseur Microsoft pour ukrainien.
ur.microsoft	Analyseur Microsoft pour Urdu.
vi.microsoft	Analyseur Microsoft pour le Vietnamien.
whitespace	Analyseur qui utilise le générateur de jetons d’espace blanc. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html
zh-Hans.lucene	Analyseur Lucene pour chinois (simplifié).
zh-Hans.microsoft	Analyseur Microsoft pour chinois (simplifié).
zh-Hant.lucene	Analyseur Lucene pour chinois (traditionnel).
zh-Hant.microsoft	Analyseur Microsoft pour chinois (traditionnel).

LexicalTokenizerName

Énumération

Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.

Valeur	Description
classic	Tokenizer basé sur la grammaire qui convient pour le traitement de la plupart des documents en langue européenne. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html
edgeNGram	Tokenise l’entrée d’un bord en n-grammes de la ou des tailles données. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html
keyword_v2	Émet l’entrée entière sous forme de jeton unique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html
letter	Divise le texte en lettres non lettres. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html
lowercase	Divise le texte en lettres non lettres et les convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html
microsoft_language_stemming_tokenizer	Divise le texte à l’aide de règles spécifiques à la langue et réduit les mots à leurs formulaires de base.
microsoft_language_tokenizer	Divise le texte à l’aide de règles spécifiques à la langue.
nGram	Tokenise l’entrée en n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html
path_hierarchy_v2	Tokenizer pour les hiérarchies similaires au chemin d’accès. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html
pattern	Tokenizer qui utilise le modèle regex correspondant pour construire des jetons distincts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html
standard_v2	Analyseur Lucene standard ; Composé du générateur de jetons standard, du filtre minuscule et du filtre d’arrêt. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html
uax_url_email	Tokenise les URL et les e-mails sous la forme d’un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html
whitespace	Divise le texte à l’espace blanc. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Object

Décrit une condition d’erreur pour l’API.

Nom	Type	Description
code	string	Un ensemble de codes d’erreur définis par le serveur.
details	SearchError[]	Tableau de détails sur des erreurs spécifiques qui ont conduit à cette erreur signalée.
message	string	Représentation lisible par l’homme de l’erreur.

TokenFilterName

Énumération

Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.

Valeur	Description
apostrophe	Supprime tous les caractères après une apostrophe (y compris l’apostrophe elle-même). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html
arabic_normalization	Filtre de jeton qui applique le normaliseur arabe pour normaliser l’orthographie. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html
asciifolding	Convertit les caractères Unicode alphabétiques, numériques et symboliques qui ne figurent pas dans les 127 premiers caractères ASCII (le bloc Unicode « Latin de base ») en leurs équivalents ASCII, s’il existe de tels équivalents. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html
cjk_bigram	Forme des bigrams de termes CJK générés à partir du tokenizer standard. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html
cjk_width	Normalise les différences de largeur CJK. Plie les variantes ASCII pleine chasse en latin de base équivalent, et les variantes Katakana de demi-largeur dans l’équivalent Kana. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html
classic	Supprime les possessifs anglais et les points des acronymes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html
common_grams	Construisez des bigrams pour des termes fréquents lors de l’indexation. Les termes uniques sont toujours indexés, avec des bigrams superposés. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html
edgeNGram_v2	Génère des n-grammes de la ou des tailles données à partir de l’avant ou de l’arrière d’un jeton d’entrée. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html
elision	Supprime les élisions. Par exemple, « l’avion » (l’avion) est converti en « avion » (avion). Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html
german_normalization	Normalise les caractères allemands en fonction des heuristiques de l’algorithme de boule de neige allemand2. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html
hindi_normalization	Normalise le texte en hindi pour supprimer certaines différences dans les variantes orthographiques. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html
indic_normalization	Normalise la représentation Unicode du texte dans les langues indiennes. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html
keyword_repeat	Émet chaque jeton entrant deux fois, une fois en tant que mot clé et une fois en tant que non-mot clé. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html
kstem	Filtre kstem hautes performances pour l’anglais. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html
length	Supprime les mots trop longs ou trop courts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html
limit	Limite le nombre de jetons lors de l’indexation. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html
lowercase	Normalise le texte du jeton en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm
nGram_v2	Génère des n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html
persian_normalization	Applique la normalisation pour persane. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html
phonetic	Créez des jetons pour les correspondances phonétiques. Voir https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html
porter_stem	Utilise l’algorithme de recherche de type Porter pour transformer le flux de jetons. Voir http://tartarus.org/~martin/PorterStemmer
reverse	Inverse la chaîne de jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html
scandinavian_folding	Plie les caractères scandinaves åÅäæÄÆ->a et öÖøØ->o. Il discrimine également contre l’utilisation de voyelles doubles aa, ae, ao, oe et oo, laissant juste la première. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html
scandinavian_normalization	Normalise l’utilisation des caractères scandinaves interchangeables. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html
shingle	Crée des combinaisons de jetons en tant que jeton unique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html
snowball	Filtre qui génère des mots à l’aide d’un générateur de tiges généré par Snowball. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html
sorani_normalization	Normalise la représentation Unicode du texte Sorani. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html
stemmer	Filtre de recherche de recherche spécifique au langage. Voir https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
stopwords	Supprime les mots d’arrêt d’un flux de jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
trim	Supprime les espaces blancs de début et de fin des jetons. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html
truncate	Tronque les termes à une longueur spécifique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html
unique	Filtre les jetons avec le même texte que le jeton précédent. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html
uppercase	Normalise le texte du jeton en majuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html
word_delimiter	Fractionne les mots en sous-mots et effectue des transformations facultatives sur les groupes de sous-mots.

Partager via

Indexes - Analyze

Paramètres URI

En-tête de la demande

Corps de la demande

Réponses

Exemples

SearchServiceIndexAnalyze

Exemple de requête

Exemple de réponse

Définitions

AnalyzedTokenInfo

AnalyzeRequest

AnalyzeResult

CharFilterName

LexicalAnalyzerName

LexicalTokenizerName

SearchError

TokenFilterName