Indexes - Analyze
Montre comment un analyseur décompose le texte en jetons.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
Paramètres URI
Nom | Dans | Obligatoire | Type | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
URL du point de terminaison du service de recherche. |
index
|
path | True |
string |
Nom de l’index pour lequel tester un analyseur. |
api-version
|
query | True |
string |
Version de l’API cliente. |
En-tête de la demande
Nom | Obligatoire | Type | Description |
---|---|---|---|
x-ms-client-request-id |
string uuid |
ID de suivi envoyé avec la demande pour faciliter le débogage. |
Corps de la demande
Nom | Obligatoire | Type | Description |
---|---|---|---|
text | True |
string |
Texte à décomposer en jetons. |
analyzer |
Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un tokenizer à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement. |
||
charFilters |
Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer. |
||
tokenFilters |
Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer. |
||
tokenizer |
Nom du tokenizer à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement. |
Réponses
Nom | Type | Description |
---|---|---|
200 OK | ||
Other Status Codes |
Réponse d’erreur. |
Exemples
SearchServiceIndexAnalyze
Exemple de requête
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Exemple de réponse
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Définitions
Nom | Description |
---|---|
Analyzed |
Informations sur un jeton retourné par un analyseur. |
Analyze |
Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons. |
Analyze |
Résultat du test d’un analyseur sur du texte. |
Char |
Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche. |
Error |
Informations supplémentaires sur l’erreur de gestion des ressources. |
Error |
Détail de l’erreur. |
Error |
Réponse d’erreur |
Lexical |
Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche. |
Lexical |
Définit les noms de tous les tokenizers pris en charge par le moteur de recherche. |
Token |
Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche. |
AnalyzedTokenInfo
Informations sur un jeton retourné par un analyseur.
Nom | Type | Description |
---|---|---|
endOffset |
integer |
Index du dernier caractère du jeton dans le texte d’entrée. |
position |
integer |
Position du jeton dans le texte d’entrée par rapport à d’autres jetons. Le premier jeton du texte d’entrée a la position 0, la position suivante a la position 1, et ainsi de suite. Selon l’analyseur utilisé, certains jetons peuvent avoir la même position, par exemple s’ils sont synonymes les uns des autres. |
startOffset |
integer |
Index du premier caractère du jeton dans le texte d’entrée. |
token |
string |
Jeton retourné par l’analyseur. |
AnalyzeRequest
Spécifie certains composants de texte et d’analyse utilisés pour décomposer ce texte en jetons.
Nom | Type | Description |
---|---|---|
analyzer |
Nom de l’analyseur à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un tokenizer à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement. |
|
charFilters |
Liste facultative de filtres de caractères à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer. |
|
text |
string |
Texte à décomposer en jetons. |
tokenFilters |
Liste facultative de filtres de jetons à utiliser lors de la rupture du texte donné. Ce paramètre ne peut être défini que lors de l’utilisation du paramètre tokenizer. |
|
tokenizer |
Nom du tokenizer à utiliser pour interrompre le texte donné. Si ce paramètre n’est pas spécifié, vous devez spécifier un analyseur à la place. Les paramètres de tokenizer et d’analyseur s’excluent mutuellement. |
AnalyzeResult
Résultat du test d’un analyseur sur du texte.
Nom | Type | Description |
---|---|---|
tokens |
Liste des jetons retournés par l’analyseur spécifié dans la requête. |
CharFilterName
Définit les noms de tous les filtres de caractères pris en charge par le moteur de recherche.
Nom | Type | Description |
---|---|---|
html_strip |
string |
Filtre de caractères qui tente de supprimer les constructions HTML. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Informations supplémentaires sur l’erreur de gestion des ressources.
Nom | Type | Description |
---|---|---|
info |
object |
Informations supplémentaires. |
type |
string |
Type d’informations supplémentaire. |
ErrorDetail
Détail de l’erreur.
Nom | Type | Description |
---|---|---|
additionalInfo |
Informations supplémentaires sur l’erreur. |
|
code |
string |
Code d’erreur. |
details |
Détails de l’erreur. |
|
message |
string |
Message d’erreur. |
target |
string |
Cible d’erreur. |
ErrorResponse
Réponse d’erreur
Nom | Type | Description |
---|---|---|
error |
Objet d’erreur. |
LexicalAnalyzerName
Définit les noms de tous les analyseurs de texte pris en charge par le moteur de recherche.
Nom | Type | Description |
---|---|---|
ar.lucene |
string |
Analyseur Lucene pour l’arabe. |
ar.microsoft |
string |
Analyseur Microsoft pour l’arabe. |
bg.lucene |
string |
Analyseur Lucene pour bulgare. |
bg.microsoft |
string |
Analyseur Microsoft pour bulgare. |
bn.microsoft |
string |
Analyseur Microsoft pour Bangla. |
ca.lucene |
string |
Analyseur Lucene pour catalan. |
ca.microsoft |
string |
Analyseur Microsoft pour catalan. |
cs.lucene |
string |
Analyseur Lucene pour tchèque. |
cs.microsoft |
string |
Analyseur Microsoft pour tchèque. |
da.lucene |
string |
Analyseur Lucene pour danois. |
da.microsoft |
string |
Analyseur Microsoft pour danois. |
de.lucene |
string |
Analyseur Lucene pour allemand. |
de.microsoft |
string |
Analyseur Microsoft pour allemand. |
el.lucene |
string |
Analyseur Lucene pour grec. |
el.microsoft |
string |
Analyseur Microsoft pour grec. |
en.lucene |
string |
Analyseur Lucene pour l’anglais. |
en.microsoft |
string |
Analyseur Microsoft pour l’anglais. |
es.lucene |
string |
Analyseur Lucene pour l’espagnol. |
es.microsoft |
string |
Analyseur Microsoft pour l’espagnol. |
et.microsoft |
string |
Analyseur Microsoft pour estonien. |
eu.lucene |
string |
Analyseur Lucene pour basque. |
fa.lucene |
string |
Analyseur Lucene pour Persane. |
fi.lucene |
string |
Analyseur Lucene pour le finnois. |
fi.microsoft |
string |
Analyseur Microsoft pour finnois. |
fr.lucene |
string |
Analyseur Lucene pour français. |
fr.microsoft |
string |
Analyseur Microsoft pour français. |
ga.lucene |
string |
Analyseur Lucene pour irlandais. |
gl.lucene |
string |
Analyseur Lucene pour Galicien. |
gu.microsoft |
string |
Analyseur Microsoft pour Gujarati. |
he.microsoft |
string |
Analyseur Microsoft pour hébreu. |
hi.lucene |
string |
Analyseur Lucene pour hindi. |
hi.microsoft |
string |
Analyseur Microsoft pour hindi. |
hr.microsoft |
string |
Analyseur Microsoft pour croate. |
hu.lucene |
string |
Analyseur Lucene pour hongrois. |
hu.microsoft |
string |
Analyseur Microsoft pour hongrois. |
hy.lucene |
string |
Analyseur Lucene pour arménien. |
id.lucene |
string |
Analyseur Lucene pour l’Indonésien. |
id.microsoft |
string |
Analyseur Microsoft pour indonésien (Bahasa). |
is.microsoft |
string |
Analyseur Microsoft pour l’Islande. |
it.lucene |
string |
Analyseur Lucene pour italien. |
it.microsoft |
string |
Analyseur Microsoft pour italien. |
ja.lucene |
string |
Analyseur Lucene pour japonais. |
ja.microsoft |
string |
Analyseur Microsoft pour japonais. |
keyword |
string |
Traite l’intégralité du contenu d’un champ comme un seul jeton. Cela est utile pour les données telles que les codes postal, les ID et certains noms de produits. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analyseur Microsoft pour Kannada. |
ko.lucene |
string |
Analyseur Lucene pour coréen. |
ko.microsoft |
string |
Analyseur Microsoft pour coréen. |
lt.microsoft |
string |
Analyseur Microsoft pour lituanien. |
lv.lucene |
string |
Analyseur Lucene pour letton. |
lv.microsoft |
string |
Analyseur Microsoft pour letton. |
ml.microsoft |
string |
Analyseur Microsoft pour Malayalam. |
mr.microsoft |
string |
Analyseur Microsoft pour Marathi. |
ms.microsoft |
string |
Analyseur Microsoft pour Malay (latin). |
nb.microsoft |
string |
Analyseur Microsoft pour norvégien (Bokmål). |
nl.lucene |
string |
Analyseur Lucene pour néerlandais. |
nl.microsoft |
string |
Analyseur Microsoft pour néerlandais. |
no.lucene |
string |
Analyseur Lucene pour norvégien. |
pa.microsoft |
string |
Analyseur Microsoft pour Punjabi. |
pattern |
string |
Sépare de manière flexible le texte en termes par le biais d’un modèle d’expression régulière. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analyseur Lucene pour polonais. |
pl.microsoft |
string |
Analyseur Microsoft pour polonais. |
pt-BR.lucene |
string |
Analyseur Lucene pour portugais (Brésil). |
pt-BR.microsoft |
string |
Analyseur Microsoft pour portugais (Brésil). |
pt-PT.lucene |
string |
Analyseur Lucene pour portugais (Portugal). |
pt-PT.microsoft |
string |
Analyseur Microsoft pour portugais (Portugal). |
ro.lucene |
string |
Analyseur Lucene pour roumain. |
ro.microsoft |
string |
Analyseur Microsoft pour roumain. |
ru.lucene |
string |
Analyseur Lucene pour russe. |
ru.microsoft |
string |
Analyseur Microsoft pour russe. |
simple |
string |
Divise le texte en lettres non lettres et les convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analyseur Microsoft pour slovaque. |
sl.microsoft |
string |
Analyseur Microsoft pour le Slovène. |
sr-cyrillic.microsoft |
string |
Analyseur Microsoft pour serbe (cyrillique). |
sr-latin.microsoft |
string |
Analyseur Microsoft pour serbe (latin). |
standard.lucene |
string |
Analyseur Lucene standard. |
standardasciifolding.lucene |
string |
Analyseur Lucene pliant ASCII standard. Voir https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Divise le texte en lettres non lettres ; Applique les filtres de jetons minuscules et de mots vides. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Analyseur Lucene pour suédois. |
sv.microsoft |
string |
Analyseur Microsoft pour suédois. |
ta.microsoft |
string |
Analyseur Microsoft pour tamoul. |
te.microsoft |
string |
Analyseur Microsoft pour Telugu. |
th.lucene |
string |
Analyseur Lucene pour thaï. |
th.microsoft |
string |
Analyseur Microsoft pour thaï. |
tr.lucene |
string |
Analyseur Lucene pour turc. |
tr.microsoft |
string |
Analyseur Microsoft pour turc. |
uk.microsoft |
string |
Analyseur Microsoft pour ukrainien. |
ur.microsoft |
string |
Analyseur Microsoft pour Urdu. |
vi.microsoft |
string |
Analyseur Microsoft pour le Vietnamien. |
whitespace |
string |
Analyseur qui utilise le générateur de jetons d’espace blanc. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analyseur Lucene pour chinois (simplifié). |
zh-Hans.microsoft |
string |
Analyseur Microsoft pour chinois (simplifié). |
zh-Hant.lucene |
string |
Analyseur Lucene pour chinois (traditionnel). |
zh-Hant.microsoft |
string |
Analyseur Microsoft pour chinois (traditionnel). |
LexicalTokenizerName
Définit les noms de tous les tokenizers pris en charge par le moteur de recherche.
Nom | Type | Description |
---|---|---|
classic |
string |
Tokenizer basé sur la grammaire qui convient pour le traitement de la plupart des documents en langue européenne. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokenise l’entrée d’un bord en n-grammes de la ou des tailles données. Voir https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Émet l’entrée entière sous forme de jeton unique. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Divise le texte en lettres non lettres. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Divise le texte en lettres non lettres et les convertit en minuscules. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Divise le texte à l’aide de règles spécifiques à la langue et réduit les mots à leurs formulaires de base. |
microsoft_language_tokenizer |
string |
Divise le texte à l’aide de règles spécifiques à la langue. |
nGram |
string |
Tokenise l’entrée en n-grammes de la ou des tailles données. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer pour les hiérarchies similaires au chemin d’accès. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer qui utilise le modèle regex correspondant pour construire des jetons distincts. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Analyseur Lucene standard ; Composé du générateur de jetons standard, du filtre minuscule et du filtre d’arrêt. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokenise les URL et les e-mails sous la forme d’un seul jeton. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Divise le texte à l’espace blanc. Voir http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
TokenFilterName
Définit les noms de tous les filtres de jetons pris en charge par le moteur de recherche.