Indexes - Analyze
Pokazuje, jak analizator dzieli tekst na tokeny.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
Parametry identyfikatora URI
Nazwa | W | Wymagane | Typ | Opis |
---|---|---|---|---|
endpoint
|
path | True |
string |
Adres URL punktu końcowego usługi wyszukiwania. |
index
|
path | True |
string |
Nazwa indeksu, dla którego należy przetestować analizator. |
api-version
|
query | True |
string |
Wersja interfejsu API klienta. |
Nagłówek żądania
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Identyfikator śledzenia wysłany z żądaniem, aby ułatwić debugowanie. |
Treść żądania
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
text | True |
string |
Tekst do podziału na tokeny. |
analyzer |
Nazwa analizatora do użycia w celu przerwania danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają. |
||
charFilters |
Opcjonalna lista filtrów znaków do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora. |
||
tokenFilters |
Opcjonalna lista filtrów tokenów do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora. |
||
tokenizer |
Nazwa tokenizatora używanego do dzielenia danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają. |
Odpowiedzi
Nazwa | Typ | Opis |
---|---|---|
200 OK | ||
Other Status Codes |
Odpowiedź na błąd. |
Przykłady
SearchServiceIndexAnalyze
Przykładowe żądanie
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Przykładowa odpowiedź
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definicje
Nazwa | Opis |
---|---|
Analyzed |
Informacje o tokenie zwróconym przez analizator. |
Analyze |
Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny. |
Analyze |
Wynik testowania analizatora tekstu. |
Char |
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę. |
Error |
Dodatkowe informacje o błędzie zarządzania zasobami. |
Error |
Szczegóły błędu. |
Error |
Odpowiedź na błąd |
Lexical |
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę. |
Lexical |
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę. |
Token |
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę. |
AnalyzedTokenInfo
Informacje o tokenie zwróconym przez analizator.
Nazwa | Typ | Opis |
---|---|---|
endOffset |
integer |
Indeks ostatniego znaku tokenu w tekście wejściowym. |
position |
integer |
Pozycja tokenu w tekście wejściowym względem innych tokenów. Pierwszy token w tekście wejściowym ma pozycję 0, następny ma pozycję 1 itd. W zależności od używanego analizatora niektóre tokeny mogą mieć taką samą pozycję, na przykład jeśli są synonimami siebie nawzajem. |
startOffset |
integer |
Indeks pierwszego znaku tokenu w tekście wejściowym. |
token |
string |
Token zwrócony przez analizator. |
AnalyzeRequest
Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.
Nazwa | Typ | Opis |
---|---|---|
analyzer |
Nazwa analizatora do użycia w celu przerwania danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają. |
|
charFilters |
Opcjonalna lista filtrów znaków do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora. |
|
text |
string |
Tekst do podziału na tokeny. |
tokenFilters |
Opcjonalna lista filtrów tokenów do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora. |
|
tokenizer |
Nazwa tokenizatora używanego do dzielenia danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają. |
AnalyzeResult
Wynik testowania analizatora tekstu.
Nazwa | Typ | Opis |
---|---|---|
tokens |
Lista tokenów zwracanych przez analizator określony w żądaniu. |
CharFilterName
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
html_strip |
string |
Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Dodatkowe informacje o błędzie zarządzania zasobami.
Nazwa | Typ | Opis |
---|---|---|
info |
object |
Dodatkowe informacje. |
type |
string |
Dodatkowy typ informacji. |
ErrorDetail
Szczegóły błędu.
Nazwa | Typ | Opis |
---|---|---|
additionalInfo |
Dodatkowe informacje o błędzie. |
|
code |
string |
Kod błędu. |
details |
Szczegóły błędu. |
|
message |
string |
Komunikat o błędzie. |
target |
string |
Element docelowy błędu. |
ErrorResponse
Odpowiedź na błąd
Nazwa | Typ | Opis |
---|---|---|
error |
Obiekt błędu. |
LexicalAnalyzerName
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
ar.lucene |
string |
Analizator Lucene dla języka arabskiego. |
ar.microsoft |
string |
Analizator firmy Microsoft dla języka arabskiego. |
bg.lucene |
string |
Analizator Lucene dla Bułgara. |
bg.microsoft |
string |
Analizator firmy Microsoft dla języka bułgarskiego. |
bn.microsoft |
string |
Analizator firmy Microsoft dla Bangla. |
ca.lucene |
string |
Analizator Lucene dla Katalończyka. |
ca.microsoft |
string |
Analizator firmy Microsoft dla Katalończyków. |
cs.lucene |
string |
Analizator Lucene dla Czech. |
cs.microsoft |
string |
Analizator firmy Microsoft dla Czech. |
da.lucene |
string |
Analizator Lucene dla języka duńskiego. |
da.microsoft |
string |
Analizator firmy Microsoft dla języka duńskiego. |
de.lucene |
string |
Analizator Lucene dla języka niemieckiego. |
de.microsoft |
string |
Analizator firmy Microsoft dla języka niemieckiego. |
el.lucene |
string |
Analizator Lucene dla języka greckiego. |
el.microsoft |
string |
Analizator firmy Microsoft dla języka greckiego. |
en.lucene |
string |
Analizator Lucene dla języka angielskiego. |
en.microsoft |
string |
Analizator firmy Microsoft dla języka angielskiego. |
es.lucene |
string |
Analizator Lucene dla języka hiszpańskiego. |
es.microsoft |
string |
Analizator firmy Microsoft dla języka hiszpańskiego. |
et.microsoft |
string |
Analizator firmy Microsoft dla estońskiego. |
eu.lucene |
string |
Analizator Lucene dla Basków. |
fa.lucene |
string |
Analizator Lucene dla perskiego. |
fi.lucene |
string |
Analizator Lucene dla fińskiego. |
fi.microsoft |
string |
Analizator firmy Microsoft dla języka fińskiego. |
fr.lucene |
string |
Analizator Lucene dla języka francuskiego. |
fr.microsoft |
string |
Analizator firmy Microsoft dla języka francuskiego. |
ga.lucene |
string |
Analizator Lucene dla Irlandii. |
gl.lucene |
string |
Analizator Lucene dla Galicji. |
gu.microsoft |
string |
Analizator firmy Microsoft dla Gujarati. |
he.microsoft |
string |
Analizator firmy Microsoft dla języka hebrajskiego. |
hi.lucene |
string |
Analizator Lucene dla języka hindi. |
hi.microsoft |
string |
Analizator firmy Microsoft dla języka hindi. |
hr.microsoft |
string |
Analizator firmy Microsoft dla chorwackiego. |
hu.lucene |
string |
Analizator Lucene dla Węgier. |
hu.microsoft |
string |
Analizator firmy Microsoft dla węgier. |
hy.lucene |
string |
Analizator Lucene dla Ormiańskiego. |
id.lucene |
string |
Analizator Lucene dla indonezyjskiego. |
id.microsoft |
string |
Analizator firmy Microsoft dla indonezyjskiego (Bahasa). |
is.microsoft |
string |
Analizator firmy Microsoft dla Islandii. |
it.lucene |
string |
Analizator Lucene dla włocha. |
it.microsoft |
string |
Analizator firmy Microsoft dla języka włoskiego. |
ja.lucene |
string |
Analizator Lucene dla języka japońskiego. |
ja.microsoft |
string |
Analizator firmy Microsoft dla języka japońskiego. |
keyword |
string |
Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analizator firmy Microsoft dla kannada. |
ko.lucene |
string |
Analizator Lucene dla języka koreańskiego. |
ko.microsoft |
string |
Analizator firmy Microsoft dla języka koreańskiego. |
lt.microsoft |
string |
Analizator firmy Microsoft dla Litewskiego. |
lv.lucene |
string |
Analizator Lucene dla Łotewskiego. |
lv.microsoft |
string |
Analizator firmy Microsoft dla Łotewskiego. |
ml.microsoft |
string |
Microsoft analyzer for Malayalam. |
mr.microsoft |
string |
Analizator firmy Microsoft dla Marathi. |
ms.microsoft |
string |
Analizator firmy Microsoft dla Malay (łaciński). |
nb.microsoft |
string |
Analizator firmy Microsoft dla norweskiego (Bokmål). |
nl.lucene |
string |
Analizator Lucene dla Holandii. |
nl.microsoft |
string |
Analizator firmy Microsoft dla holendrów. |
no.lucene |
string |
Analizator Lucene dla Norweskiego. |
pa.microsoft |
string |
Analizator firmy Microsoft dla Punjabi. |
pattern |
string |
Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analizator Lucene dla polski. |
pl.microsoft |
string |
Analizator firmy Microsoft dla polski. |
pt-BR.lucene |
string |
Analizator Lucene dla języka portugalskiego (Brazylia). |
pt-BR.microsoft |
string |
Analizator firmy Microsoft dla języka portugalskiego (Brazylia). |
pt-PT.lucene |
string |
Analizator Lucene dla portugalskiego (Portugalia). |
pt-PT.microsoft |
string |
Analizator firmy Microsoft dla portugalskich (Portugalia). |
ro.lucene |
string |
Analizator Lucene dla rumuńskiego. |
ro.microsoft |
string |
Analizator firmy Microsoft dla języka rumuńskiego. |
ru.lucene |
string |
Analizator Lucene dla Rosji. |
ru.microsoft |
string |
Analizator firmy Microsoft dla języka rosyjskiego. |
simple |
string |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analizator firmy Microsoft dla słowaków. |
sl.microsoft |
string |
Analizator firmy Microsoft dla Słowenii. |
sr-cyrillic.microsoft |
string |
Analizator firmy Microsoft dla serbskiego (cyrylica). |
sr-latin.microsoft |
string |
Analizator firmy Microsoft dla serbskiego (łaciński). |
standard.lucene |
string |
Standardowy analizator Lucene. |
standardasciifolding.lucene |
string |
Standardowy analizator Lucene składania ASCII. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Analizator Lucene dla szwedzkiego. |
sv.microsoft |
string |
Analizator firmy Microsoft dla języka szwedzkiego. |
ta.microsoft |
string |
Analizator firmy Microsoft dla Tamilu. |
te.microsoft |
string |
Microsoft analyzer for Telugu. |
th.lucene |
string |
Analizator Lucene dla języka tajskiego. |
th.microsoft |
string |
Analizator firmy Microsoft dla języka tajskiego. |
tr.lucene |
string |
Analizator Lucene dla języka tureckiego. |
tr.microsoft |
string |
Analizator firmy Microsoft dla języka tureckiego. |
uk.microsoft |
string |
Analizator firmy Microsoft dla Ukrainy. |
ur.microsoft |
string |
Microsoft analyzer for Urdu. |
vi.microsoft |
string |
Analizator firmy Microsoft dla wietnamskich. |
whitespace |
string |
Analizator używający tokenizatora odstępów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analizator Lucene dla języka chińskiego (uproszczony). |
zh-Hans.microsoft |
string |
Analizator firmy Microsoft dla języka chińskiego (uproszczony). |
zh-Hant.lucene |
string |
Analizator Lucene dla języka chińskiego (tradycyjny). |
zh-Hant.microsoft |
string |
Analizator firmy Microsoft dla języka chińskiego (tradycyjny). |
LexicalTokenizerName
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
classic |
string |
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Dzieli tekst na litery inne niż litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich podstawowych formularzy. |
microsoft_language_tokenizer |
string |
Dzieli tekst przy użyciu reguł specyficznych dla języka. |
nGram |
string |
Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer dla hierarchii przypominających ścieżkę. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer, który używa dopasowania wzorca wyrażeń regularnych do konstruowania unikatowych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standardowy analizator Lucene; Składa się z standardowego tokenizatora, małe litery filtru i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Dzieli tekst na białe znaki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
TokenFilterName
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.