Udostępnij za pośrednictwem


Indexes - Analyze

Pokazuje, jak analizator dzieli tekst na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Adres URL punktu końcowego usługi wyszukiwania.

indexName
path True

string

Nazwa indeksu, dla którego należy przetestować analizator.

api-version
query True

string

Wersja interfejsu API klienta.

Nagłówek żądania

Nazwa Wymagane Typ Opis
x-ms-client-request-id

string

uuid

Identyfikator śledzenia wysłany z żądaniem, aby ułatwić debugowanie.

Treść żądania

Nazwa Wymagane Typ Opis
text True

string

Tekst do podziału na tokeny.

analyzer

LexicalAnalyzerName

Nazwa analizatora do użycia w celu przerwania danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

charFilters

CharFilterName[]

Opcjonalna lista filtrów znaków do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora.

tokenFilters

TokenFilterName[]

Opcjonalna lista filtrów tokenów do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora używanego do dzielenia danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

Odpowiedzi

Nazwa Typ Opis
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

Odpowiedź na błąd.

Przykłady

SearchServiceIndexAnalyze

Przykładowe żądanie

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Przykładowa odpowiedź

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definicje

Nazwa Opis
AnalyzedTokenInfo

Informacje o tokenie zwróconym przez analizator.

AnalyzeRequest

Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.

AnalyzeResult

Wynik testowania analizatora tekstu.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

ErrorAdditionalInfo

Dodatkowe informacje o błędzie zarządzania zasobami.

ErrorDetail

Szczegóły błędu.

ErrorResponse

Odpowiedź na błąd

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

AnalyzedTokenInfo

Informacje o tokenie zwróconym przez analizator.

Nazwa Typ Opis
endOffset

integer

Indeks ostatniego znaku tokenu w tekście wejściowym.

position

integer

Pozycja tokenu w tekście wejściowym względem innych tokenów. Pierwszy token w tekście wejściowym ma pozycję 0, następny ma pozycję 1 itd. W zależności od używanego analizatora niektóre tokeny mogą mieć taką samą pozycję, na przykład jeśli są synonimami siebie nawzajem.

startOffset

integer

Indeks pierwszego znaku tokenu w tekście wejściowym.

token

string

Token zwrócony przez analizator.

AnalyzeRequest

Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.

Nazwa Typ Opis
analyzer

LexicalAnalyzerName

Nazwa analizatora do użycia w celu przerwania danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

charFilters

CharFilterName[]

Opcjonalna lista filtrów znaków do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora.

text

string

Tekst do podziału na tokeny.

tokenFilters

TokenFilterName[]

Opcjonalna lista filtrów tokenów do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizatora.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora używanego do dzielenia danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wzajemnie się wykluczają.

AnalyzeResult

Wynik testowania analizatora tekstu.

Nazwa Typ Opis
tokens

AnalyzedTokenInfo[]

Lista tokenów zwracanych przez analizator określony w żądaniu.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
html_strip

string

Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

ErrorAdditionalInfo

Dodatkowe informacje o błędzie zarządzania zasobami.

Nazwa Typ Opis
info

object

Dodatkowe informacje.

type

string

Dodatkowy typ informacji.

ErrorDetail

Szczegóły błędu.

Nazwa Typ Opis
additionalInfo

ErrorAdditionalInfo[]

Dodatkowe informacje o błędzie.

code

string

Kod błędu.

details

ErrorDetail[]

Szczegóły błędu.

message

string

Komunikat o błędzie.

target

string

Element docelowy błędu.

ErrorResponse

Odpowiedź na błąd

Nazwa Typ Opis
error

ErrorDetail

Obiekt błędu.

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
ar.lucene

string

Analizator Lucene dla języka arabskiego.

ar.microsoft

string

Analizator firmy Microsoft dla języka arabskiego.

bg.lucene

string

Analizator Lucene dla Bułgara.

bg.microsoft

string

Analizator firmy Microsoft dla języka bułgarskiego.

bn.microsoft

string

Analizator firmy Microsoft dla Bangla.

ca.lucene

string

Analizator Lucene dla Katalończyka.

ca.microsoft

string

Analizator firmy Microsoft dla Katalończyków.

cs.lucene

string

Analizator Lucene dla Czech.

cs.microsoft

string

Analizator firmy Microsoft dla Czech.

da.lucene

string

Analizator Lucene dla języka duńskiego.

da.microsoft

string

Analizator firmy Microsoft dla języka duńskiego.

de.lucene

string

Analizator Lucene dla języka niemieckiego.

de.microsoft

string

Analizator firmy Microsoft dla języka niemieckiego.

el.lucene

string

Analizator Lucene dla języka greckiego.

el.microsoft

string

Analizator firmy Microsoft dla języka greckiego.

en.lucene

string

Analizator Lucene dla języka angielskiego.

en.microsoft

string

Analizator firmy Microsoft dla języka angielskiego.

es.lucene

string

Analizator Lucene dla języka hiszpańskiego.

es.microsoft

string

Analizator firmy Microsoft dla języka hiszpańskiego.

et.microsoft

string

Analizator firmy Microsoft dla estońskiego.

eu.lucene

string

Analizator Lucene dla Basków.

fa.lucene

string

Analizator Lucene dla perskiego.

fi.lucene

string

Analizator Lucene dla fińskiego.

fi.microsoft

string

Analizator firmy Microsoft dla języka fińskiego.

fr.lucene

string

Analizator Lucene dla języka francuskiego.

fr.microsoft

string

Analizator firmy Microsoft dla języka francuskiego.

ga.lucene

string

Analizator Lucene dla Irlandii.

gl.lucene

string

Analizator Lucene dla Galicji.

gu.microsoft

string

Analizator firmy Microsoft dla Gujarati.

he.microsoft

string

Analizator firmy Microsoft dla języka hebrajskiego.

hi.lucene

string

Analizator Lucene dla języka hindi.

hi.microsoft

string

Analizator firmy Microsoft dla języka hindi.

hr.microsoft

string

Analizator firmy Microsoft dla chorwackiego.

hu.lucene

string

Analizator Lucene dla Węgier.

hu.microsoft

string

Analizator firmy Microsoft dla węgier.

hy.lucene

string

Analizator Lucene dla Ormiańskiego.

id.lucene

string

Analizator Lucene dla indonezyjskiego.

id.microsoft

string

Analizator firmy Microsoft dla indonezyjskiego (Bahasa).

is.microsoft

string

Analizator firmy Microsoft dla Islandii.

it.lucene

string

Analizator Lucene dla włocha.

it.microsoft

string

Analizator firmy Microsoft dla języka włoskiego.

ja.lucene

string

Analizator Lucene dla języka japońskiego.

ja.microsoft

string

Analizator firmy Microsoft dla języka japońskiego.

keyword

string

Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Analizator firmy Microsoft dla kannada.

ko.lucene

string

Analizator Lucene dla języka koreańskiego.

ko.microsoft

string

Analizator firmy Microsoft dla języka koreańskiego.

lt.microsoft

string

Analizator firmy Microsoft dla Litewskiego.

lv.lucene

string

Analizator Lucene dla Łotewskiego.

lv.microsoft

string

Analizator firmy Microsoft dla Łotewskiego.

ml.microsoft

string

Microsoft analyzer for Malayalam.

mr.microsoft

string

Analizator firmy Microsoft dla Marathi.

ms.microsoft

string

Analizator firmy Microsoft dla Malay (łaciński).

nb.microsoft

string

Analizator firmy Microsoft dla norweskiego (Bokmål).

nl.lucene

string

Analizator Lucene dla Holandii.

nl.microsoft

string

Analizator firmy Microsoft dla holendrów.

no.lucene

string

Analizator Lucene dla Norweskiego.

pa.microsoft

string

Analizator firmy Microsoft dla Punjabi.

pattern

string

Elastycznie oddziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analizator Lucene dla polski.

pl.microsoft

string

Analizator firmy Microsoft dla polski.

pt-BR.lucene

string

Analizator Lucene dla języka portugalskiego (Brazylia).

pt-BR.microsoft

string

Analizator firmy Microsoft dla języka portugalskiego (Brazylia).

pt-PT.lucene

string

Analizator Lucene dla portugalskiego (Portugalia).

pt-PT.microsoft

string

Analizator firmy Microsoft dla portugalskich (Portugalia).

ro.lucene

string

Analizator Lucene dla rumuńskiego.

ro.microsoft

string

Analizator firmy Microsoft dla języka rumuńskiego.

ru.lucene

string

Analizator Lucene dla Rosji.

ru.microsoft

string

Analizator firmy Microsoft dla języka rosyjskiego.

simple

string

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analizator firmy Microsoft dla słowaków.

sl.microsoft

string

Analizator firmy Microsoft dla Słowenii.

sr-cyrillic.microsoft

string

Analizator firmy Microsoft dla serbskiego (cyrylica).

sr-latin.microsoft

string

Analizator firmy Microsoft dla serbskiego (łaciński).

standard.lucene

string

Standardowy analizator Lucene.

standardasciifolding.lucene

string

Standardowy analizator Lucene składania ASCII. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analizator Lucene dla szwedzkiego.

sv.microsoft

string

Analizator firmy Microsoft dla języka szwedzkiego.

ta.microsoft

string

Analizator firmy Microsoft dla Tamilu.

te.microsoft

string

Microsoft analyzer for Telugu.

th.lucene

string

Analizator Lucene dla języka tajskiego.

th.microsoft

string

Analizator firmy Microsoft dla języka tajskiego.

tr.lucene

string

Analizator Lucene dla języka tureckiego.

tr.microsoft

string

Analizator firmy Microsoft dla języka tureckiego.

uk.microsoft

string

Analizator firmy Microsoft dla Ukrainy.

ur.microsoft

string

Microsoft analyzer for Urdu.

vi.microsoft

string

Analizator firmy Microsoft dla wietnamskich.

whitespace

string

Analizator używający tokenizatora odstępów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analizator Lucene dla języka chińskiego (uproszczony).

zh-Hans.microsoft

string

Analizator firmy Microsoft dla języka chińskiego (uproszczony).

zh-Hant.lucene

string

Analizator Lucene dla języka chińskiego (tradycyjny).

zh-Hant.microsoft

string

Analizator firmy Microsoft dla języka chińskiego (tradycyjny).

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
classic

string

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Dzieli tekst na litery inne niż litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich podstawowych formularzy.

microsoft_language_tokenizer

string

Dzieli tekst przy użyciu reguł specyficznych dla języka.

nGram

string

Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer dla hierarchii przypominających ścieżkę. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizer, który używa dopasowania wzorca wyrażeń regularnych do konstruowania unikatowych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standardowy analizator Lucene; Składa się z standardowego tokenizatora, małe litery filtru i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Dzieli tekst na białe znaki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
apostrophe

string

Usuwa wszystkie znaki po apostrofie (w tym sam apostrof). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtr tokenu, który stosuje arabski normalizator w celu normalizacji ortografii. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Konwertuje znaki alfabetyczne, liczbowe i symboliczne Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (bloku Unicode "Basic Latin") na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalizuje różnice szerokości zestawu CJK. Składa warianty fullwidth ASCII do równoważnego podstawowego łacińskiego i pół szerokości Warianty Katakana w odpowiednik Kana. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Usuwa angielskie opętacze i kropki z akronimów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy są nakładane. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Generuje n-gramy danego rozmiaru, zaczynając od przodu lub z tyłu tokenu wejściowego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalizuje niemieckie znaki według heurystyki algorytmu śnieżki German2. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalizuje tekst w języku hindi, aby usunąć pewne różnice w odmianach pisowni. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalizuje reprezentację tekstu w języku indyjskim w formacie Unicode. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emituje dwa razy każdy token przychodzący, raz jako słowo kluczowe i raz jako nie-słowo kluczowe. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Wysokowydajny filtr kstem dla języka angielskiego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Usuwa wyrazy, które są za długie lub za krótkie. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Ogranicza liczbę tokenów podczas indeksowania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalizuje tekst tokenu do małych liter. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

string

Generuje n-gramy danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Stosuje normalizację dla perskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Tworzenie tokenów dla dopasowań fonetycznych. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Używa algorytmu macierzystego portera do przekształcania strumienia tokenu. Zobacz http://tartarus.org/~martin/PorterStemmer

reverse

string

Odwraca ciąg tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Składa skandynawskie znaki åÅäæÄÆ->a i öÖøØ->o. Dyskryminuje również stosowanie podwójnych ślubów aa, ae, ao, oe i oo, pozostawiając tylko pierwszy. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalizuje użycie zamiennych znaków skandynawskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Tworzy kombinacje tokenów jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtr, który wynika ze słów przy użyciu stemmeru wygenerowanego przez Śnieżkę. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalizuje reprezentację Unicode tekstu Sorani. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtr macierzysty specyficzny dla języka. Zobacz https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Usuwa słowa zatrzymania ze strumienia tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Przycina wiodące i końcowe odstępy od tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Obcina terminy do określonej długości. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtruje tokeny z tym samym tekstem co poprzedni token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalizuje tekst tokenu na wielkie litery. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Dzieli wyrazy na subwords i wykonuje opcjonalne przekształcenia w grupach podrzędnych.