Indexes - Analyze

Pokazuje, jak analizator dzieli tekst na tokeny.

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

Parametry identyfikatora URI

Nazwa W Wymagane Typ Opis
endpoint
path True

string

Adres URL punktu końcowego usługi wyszukiwania.

indexName
path True

string

Nazwa indeksu, dla którego należy przetestować analizator.

api-version
query True

string

Wersja interfejsu API klienta.

Nagłówek żądania

Nazwa Wymagane Typ Opis
x-ms-client-request-id

string

uuid

Identyfikator śledzenia wysłany z żądaniem, aby ułatwić debugowanie.

Treść żądania

Nazwa Wymagane Typ Opis
text True

string

Tekst do podziału na tokeny.

analyzer

LexicalAnalyzerName

Nazwa analizatora do użycia w celu przerwania danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wykluczają się wzajemnie.

charFilters

CharFilterName[]

Opcjonalna lista filtrów znaków do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizer.

tokenFilters

TokenFilterName[]

Opcjonalna lista filtrów tokenów do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizer.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora używanego do dzielenia danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wykluczają się wzajemnie.

Odpowiedzi

Nazwa Typ Opis
200 OK

AnalyzeResult

Other Status Codes

SearchError

Odpowiedź na błąd.

Przykłady

SearchServiceIndexAnalyze

Sample Request

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

Definicje

Nazwa Opis
AnalyzedTokenInfo

Informacje o tokenie zwracanym przez analizator.

AnalyzeRequest

Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.

AnalyzeResult

Wynik testowania analizatora tekstu.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

SearchError

Opisuje warunek błędu dla interfejsu API.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

AnalyzedTokenInfo

Informacje o tokenie zwracanym przez analizator.

Nazwa Typ Opis
endOffset

integer

Indeks ostatniego znaku tokenu w tekście wejściowym.

position

integer

Pozycja tokenu w tekście wejściowym względem innych tokenów. Pierwszy token w tekście wejściowym ma pozycję 0, następny ma pozycję 1 itd. W zależności od używanego analizatora niektóre tokeny mogą mieć taką samą pozycję, na przykład jeśli są synonimami siebie nawzajem.

startOffset

integer

Indeks pierwszego znaku tokenu w tekście wejściowym.

token

string

Token zwrócony przez analizator.

AnalyzeRequest

Określa niektóre składniki tekstowe i analityczne używane do dzielenia tego tekstu na tokeny.

Nazwa Typ Opis
analyzer

LexicalAnalyzerName

Nazwa analizatora do użycia w celu przerwania danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić tokenizator. Parametry tokenizatora i analizatora wykluczają się wzajemnie.

charFilters

CharFilterName[]

Opcjonalna lista filtrów znaków do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizer.

text

string

Tekst do podziału na tokeny.

tokenFilters

TokenFilterName[]

Opcjonalna lista filtrów tokenów do użycia podczas przerywania danego tekstu. Ten parametr można ustawić tylko w przypadku używania parametru tokenizer.

tokenizer

LexicalTokenizerName

Nazwa tokenizatora używanego do dzielenia danego tekstu. Jeśli ten parametr nie zostanie określony, należy zamiast tego określić analizator. Parametry tokenizatora i analizatora wykluczają się wzajemnie.

AnalyzeResult

Wynik testowania analizatora tekstu.

Nazwa Typ Opis
tokens

AnalyzedTokenInfo[]

Lista tokenów zwracanych przez analizator określony w żądaniu.

CharFilterName

Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
html_strip

string

Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

LexicalAnalyzerName

Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
ar.lucene

string

Analizator Lucene dla języka arabskiego.

ar.microsoft

string

Analizator firmy Microsoft dla języka arabskiego.

bg.lucene

string

Analizator Lucene dla Bułgarskiego.

bg.microsoft

string

Analizator firmy Microsoft dla języka bułgarskiego.

bn.microsoft

string

Analizator firmy Microsoft dla Bangla.

ca.lucene

string

Analizator Lucene dla Katalończyka.

ca.microsoft

string

Analizator firmy Microsoft dla katalońskiego.

cs.lucene

string

Analizator Lucene dla języka czeskiego.

cs.microsoft

string

Analizator firmy Microsoft dla języka czeskiego.

da.lucene

string

Analizator Lucene dla języka duńskiego.

da.microsoft

string

Analizator firmy Microsoft dla języka duńskiego.

de.lucene

string

Analizator Lucene dla języka niemieckiego.

de.microsoft

string

Analizator firmy Microsoft dla języka niemieckiego.

el.lucene

string

Analizator Lucene dla języka greckiego.

el.microsoft

string

Analizator firmy Microsoft dla języka greckiego.

en.lucene

string

Analizator Lucene dla języka angielskiego.

en.microsoft

string

Microsoft analyzer dla języka angielskiego.

es.lucene

string

Analizator Lucene dla języka hiszpańskiego.

es.microsoft

string

Analizator firmy Microsoft dla języka hiszpańskiego.

et.microsoft

string

Analizator firmy Microsoft dla języka estońskiego.

eu.lucene

string

Analizator Lucene dla Basków.

fa.lucene

string

Analizator Lucene dla Perskiego.

fi.lucene

string

Analizator Lucene dla fińskiego.

fi.microsoft

string

Analizator firmy Microsoft dla języka fińskiego.

fr.lucene

string

Analizator Lucene dla języka francuskiego.

fr.microsoft

string

Analizator firmy Microsoft dla języka francuskiego.

ga.lucene

string

Analizator Lucene dla Irlandii.

gl.lucene

string

Analizator Lucene dla Galicji.

gu.microsoft

string

Analizator firmy Microsoft dla Gujarati.

he.microsoft

string

Analizator firmy Microsoft dla języka hebrajskiego.

hi.lucene

string

Analizator Lucene dla języka hindi.

hi.microsoft

string

Analizator firmy Microsoft dla języka hindi.

hr.microsoft

string

Analizator firmy Microsoft dla Chorwacji.

hu.lucene

string

Analizator Lucene dla języka węgierskiego.

hu.microsoft

string

Analizator firmy Microsoft dla języka węgierskiego.

hy.lucene

string

Analizator Lucene dla Ormiańskiego.

id.lucene

string

Analizator Lucene dla indonezyjskiego.

id.microsoft

string

Analizator firmy Microsoft dla indonezyjskiego (Bahasa).

is.microsoft

string

Analizator firmy Microsoft dla islandii.

it.lucene

string

Analizator Lucene dla Włocha.

it.microsoft

string

Analizator firmy Microsoft dla języka włoskiego.

ja.lucene

string

Analizator Lucene dla języka japońskiego.

ja.microsoft

string

Analizator firmy Microsoft dla języka japońskiego.

keyword

string

Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

Microsoft analyzer dla Kannada.

ko.lucene

string

Analizator Lucene dla języka koreańskiego.

ko.microsoft

string

Analizator firmy Microsoft dla języka koreańskiego.

lt.microsoft

string

Analizator firmy Microsoft dla Litwy.

lv.lucene

string

Analizator Lucene dla Łotewskiego.

lv.microsoft

string

Analizator firmy Microsoft dla Łotewskiego.

ml.microsoft

string

Analizator firmy Microsoft dla malajalamu.

mr.microsoft

string

Microsoft analyzer dla Marathi.

ms.microsoft

string

Microsoft analyzer dla Malay (łaciński).

nb.microsoft

string

Analizator firmy Microsoft dla języka norweskiego (Bokmål).

nl.lucene

string

Analizator Lucene dla Holendra.

nl.microsoft

string

Analizator firmy Microsoft dla języka holenderskiego.

no.lucene

string

Analizator Lucene dla norweskiego.

pa.microsoft

string

Analizator firmy Microsoft dla Punjabi.

pattern

string

Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Analizator Lucene dla polski.

pl.microsoft

string

Microsoft analyzer dla polski.

pt-BR.lucene

string

Analizator Lucene dla portugalskiego (Brazylia).

pt-BR.microsoft

string

Analizator firmy Microsoft dla języka portugalskiego (Brazylia).

pt-PT.lucene

string

Analizator Lucene dla portugalskiego (Portugalia).

pt-PT.microsoft

string

Analizator firmy Microsoft dla języka portugalskiego (Portugalia).

ro.lucene

string

Analizator Lucene dla języka rumuńskiego.

ro.microsoft

string

Analizator firmy Microsoft dla języka rumuńskiego.

ru.lucene

string

Analizator Lucene dla języka rosyjskiego.

ru.microsoft

string

Analizator firmy Microsoft dla języka rosyjskiego.

simple

string

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

Analizator firmy Microsoft dla języka słowackiego.

sl.microsoft

string

Analizator firmy Microsoft dla słowenii.

sr-cyrillic.microsoft

string

Analizator firmy Microsoft dla serbskiego (cyrylica).

sr-latin.microsoft

string

Analizator firmy Microsoft dla serbskiego (łacińskiego).

standard.lucene

string

Standardowy analizator Lucene.

standardasciifolding.lucene

string

Standardowy analizator Lucene składany ASCII. Zobacz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

Analizator Lucene dla szwedzkiego.

sv.microsoft

string

Analizator firmy Microsoft dla języka szwedzkiego.

ta.microsoft

string

Analizator firmy Microsoft dla Tamilu.

te.microsoft

string

Analizator firmy Microsoft dla usługi Telugu.

th.lucene

string

Analizator Lucene dla języka tajskiego.

th.microsoft

string

Analizator firmy Microsoft dla języka tajskiego.

tr.lucene

string

Analizator Lucene dla języka tureckiego.

tr.microsoft

string

Analizator firmy Microsoft dla języka tureckiego.

uk.microsoft

string

Analizator firmy Microsoft dla Ukrainy.

ur.microsoft

string

Microsoft analyzer dla Urdu.

vi.microsoft

string

Analizator firmy Microsoft dla wietnamskich.

whitespace

string

Analizator używający tokenizatora odstępów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

Analizator Lucene dla języka chińskiego (uproszczony).

zh-Hans.microsoft

string

Analizator firmy Microsoft dla języka chińskiego (uproszczony).

zh-Hant.lucene

string

Analizator Lucene dla języka chińskiego (tradycyjny).

zh-Hant.microsoft

string

Analizator firmy Microsoft dla języka chińskiego (tradycyjny).

LexicalTokenizerName

Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
classic

string

Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

Dzieli tekst na litery inne niż litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy bazowych.

microsoft_language_tokenizer

string

Dzieli tekst przy użyciu reguł specyficznych dla języka.

nGram

string

Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

Tokenizer dla hierarchii przypominających ścieżkę. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

Tokenizator, który używa dopasowania wzorca wyrażeń regularnych do konstruowania odrębnych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

Standardowy analizator Lucene; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

Dzieli tekst na białe znaki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

SearchError

Opisuje warunek błędu dla interfejsu API.

Nazwa Typ Opis
code

string

Jeden z zdefiniowanych przez serwer zestaw kodów błędów.

details

SearchError[]

Tablica szczegółów dotyczących określonych błędów, które doprowadziły do tego zgłoszonego błędu.

message

string

Czytelna dla człowieka reprezentacja błędu.

TokenFilterName

Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.

Nazwa Typ Opis
apostrophe

string

Usuwa wszystkie znaki po apostrofie (w tym sam apostrof). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

Filtr tokenu, który stosuje arabski normalizator w celu normalizacji ortografii. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

Konwertuje znaki alfabetyczne, numeryczne i symboliczne Znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok "Basic Latin" Unicode) na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

Normalizuje różnice szerokości CJK. Składa warianty fullwidth ASCII w równoważnym podstawowym języku łacińskim, a warianty Katakana o połowie szerokości do równoważnej Kana. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

Usuwa angielskie opętacze i kropki z akronimów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy nakładają się. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

Generuje n-gramy danych rozmiarów, zaczynając od przodu lub z tyłu tokenu wejściowego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

Normalizuje znaki niemieckie według algorytmu heurystyki german2 snowball. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

Normalizuje tekst w języku hindi, aby usunąć pewne różnice w odmianach pisowni. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

Normalizuje reprezentację tekstu w języku indyjskim w formacie Unicode. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

Emituje dwa razy każdy token przychodzący, raz jako słowo kluczowe i raz jako nie-słowo kluczowe. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

Filtr kstem o wysokiej wydajności dla języka angielskiego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

Usuwa wyrazy, które są za długie lub zbyt krótkie. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

Ogranicza liczbę tokenów podczas indeksowania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

Normalizuje tekst tokenu do małych liter. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

Generuje n-gramy dla danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

Stosuje normalizację perskiej. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

Tworzenie tokenów dla dopasowań fonetycznych. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

Używa algorytmu uczenia macierzystego usługi Porter do przekształcania strumienia tokenu. Zobacz http://tartarus.org/~martin/PorterStemmer

reverse

string

Odwraca ciąg tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

Składa skandynawskie znaki åÅäæÄÆ-a> i öÖøØ-o>. Dyskryminuje również stosowanie podwójnych samogłosek aa, ae, ao, oe i oo, pozostawiając tylko pierwszy. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

Normalizuje użycie wymiennych znaków skandynawskich. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

Tworzy kombinacje tokenów jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

Filtr, który tworzy wyrazy przy użyciu stemmer wygenerowanego przez Snowball. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

Normalizuje reprezentację unicode tekstu Sorani. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

Filtr macierzysły specyficzny dla języka. Zobacz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

Usuwa słowa zatrzymania ze strumienia tokenu. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

Przycina wiodące i końcowe białe znaki z tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

Obcina terminy do określonej długości. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

Filtruje tokeny z tym samym tekstem co poprzedni token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

Normalizuje tekst tokenu na wielkie litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

Dzieli wyrazy na słowa podrzędne i wykonuje opcjonalne przekształcenia w grupach podrzędnych.