Indexes - Analyze
Zeigt, wie ein Analyzer Text in Token umbricht.
POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01
URI-Parameter
Name | In | Erforderlich | Typ | Beschreibung |
---|---|---|---|---|
endpoint
|
path | True |
string |
Die Endpunkt-URL des Suchdiensts. |
index
|
path | True |
string |
Der Name des Indexes, für den ein Analyzer getestet werden soll. |
api-version
|
query | True |
string |
Client-API-Version. |
Anforderungsheader
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Die Tracking-ID, die mit der Anforderung gesendet wurde, um beim Debuggen zu helfen. |
Anforderungstext
Name | Erforderlich | Typ | Beschreibung |
---|---|---|---|
text | True |
string |
Der Text, der in Token unterteilt werden soll. |
analyzer |
Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus. |
||
charFilters |
Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden. |
||
tokenFilters |
Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden. |
||
tokenizer |
Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus. |
Antworten
Name | Typ | Beschreibung |
---|---|---|
200 OK | ||
Other Status Codes |
Fehlerantwort. |
Beispiele
SearchServiceIndexAnalyze
Beispielanforderung
POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01
{
"text": "Text to analyze",
"analyzer": "standard.lucene"
}
Beispiel für eine Antwort
{
"tokens": [
{
"token": "text",
"startOffset": 0,
"endOffset": 4,
"position": 0
},
{
"token": "to",
"startOffset": 5,
"endOffset": 7,
"position": 1
},
{
"token": "analyze",
"startOffset": 8,
"endOffset": 15,
"position": 2
}
]
}
Definitionen
Name | Beschreibung |
---|---|
Analyzed |
Informationen zu einem token, das von einem Analyzer zurückgegeben wird. |
Analyze |
Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden. |
Analyze |
Das Ergebnis des Tests eines Analyzers auf Text. |
Char |
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden. |
Error |
Der Ressourcenverwaltungsfehler zusätzliche Informationen. |
Error |
Das Fehlerdetails. |
Error |
Fehlerantwort |
Lexical |
Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden. |
Lexical |
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden. |
Token |
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden. |
AnalyzedTokenInfo
Informationen zu einem token, das von einem Analyzer zurückgegeben wird.
Name | Typ | Beschreibung |
---|---|---|
endOffset |
integer |
Der Index des letzten Zeichens des Tokens im Eingabetext. |
position |
integer |
Die Position des Tokens im Eingabetext relativ zu anderen Token. Das erste Token im Eingabetext hat Position 0, die nächste hat Position 1 usw. Abhängig von der verwendeten Analyse haben einige Token möglicherweise dieselbe Position, z. B. wenn sie Synonyme voneinander sind. |
startOffset |
integer |
Der Index des ersten Zeichens des Tokens im Eingabetext. |
token |
string |
Das vom Analyzer zurückgegebene Token. |
AnalyzeRequest
Gibt einige Text- und Analysekomponenten an, die zum Aufteilen dieses Texts in Token verwendet werden.
Name | Typ | Beschreibung |
---|---|---|
analyzer |
Der Name des Analyzers, der verwendet werden soll, um den angegebenen Text zu unterbrechen. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Tokenizer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus. |
|
charFilters |
Eine optionale Liste von Zeichenfiltern, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden. |
|
text |
string |
Der Text, der in Token unterteilt werden soll. |
tokenFilters |
Eine optionale Liste der Tokenfilter, die beim Unterbrechen des angegebenen Texts verwendet werden sollen. Dieser Parameter kann nur bei Verwendung des Tokenizerparameters festgelegt werden. |
|
tokenizer |
Der Name des Tokenizers, der zum Unterbrechen des angegebenen Texts verwendet werden soll. Wenn dieser Parameter nicht angegeben ist, müssen Sie stattdessen einen Analyzer angeben. Die Tokenizer- und Analyseparameter schließen sich gegenseitig aus. |
AnalyzeResult
Das Ergebnis des Tests eines Analyzers auf Text.
Name | Typ | Beschreibung |
---|---|---|
tokens |
Die Liste der Token, die von der in der Anforderung angegebenen Analyse zurückgegeben werden. |
CharFilterName
Definiert die Namen aller Zeichenfilter, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
html_strip |
string |
Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
ErrorAdditionalInfo
Der Ressourcenverwaltungsfehler zusätzliche Informationen.
Name | Typ | Beschreibung |
---|---|---|
info |
object |
Die zusätzlichen Informationen. |
type |
string |
Der zusätzliche Informationstyp. |
ErrorDetail
Das Fehlerdetails.
Name | Typ | Beschreibung |
---|---|---|
additionalInfo |
Die zusätzlichen Informationen des Fehlers. |
|
code |
string |
Der Fehlercode. |
details |
Die Fehlerdetails. |
|
message |
string |
Die Fehlermeldung. |
target |
string |
Das Fehlerziel. |
ErrorResponse
Fehlerantwort
Name | Typ | Beschreibung |
---|---|---|
error |
Das Fehlerobjekt. |
LexicalAnalyzerName
Definiert die Namen aller textanalysatoren, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
ar.lucene |
string |
Lucene Analyzer für Arabisch. |
ar.microsoft |
string |
Microsoft Analyzer für Arabisch. |
bg.lucene |
string |
Lucene Analyzer für Bulgarisch. |
bg.microsoft |
string |
Microsoft Analyzer für Bulgarisch. |
bn.microsoft |
string |
Microsoft Analyzer für Bangla. |
ca.lucene |
string |
Lucene Analyzer für Katalanisch. |
ca.microsoft |
string |
Microsoft Analyzer für Katalanisch. |
cs.lucene |
string |
Lucene Analyzer für Tschechisch. |
cs.microsoft |
string |
Microsoft Analyzer für Tschechisch. |
da.lucene |
string |
Lucene Analyzer für Dänisch. |
da.microsoft |
string |
Microsoft Analyzer für Dänisch. |
de.lucene |
string |
Lucene Analyzer für Deutsch. |
de.microsoft |
string |
Microsoft Analyzer für Deutsch. |
el.lucene |
string |
Lucene Analyzer für Griechisch. |
el.microsoft |
string |
Microsoft Analyzer für Griechisch. |
en.lucene |
string |
Lucene Analyzer für Englisch. |
en.microsoft |
string |
Microsoft Analyzer für Englisch. |
es.lucene |
string |
Lucene Analyzer für Spanisch. |
es.microsoft |
string |
Microsoft Analyzer für Spanisch. |
et.microsoft |
string |
Microsoft Analyzer für Estland. |
eu.lucene |
string |
Lucene Analyzer für Baskisch. |
fa.lucene |
string |
Lucene Analyzer für Persisch. |
fi.lucene |
string |
Lucene Analyzer für Finnisch. |
fi.microsoft |
string |
Microsoft Analyzer für Finnisch. |
fr.lucene |
string |
Lucene Analyzer für Französisch. |
fr.microsoft |
string |
Microsoft Analyzer für Französisch. |
ga.lucene |
string |
Lucene Analyzer für Irisch. |
gl.lucene |
string |
Lucene Analyzer für Galizien. |
gu.microsoft |
string |
Microsoft Analyzer für Gujarati. |
he.microsoft |
string |
Microsoft Analyzer für Hebräisch. |
hi.lucene |
string |
Lucene Analyzer für Hindi. |
hi.microsoft |
string |
Microsoft Analyzer für Hindi. |
hr.microsoft |
string |
Microsoft Analyzer für Kroatisch. |
hu.lucene |
string |
Lucene Analyzer für Ungarisch. |
hu.microsoft |
string |
Microsoft Analyzer für Ungarisch. |
hy.lucene |
string |
Lucene Analyzer für Armenier. |
id.lucene |
string |
Lucene Analyzer für Indonesisch. |
id.microsoft |
string |
Microsoft Analyzer für Indonesien (Bahasa). |
is.microsoft |
string |
Microsoft Analyzer für Island. |
it.lucene |
string |
Lucene Analyzer für Italienisch. |
it.microsoft |
string |
Microsoft Analyzer für Italienisch. |
ja.lucene |
string |
Lucene Analyzer für Japanisch. |
ja.microsoft |
string |
Microsoft Analyzer für Japanisch. |
keyword |
string |
Behandelt den gesamten Inhalt eines Felds als einzelnes Token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Microsoft Analyzer für Kannada. |
ko.lucene |
string |
Lucene Analyzer für Koreanisch. |
ko.microsoft |
string |
Microsoft Analyzer für Koreanisch. |
lt.microsoft |
string |
Microsoft Analyzer für Litauisch. |
lv.lucene |
string |
Lucene Analyzer für Lettisch. |
lv.microsoft |
string |
Microsoft Analyzer für Lettisch. |
ml.microsoft |
string |
Microsoft Analyzer für Malayalam. |
mr.microsoft |
string |
Microsoft Analyzer für Marathi. |
ms.microsoft |
string |
Microsoft Analyzer für Malaiisch (Lateinisch). |
nb.microsoft |
string |
Microsoft Analyzer für Norwegisch (Bokmål). |
nl.lucene |
string |
Lucene Analyzer für Niederländisch. |
nl.microsoft |
string |
Microsoft Analyzer für Niederländisch. |
no.lucene |
string |
Lucene Analyzer für Norwegisch. |
pa.microsoft |
string |
Microsoft Analyzer für Punjabi. |
pattern |
string |
Trennt Text flexibel in Ausdrücke über ein Muster mit regulären Ausdrücken. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene Analyzer für Polnisch. |
pl.microsoft |
string |
Microsoft Analyzer für Polnisch. |
pt-BR.lucene |
string |
Lucene Analyzer für Portugiesisch (Brasilien). |
pt-BR.microsoft |
string |
Microsoft Analyzer für Portugiesisch (Brasilien). |
pt-PT.lucene |
string |
Lucene Analyzer für Portugiesisch (Portugal). |
pt-PT.microsoft |
string |
Microsoft Analyzer für Portugiesisch (Portugal). |
ro.lucene |
string |
Lucene Analyzer für Rumänisch. |
ro.microsoft |
string |
Microsoft Analyzer für Rumänisch. |
ru.lucene |
string |
Lucene Analyzer für Russisch. |
ru.microsoft |
string |
Microsoft Analyzer für Russisch. |
simple |
string |
Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Microsoft Analyzer für Slowakisch. |
sl.microsoft |
string |
Microsoft Analyzer für Slowenisch. |
sr-cyrillic.microsoft |
string |
Microsoft Analyzer für Serbisch (Kyrillisch). |
sr-latin.microsoft |
string |
Microsoft Analyzer für Serbisch (Lateinisch). |
standard.lucene |
string |
Standard Lucene Analyzer. |
standardasciifolding.lucene |
string |
Standard ASCII Folding Lucene Analyzer. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Dividiert Text in Nichtbuchstaben; Wendet die Tokenfilter in Kleinbuchstaben und Stoppwörtern an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Lucene Analyzer für Schwedisch. |
sv.microsoft |
string |
Microsoft Analyzer für Schwedisch. |
ta.microsoft |
string |
Microsoft Analyzer für Tamil. |
te.microsoft |
string |
Microsoft Analyzer für Telugu. |
th.lucene |
string |
Lucene Analyzer für Thai. |
th.microsoft |
string |
Microsoft Analyzer für Thailändisch. |
tr.lucene |
string |
Lucene Analyzer für Türkisch. |
tr.microsoft |
string |
Microsoft Analyzer für Türkisch. |
uk.microsoft |
string |
Microsoft Analyzer für Ukrainisch. |
ur.microsoft |
string |
Microsoft Analyzer für Urdu. |
vi.microsoft |
string |
Microsoft Analyzer für Vietnamesisch. |
whitespace |
string |
Ein Analyzer, der den Leerraumtokenizer verwendet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Lucene Analyzer für Chinesisch (vereinfacht). |
zh-Hans.microsoft |
string |
Microsoft Analyzer für Chinesisch (vereinfacht). |
zh-Hant.lucene |
string |
Lucene Analyzer für Chinesisch (traditionell). |
zh-Hant.microsoft |
string |
Microsoft Analyzer für Chinesisch (traditionell). |
LexicalTokenizerName
Definiert die Namen aller Tokenizer, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
classic |
string |
Grammatikbasierter Tokenizer, der für die Verarbeitung der meisten dokumente mit europäischer Sprache geeignet ist. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokenisiert die Eingabe von einem Rand in n Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Dividiert Text in Nichtbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Dividiert Text in Nichtbuchstaben und wandelt sie in Kleinbuchstaben um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Dividiert Text mithilfe von sprachspezifischen Regeln und reduziert Wörter auf ihre Basisformulare. |
microsoft_language_tokenizer |
string |
Dividiert Text mithilfe sprachspezifischer Regeln. |
nGram |
string |
Tokenisiert die Eingabe in n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizer, der regex-Musterabgleich verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standard Lucene Analyzer; Zusammengesetzt aus dem Standardmäßigen Tokenizer, Kleinbuchstabenfilter und Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Dividiert Text in Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
TokenFilterName
Definiert die Namen aller Tokenfilter, die von der Suchmaschine unterstützt werden.
Name | Typ | Beschreibung |
---|---|---|
apostrophe |
string |
Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs selbst). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html |
arabic_normalization |
string |
Ein Tokenfilter, der den arabischen Normalisierer anwendet, um die Orthografie zu normalisieren. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html |
asciifolding |
string |
Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die sich nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block "Basic Latin") befinden, in ihre ASCII-Entsprechungen, wenn solche Entsprechungen vorhanden sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
cjk_bigram |
string |
Bildet Bigrams von CJK-Ausdrücken, die aus dem Standardtokenizer generiert werden. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html |
cjk_width |
string |
Normalisiert Unterschiede bei der CJK-Breite. Faltet Fullwidth ASCII-Varianten in die entsprechenden grundlegenden lateinischen und halbbreiten Katakana-Varianten in die entsprechende Kana. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html |
classic |
string |
Entfernt englische Possessive und Punkte von Akronyme. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html |
common_grams |
string |
Erstellen Sie Bigrams für häufig vorkommende Ausdrücke während der Indizierung. Einzelne Begriffe sind auch weiterhin indiziert, wobei Bigrams überlagert sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html |
edgeNGram_v2 |
string |
Generiert n Gramm der angegebenen Größe(n) beginnend von vorne oder hinten eines Eingabetokens. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html |
elision |
string |
Entfernt Elisionen. Beispielsweise wird "l'avion" (die Ebene) in "avion" (Ebene) konvertiert. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
german_normalization |
string |
Normalisiert deutsche Charaktere nach den Heuristiken des deutschen Schneeballalgorithmus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html |
hindi_normalization |
string |
Normalisiert Text in Hindi, um einige Unterschiede bei rechtschreibvarianten zu entfernen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html |
indic_normalization |
string |
Normalisiert die Unicode-Darstellung von Text in indischen Sprachen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html |
keyword_repeat |
string |
Gibt jedes eingehende Token zweimal aus, einmal als Schlüsselwort und einmal als Nicht-Schlüsselwort. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html |
kstem |
string |
Ein hochleistungsbasierter Kstemfilter für Englisch. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html |
length |
string |
Entfernt Wörter, die zu lang oder zu kurz sind. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html |
limit |
string |
Beschränkt die Anzahl der Token während der Indizierung. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html |
lowercase |
string |
Normalisiert Tokentext in Kleinbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
nGram_v2 |
string |
Generiert n Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html |
persian_normalization |
string |
Wendet normalisierung für Persisch an. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html |
phonetic |
string |
Erstellen Sie Token für phonetische Übereinstimmungen. Siehe https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html |
porter_stem |
string |
Verwendet den Porterstammalgorithmus, um den Tokendatenstrom zu transformieren. Siehe http://tartarus.org/~martin/PorterStemmer |
reverse |
string |
Kehrt die Tokenzeichenfolge um. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
scandinavian_folding |
string |
Faltet skandinavische Charaktere åÅäæÄÆ->a und öÖøØ->o. Es diskriminiert auch gegen die Verwendung von doppelten Vokalen aa, ae, ao, oe und oo, wobei nur der erste weggelassen wird. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html |
scandinavian_normalization |
string |
Normalisiert die Verwendung der austauschbaren skandinavischen Charaktere. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html |
shingle |
string |
Erstellt Kombinationen von Token als einzelnes Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html |
snowball |
string |
Ein Filter, der Wörter mit einem snowball-generierten Stammer abstammt. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html |
sorani_normalization |
string |
Normalisiert die Unicode-Darstellung von Sorani-Text. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html |
stemmer |
string |
Sprachspezifischer Wortstammfilter. Siehe https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
stopwords |
string |
Entfernt Stoppwörter aus einem Tokendatenstrom. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
trim |
string |
Kürzet führende und nachfolgende Leerzeichen von Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html |
truncate |
string |
Schneidet die Begriffe auf eine bestimmte Länge ab. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html |
unique |
string |
Filtert Token mit demselben Text wie das vorherige Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html |
uppercase |
string |
Normalisiert Tokentext in Großbuchstaben. Siehe https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
word_delimiter |
string |
Teilt Wörter in Unterwörter auf und führt optionale Transformationen für Unterwortgruppen aus. |