Indexes - Analyze

アナライザーがテキストをトークンに分割する方法を示します。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2026-04-01

URI パラメーター

名前 / 必須 説明
endpoint
path True

string (uri)

検索サービスのエンドポイント URL。

indexName
path True

string

インデックスの名前。

api-version
query True

string

minLength: 1

この操作に使用する API バージョン。

要求ヘッダー

名前 必須 説明
Accept

Accept

Acceptヘッダーです。

x-ms-client-request-id

string (uuid)

要求の非透過的なグローバルに一意のクライアント生成文字列識別子。

要求本文

名前 必須 説明
text True

string

トークンに分割するテキスト。

analyzer

LexicalAnalyzerName

指定されたテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

normalizer

LexicalNormalizerName

指定されたテキストを正規化するために使用するノーマライザーの名前。

tokenFilters

TokenFilterName[]

指定されたテキストを中断するときに使用するトークン フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定されたテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

応答

名前 説明
200 OK

AnalyzeResult

要求は成功しました。

Other Status Codes

ErrorResponse

予期しないエラー応答。

セキュリティ

api-key

型: apiKey
/: header

OAuth2Auth

型: oauth2
フロー: implicit
Authorization URL (承認 URL): https://login.microsoftonline.com/common/oauth2/v2.0/authorize

スコープ

名前 説明
https://search.azure.com/.default

SearchServiceIndexAnalyze

要求のサンプル

POST https://exampleservice.search.windows.net/indexes('example-index')/search.analyze?api-version=2026-04-01


{
  "text": "Text to analyze",
  "analyzer": "ar.lucene"
}

応答のサンプル

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名前 説明
Accept

Acceptヘッダーです。

AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。

AnalyzeResult

テキストでアナライザーをテストした結果。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

ErrorAdditionalInfo

リソース管理エラーの追加情報。

ErrorDetail

エラーの詳細。

ErrorResponse

すべてのAzure Resource Manager APIで失敗した操作に対してエラー詳細を返す共通のエラー応答です。 (これは、OData エラー応答形式にも従います)。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

LexicalNormalizerName

検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

Accept

Acceptヘッダーです。

説明
application/json;odata.metadata=minimal

AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

名前 説明
endOffset

integer (int32)

入力テキスト内のトークンの最後の文字のインデックス。

position

integer (int32)

他のトークンに対する入力テキスト内のトークンの位置。 入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 です。 使用されるアナライザーによっては、一部のトークンが同じ位置にある場合があります (たとえば、トークンが互いのシノニムである場合)。

startOffset

integer (int32)

入力テキスト内のトークンの最初の文字のインデックス。

token

string

アナライザーによって返されるトークン。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。

名前 説明
analyzer

LexicalAnalyzerName

指定されたテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

normalizer

LexicalNormalizerName

指定されたテキストを正規化するために使用するノーマライザーの名前。

text

string

トークンに分割するテキスト。

tokenFilters

TokenFilterName[]

指定されたテキストを中断するときに使用するトークン フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定されたテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

AnalyzeResult

テキストでアナライザーをテストした結果。

名前 説明
tokens

AnalyzedTokenInfo[]

要求で指定されたアナライザーによって返されるトークンのリスト。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

説明
html_strip

HTML コンストラクトを取り除こうとする文字フィルター。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください

ErrorAdditionalInfo

リソース管理エラーの追加情報。

名前 説明
info

追加情報。

type

string

追加情報の種類。

ErrorDetail

エラーの詳細。

名前 説明
additionalInfo

ErrorAdditionalInfo[]

エラーの追加情報。

code

string

エラー コード。

details

ErrorDetail[]

エラーの詳細。

message

string

エラー メッセージ。

target

string

エラーターゲット。

ErrorResponse

すべてのAzure Resource Manager APIで失敗した操作に対してエラー詳細を返す共通のエラー応答です。 (これは、OData エラー応答形式にも従います)。

名前 説明
error

ErrorDetail

エラー オブジェクト。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

説明
ar.microsoft

Microsoft analyzer for Arabic。

ar.lucene

アラビア語用のLucene分析装置。

hy.lucene

アルメニア語用のLucene分析装置。

bn.microsoft

Microsoft analyzer for Bangla。

eu.lucene

バスク語のLucene分析装置。

bg.microsoft

Microsoft Analyzer for Bulgarian。

bg.lucene

ブルガリア語用のLucene分析装置。

ca.microsoft

Microsoft analyzer for Catalan.

ca.lucene

カタロニア語用のLucene分析装置。

zh-Hans.microsoft

Microsoft analyzer for China(簡体字)。

zh-Hans.lucene

中国語用Lucene分析装置(簡体字)。

zh-Hant.microsoft

中国語(繁体)用のMicrosoftアナライザー。

zh-Hant.lucene

中国語(繁体字)用のLucene分析装置。

hr.microsoft

Microsoft analyzer for Croatian。

cs.microsoft

Microsoft analyzer for Czech.

cs.lucene

チェコ語のLucene分析装置

da.microsoft

Microsoft analyzer for Danish。

da.lucene

デンマーク語のLucene分析装置。

nl.microsoft

Microsoft analyzer for Dutch.

nl.lucene

オランダ語用のLucene分析装置。

en.microsoft

Microsoft analyzer for English。

en.lucene

英語用のLucene分析装置。

et.microsoft

Microsoft analyzer for Estonian。

fi.microsoft

Microsoft analyzer for Finnish.

fi.lucene

フィンランド語用のLucene分析装置。

fr.microsoft

Microsoft analyzer for French。

fr.lucene

フランス語用Lucene分析装置

gl.lucene

ガリシア語のLucene分析装置

de.microsoft

ドイツ語版Microsoftアナライザー。

de.lucene

ドイツ語のLucene分析装置

el.microsoft

Microsoft analyzer for Greek。

el.lucene

ギリシャ語のLucene分析装置。

gu.microsoft

Microsoft analyzer for Gujarati.

he.microsoft

Microsoft analyzer for Hebrew。

hi.microsoft

Microsoft analyzer for Hindi。

hi.lucene

ヒンディー語用のLucene分析装置。

hu.microsoft

Microsoft analyzer for Hungarian.

hu.lucene

ハンガリー語のLucene分析装置。

is.microsoft

Microsoft Analyzer for Icelandic。

id.microsoft

Microsoft analyzer for Indonesian (Bahasa).

id.lucene

インドネシア語用Lucene分析装置

ga.lucene

アイルランド語用のLucene分析装置。

it.microsoft

Microsoft analyzer for Italian.

it.lucene

イタリア語のLucene分析装置。

ja.microsoft

日本語版Microsoftアナライザー。

ja.lucene

日本語用ルセン分析装置

kn.microsoft

Microsoft analyzer for Kannada.

ko.microsoft

Microsoft Analyzer for Korean。

ko.lucene

韓国語用ルセン分析装置

lv.microsoft

Microsoft analyzer for Latvian.

lv.lucene

ラトビア語のLucene分析装置

lt.microsoft

Microsoft analyzer for Lituanian。

ml.microsoft

Microsoft analyzer for Malayalam.

ms.microsoft

Microsoft analyzer for Malay (Latin)

mr.microsoft

Microsoft analyzer for Marathi。

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

ノルウェー語のLucene分析装置。

fa.lucene

ペルシャ語用のLucene分析装置

pl.microsoft

Microsoft analyzer for Polish。

pl.lucene

ポーランド語用Lucene分析装置

pt-BR.microsoft

Microsoft analyzer for Portuguese (Brazil).

pt-BR.lucene

ポルトガル語(ブラジル)用のLucene分析装置。

pt-PT.microsoft

Microsoft analyzer for Portuguese (Portugal).

pt-PT.lucene

ポルトガル語(ポルトガル)のLuceneアナライザー。

pa.microsoft

Microsoft analyzer for Punjabi.

ro.microsoft

Microsoft analyzer for Romanian。

ro.lucene

ルーマニア語用のLucene分析装置。

ru.microsoft

Microsoft analyzer for Russian。

ru.lucene

ロシア語用のLucene分析装置。

sr-cyrillic.microsoft

Microsoft analyzer for Serbian (Cyrillic).

sr-latin.microsoft

Microsoft analyzer for Serbian (Latin).

sk.microsoft

Microsoft analyzer for Slovak.

sl.microsoft

Microsoft analyzer for Slovenian.

es.microsoft

Microsoft analyzer for Spanish。

es.lucene

スペイン語用のLucene分析装置。

sv.microsoft

Microsoft analyzer for Swedish。

sv.lucene

スウェーデン語用Lucene分析装置

ta.microsoft

Microsoft analyzer for Tamil。

te.microsoft

Microsoft analyzer for Telugu.

th.microsoft

Microsoft analyzer for Thai.

th.lucene

タイ語用ルセン分析装置。

tr.microsoft

Microsoft analyzer for Turkish。

tr.lucene

トルコ語用Lucene分析装置。

uk.microsoft

Microsoft analyzer for Ukrainian.

ur.microsoft

Microsoft analyzer for Urdu.

vi.microsoft

Microsoft analyzer for Vietnamese。

standard.lucene

標準的なLucene分析装置。

standardasciifolding.lucene

標準ASCII折りたたみ式Lucene分析装置 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください

keyword

フィールドの内容全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください

pattern

正規表現のパターンを使用してテキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください

simple

テキストを非文字で分割し、それらを小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください

stop

テキストを文字以外で除算します。小文字とストップワードのトークン フィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください

whitespace

空白文字トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください

LexicalNormalizerName

検索エンジンでサポートされているすべてのテキスト ノーマライザーの名前を定義します。

説明
asciifolding

最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください

elision

省略された部分を取り除きます。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください

lowercase

トークンテキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください

standard

標準ノーマライザーは、小文字とアスキーフォールディングで構成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください

uppercase

トークンテキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

説明
classic

ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html を参照してください

edgeNGram

エッジからの入力を特定のサイズの n グラムにトークン化します。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html を参照してください

keyword_v2

入力全体が 1 つのトークンとして生成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html を参照してください

letter

非文字でテキストを分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html を参照してください

lowercase

テキストを非文字で分割し、それらを小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html を参照してください

microsoft_language_tokenizer

言語固有のルールを使用してテキストが分割されます。

microsoft_language_stemming_tokenizer

言語固有のルールを使用してテキストを分割し、単語を基本形に変換します。

nGram

指定したサイズの n グラムに入力をトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html を参照してください

path_hierarchy_v2

パス風階層用のトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html を参照してください

pattern

正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html を参照してください

standard_v2

標準 Lucene アナライザー;標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html を参照してください

uax_url_email

URL と電子メールが 1 つのトークンとしてトークン化されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html を参照してください

whitespace

テキストは空白文字で分割されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html を参照してください

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

説明
arabic_normalization

アラビア語ノーマライザーを適用して正書法を正規化するトークン フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html を参照してください

apostrophe

アポストロフィ以降 (アポストロフィ自体を含む) のすべての文字が除去されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html を参照してください

asciifolding

最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください

cjk_bigram

標準トークナイザーから生成される CJK 用語のビグラムを形成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html を参照してください

cjk_width

CJK の幅の違いが正規化されます。 全幅ASCIIのバリエーションを同等の基本ラテン語に、ハーフワイドカタカナのバリエーションを同等の仮名に折りたたみます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html を参照してください

classic

頭字語から英語の所有物とドットを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html を参照してください

common_grams

インデックス付けの間に、頻繁に発生する用語に対してバイグラムが作成されます。 1 つの用語も、バイグラムがオーバーレイされてインデックス付けされます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html を参照してください

edgeNGram_v2

入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html を参照してください

elision

省略された部分を取り除きます。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください

german_normalization

German2 スノーボール アルゴリズムのヒューリスティックに従って、ドイツ語の文字を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html を参照してください

hindi_normalization

ヒンディー語のテキストが正規化され、スペルのバリエーションの違いが削除されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html を参照してください

indic_normalization

インドの言語でのテキストの Unicode 表現が正規化されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html を参照してください

keyword_repeat

各受信トークンを 2 回、キーワードとして 1 回、非キーワードとして 1 回出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html を参照してください

kstem

英語のハイ パフォーマンス kstem フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html を参照してください

length

長すぎる単語または短すぎる単語が削除されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html を参照してください

limit

インデックス付けの間に、トークンの数が制限されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html を参照してください

lowercase

トークンのテキストが小文字に正規化されます。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください

nGram_v2

指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html を参照してください

persian_normalization

ペルシャ語の正規化が適用されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html を参照してください

phonetic

音韻一致用のトークンを作成してください。 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html を参照してください

porter_stem

Porter ステミング アルゴリズムを使用してトークン ストリームを変換します。 http://tartarus.org/~martin/PorterStemmer を参照してください

reverse

トークンの文字列が反転されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください

scandinavian_normalization

交換可能なスカンジナビア語の文字の使用を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html を参照してください

scandinavian_folding

折りたたまれるスカンジナビア文字 Ã¥Ã...ア†アと>>ア。 また、二重母音 aa、ae、ao、oe、oo の使用を区別し、最初の母音だけを残します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html を参照してください

shingle

トークンの組み合わせが 1 つのトークンとして作成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html を参照してください

snowball

Snowball で生成されたステマーを使用して単語の語幹を読み上めるフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html を参照してください

sorani_normalization

Sorani テキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html を参照してください

stemmer

言語固有のステミング フィルター。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters を参照してください

stopwords

トークン ストリームからストップワードが削除されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html を参照してください

trim

先頭と末尾の空白文字がトークンからトリミングされます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html を参照してください

truncate

用語を特定の長さに切り捨てます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html を参照してください

unique

前のトークンと同じテキストのトークンが除外されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html を参照してください

uppercase

トークンのテキストが大文字に正規化されます。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください

word_delimiter

単語がサブ単語に分割され、部分語のグループに対してオプションの変換が実行されます。