Indexes - Analyze

リファレンス

サービス:: Search Service

API バージョン:: 2024-07-01

アナライザーがテキストをトークンに分割する方法を示します。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

URI パラメーター

名前	/	必須	型	説明
endpoint	path	True	string	検索サービスのエンドポイント URL。
indexName	path	True	string	アナライザーをテストするインデックスの名前。
api-version	query	True	string	クライアント API のバージョン。

要求ヘッダー

名前	必須	型	説明
x-ms-client-request-id		string uuid	デバッグに役立つ要求と共に送信される追跡 ID。

要求本文

名前	必須	型	説明
text	True	string	トークンに分割するテキスト。
analyzer		LexicalAnalyzerName	指定されたテキストを中断するために使用するアナライザーの名前。このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。トークナイザーパラメーターとアナライザーパラメーターは相互に排他的です。
charFilters		CharFilterName[]	指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。このパラメーターは、トークナイザーパラメーターを使用する場合にのみ設定できます。
tokenFilters		TokenFilterName[]	指定されたテキストを中断するときに使用するトークンフィルターの省略可能なリスト。このパラメーターは、トークナイザーパラメーターを使用する場合にのみ設定できます。
tokenizer		LexicalTokenizerName	指定されたテキストを区切るために使用するトークナイザーの名前。このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。トークナイザーパラメーターとアナライザーパラメーターは相互に排他的です。

応答

名前	型	説明
200 OK	AnalyzeResult
Other Status Codes	ErrorResponse	エラー応答。

例

SearchServiceIndexAnalyze

要求のサンプル

HTTP

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

応答のサンプル

状態コード:: 200

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名前	説明
AnalyzedTokenInfo	アナライザーによって返されるトークンに関する情報。
AnalyzeRequest	そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。
AnalyzeResult	テキストでアナライザーをテストした結果。
CharFilterName	検索エンジンでサポートされているすべての文字フィルターの名前を定義します。
ErrorAdditionalInfo	リソース管理エラーの追加情報。
ErrorDetail	エラーの詳細。
ErrorResponse	エラー応答
LexicalAnalyzerName	検索エンジンでサポートされているすべてのテキストアナライザーの名前を定義します。
LexicalTokenizerName	検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。
TokenFilterName	検索エンジンでサポートされているすべてのトークンフィルターの名前を定義します。

AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

名前	型	説明
endOffset	integer	入力テキスト内のトークンの最後の文字のインデックス。
position	integer	他のトークンに対する入力テキスト内のトークンの位置。入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 です。使用されるアナライザーによっては、一部のトークンが同じ位置にある場合があります (たとえば、トークンが互いのシノニムである場合)。
startOffset	integer	入力テキスト内のトークンの最初の文字のインデックス。
token	string	アナライザーによって返されるトークン。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。

名前	型	説明
analyzer	LexicalAnalyzerName	指定されたテキストを中断するために使用するアナライザーの名前。このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。トークナイザーパラメーターとアナライザーパラメーターは相互に排他的です。
charFilters	CharFilterName[]	指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。このパラメーターは、トークナイザーパラメーターを使用する場合にのみ設定できます。
text	string	トークンに分割するテキスト。
tokenFilters	TokenFilterName[]	指定されたテキストを中断するときに使用するトークンフィルターの省略可能なリスト。このパラメーターは、トークナイザーパラメーターを使用する場合にのみ設定できます。
tokenizer	LexicalTokenizerName	指定されたテキストを区切るために使用するトークナイザーの名前。このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。トークナイザーパラメーターとアナライザーパラメーターは相互に排他的です。

AnalyzeResult

テキストでアナライザーをテストした結果。

名前	型	説明
tokens	AnalyzedTokenInfo[]	要求で指定されたアナライザーによって返されるトークンの一覧。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

名前	型	説明
html_strip	string	HTML コンストラクトを取り除こうとする文字フィルター。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください

ErrorAdditionalInfo

リソース管理エラーの追加情報。

名前	型	説明
info	object	追加情報。
type	string	追加情報の種類。

ErrorDetail

エラーの詳細。

名前	型	説明
additionalInfo	ErrorAdditionalInfo[]	エラーの追加情報。
code	string	エラーコード。
details	ErrorDetail[]	エラーの詳細。
message	string	エラーメッセージ。
target	string	エラーターゲット。

ErrorResponse

エラー応答

名前	型	説明
error	ErrorDetail	エラーオブジェクト。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキストアナライザーの名前を定義します。

名前	型	説明
ar.lucene	string	アラビア語用 Lucene アナライザー。
ar.microsoft	string	アラビア語用 Microsoft アナライザー。
bg.lucene	string	ブルガリア語用ルセンアナライザー。
bg.microsoft	string	ブルガリア語用 Microsoft アナライザー。
bn.microsoft	string	Bangla 用 Microsoft アナライザー。
ca.lucene	string	カタロニア語用 Lucene アナライザー。
ca.microsoft	string	カタロニア語用 Microsoft アナライザー。
cs.lucene	string	チェコ語用 Lucene アナライザー。
cs.microsoft	string	チェコ語用 Microsoft アナライザー。
da.lucene	string	デンマーク語用 Lucene アナライザー。
da.microsoft	string	デンマーク語用 Microsoft アナライザー。
de.lucene	string	ドイツ語用 Lucene アナライザー。
de.microsoft	string	ドイツ語用 Microsoft アナライザー。
el.lucene	string	ギリシャ語用 Lucene アナライザー。
el.microsoft	string	ギリシャ語用 Microsoft アナライザー。
en.lucene	string	英語用 Lucene アナライザー。
en.microsoft	string	英語用 Microsoft アナライザー。
es.lucene	string	スペイン語用 Lucene アナライザー。
es.microsoft	string	スペイン語用 Microsoft アナライザー。
et.microsoft	string	エストニア語用 Microsoft アナライザー。
eu.lucene	string	バスク用 Lucene アナライザー。
fa.lucene	string	ペルシア語用 Lucene アナライザー。
fi.lucene	string	フィンランド語用 Lucene アナライザー。
fi.microsoft	string	フィンランド語用 Microsoft アナライザー。
fr.lucene	string	フランス語用 Lucene アナライザー。
fr.microsoft	string	フランス語用 Microsoft アナライザー。
ga.lucene	string	アイルランド語用 Lucene アナライザー。
gl.lucene	string	ガリシア語用 Lucene アナライザー。
gu.microsoft	string	Gujarati 用 Microsoft アナライザー。
he.microsoft	string	ヘブライ語用 Microsoft アナライザー。
hi.lucene	string	ヒンディー語用 Lucene アナライザー。
hi.microsoft	string	ヒンディー語用 Microsoft アナライザー。
hr.microsoft	string	クロアチア語用 Microsoft アナライザー。
hu.lucene	string	ハンガリー語用 Lucene アナライザー。
hu.microsoft	string	ハンガリー語用 Microsoft アナライザー。
hy.lucene	string	アルメニア語用 Lucene アナライザー。
id.lucene	string	インドネシア語用 Lucene アナライザー。
id.microsoft	string	インドネシア語 (Bahasa) 用 Microsoft アナライザー。
is.microsoft	string	アイスランドの Microsoft アナライザー。
it.lucene	string	イタリア語用 Lucene アナライザー。
it.microsoft	string	イタリア語用 Microsoft アナライザー。
ja.lucene	string	日本語用 Lucene アナライザー。
ja.microsoft	string	日本語用 Microsoft アナライザー。
keyword	string	フィールドの内容全体を 1 つのトークンとして扱います。これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください
kn.microsoft	string	カンナダ用 Microsoft アナライザー。
ko.lucene	string	韓国語用 Lucene アナライザー。
ko.microsoft	string	韓国語用 Microsoft アナライザー。
lt.microsoft	string	リトアニア語用 Microsoft アナライザー。
lv.lucene	string	ラトビア語用 Lucene アナライザー。
lv.microsoft	string	ラトビア語用 Microsoft アナライザー。
ml.microsoft	string	マラヤーラム用 Microsoft アナライザー。
mr.microsoft	string	Marathi 用 Microsoft アナライザー。
ms.microsoft	string	マレー語 (ラテン) 用 Microsoft アナライザー。
nb.microsoft	string	ノルウェー語 (Bokmål) 用 Microsoft アナライザー。
nl.lucene	string	オランダ語用 Lucene アナライザー。
nl.microsoft	string	オランダ語用 Microsoft アナライザー。
no.lucene	string	ノルウェー語用 Lucene アナライザー。
pa.microsoft	string	Punjabi 用 Microsoft アナライザー。
pattern	string	正規表現パターンを使用して、テキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください
pl.lucene	string	ポーランド語用 Lucene アナライザー。
pl.microsoft	string	ポーランド語用 Microsoft アナライザー。
pt-BR.lucene	string	ポルトガル語 (ブラジル) 用 Lucene アナライザー。
pt-BR.microsoft	string	ポルトガル語 (ブラジル) 用 Microsoft アナライザー。
pt-PT.lucene	string	ポルトガル語 (ポルトガル) 用 Lucene アナライザー。
pt-PT.microsoft	string	ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。
ro.lucene	string	ルーマニア語用 Lucene アナライザー。
ro.microsoft	string	ルーマニア語用 Microsoft アナライザー。
ru.lucene	string	ロシア語用 Lucene アナライザー。
ru.microsoft	string	ロシア語用 Microsoft アナライザー。
simple	string	テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください
sk.microsoft	string	スロバキア語用 Microsoft アナライザー。
sl.microsoft	string	スロベニア語用 Microsoft アナライザー。
sr-cyrillic.microsoft	string	セルビア語 (キリル) 用 Microsoft アナライザー。
sr-latin.microsoft	string	セルビア語 (ラテン) 用 Microsoft アナライザー。
standard.lucene	string	標準 Lucene アナライザー。
standardasciifolding.lucene	string	標準 ASCII フォールディング Lucene アナライザー。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください
stop	string	テキストを文字以外で除算します。小文字とストップワードのトークンフィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください
sv.lucene	string	スウェーデン語用 Lucene アナライザー。
sv.microsoft	string	スウェーデン語用 Microsoft アナライザー。
ta.microsoft	string	Tamil 用 Microsoft アナライザー。
te.microsoft	string	Telugu 用 Microsoft アナライザー。
th.lucene	string	タイ語用 Lucene アナライザー。
th.microsoft	string	タイ語用 Microsoft アナライザー。
tr.lucene	string	トルコ語用 Lucene アナライザー。
tr.microsoft	string	トルコ語用 Microsoft アナライザー。
uk.microsoft	string	ウクライナ語用 Microsoft アナライザー。
ur.microsoft	string	Urdu 用 Microsoft アナライザー。
vi.microsoft	string	ベトナム語用 Microsoft アナライザー。
whitespace	string	空白トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください
zh-Hans.lucene	string	中国語 (簡体字) 用 Lucene アナライザー。
zh-Hans.microsoft	string	Microsoft Analyzer for Chinese (簡体字)。
zh-Hant.lucene	string	中国語 (繁体字) 用 Lucene アナライザー。
zh-Hant.microsoft	string	Microsoft analyzer for Chinese (繁体字)。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

名前	型	説明
classic	string	ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html を参照してください
edgeNGram	string	エッジからの入力を特定のサイズの n グラムにトークン化します。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html を参照してください
keyword_v2	string	入力全体を 1 つのトークンとして出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html を参照してください
letter	string	テキストを文字以外で分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html を参照してください
lowercase	string	テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html を参照してください
microsoft_language_stemming_tokenizer	string	言語固有のルールを使用してテキストを分割し、単語を基本フォームに減らします。
microsoft_language_tokenizer	string	言語固有のルールを使用してテキストを分割します。
nGram	string	指定したサイズの n グラムに入力をトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html を参照してください
path_hierarchy_v2	string	パスに似た階層のトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html を参照してください
pattern	string	正規表現パターンマッチングを使用して個別のトークンを構築するトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html を参照してください
standard_v2	string	標準 Lucene アナライザー;標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html を参照してください
uax_url_email	string	URL と電子メールを 1 つのトークンとしてトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html を参照してください
whitespace	string	空白文字でテキストを分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html を参照してください

TokenFilterName

検索エンジンでサポートされているすべてのトークンフィルターの名前を定義します。

名前	型	説明
apostrophe	string	アポストロフィの後のすべての文字 (アポストロフィ自体を含む) を除去します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html を参照してください
arabic_normalization	string	アラビア語のノーマライザーを適用して序数を正規化するトークンフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html を参照してください
asciifolding	string	最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください
cjk_bigram	string	標準トークナイザーから生成される CJK 用語のビグラムを形成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html を参照してください
cjk_width	string	CJK の幅の違いを正規化します。フルwidth ASCIIバリアントを同等の基本的なラテン語に、半角カタカナバリアントを同等のかなに折りたたみます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html を参照してください
classic	string	頭字語から英語の所有物とドットを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html を参照してください
common_grams	string	インデックス作成中に頻繁に発生する用語のビグラムを構築します。単一の用語もインデックスが作成され、バイグラムが重なっています。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html を参照してください
edgeNGram_v2	string	入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html を参照してください
elision	string	エリジオンを削除します。たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください
german_normalization	string	German2 スノーボールアルゴリズムのヒューリスティックに従って、ドイツ語の文字を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html を参照してください
hindi_normalization	string	ヒンディー語のテキストを正規化して、スペルバリエーションの違いをいくつか削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html を参照してください
indic_normalization	string	インド言語でのテキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html を参照してください
keyword_repeat	string	各受信トークンを 2 回、キーワードとして 1 回、非キーワードとして 1 回出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html を参照してください
kstem	string	英語のハイパフォーマンス kstem フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html を参照してください
length	string	長すぎる単語または短すぎる単語を削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html を参照してください
limit	string	インデックス作成中のトークンの数を制限します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html を参照してください
lowercase	string	トークンテキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください
nGram_v2	string	指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html を参照してください
persian_normalization	string	ペルシア語の正規化を適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html を参照してください
phonetic	string	ふりがなのトークンを作成します。 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html を参照してください
porter_stem	string	Porter ステミングアルゴリズムを使用してトークンストリームを変換します。 http://tartarus.org/~martin/PorterStemmer を参照してください
reverse	string	トークン文字列を逆にします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください
scandinavian_folding	string	スカンジナビア文字 åÅäæÄÆ->a と ööøØ->o. また、二重母音 aa、ae、ao、oe、oo の使用を区別し、最初の母音だけを残します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html を参照してください
scandinavian_normalization	string	交換可能なスカンジナビア文字の使用を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html を参照してください
shingle	string	トークンの組み合わせを 1 つのトークンとして作成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html を参照してください
snowball	string	Snowball で生成されたステマーを使用して単語の語幹を読み上めるフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html を参照してください
sorani_normalization	string	Sorani テキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html を参照してください
stemmer	string	言語固有のステミングフィルター。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters を参照してください
stopwords	string	トークンストリームからストップワードを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html を参照してください
trim	string	トークンから先頭と末尾の空白をトリミングします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html を参照してください
truncate	string	用語を特定の長さに切り捨てます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html を参照してください
unique	string	前のトークンと同じテキストを持つトークンを除外します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html を参照してください
uppercase	string	トークンテキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください
word_delimiter	string	単語をサブワードに分割し、サブワードグループに対してオプションの変換を実行します。

次の方法で共有