Indexes - Analyze

アナライザーがテキストをトークンに分割する方法を示します。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2023-11-01

URI パラメーター

名前 / 必須 説明
endpoint
path True

string

検索サービスのエンドポイント URL。

indexName
path True

string

アナライザーをテストするインデックスの名前。

api-version
query True

string

クライアント API のバージョン。

要求ヘッダー

名前 必須 説明
x-ms-client-request-id

string

uuid

デバッグに役立つ要求と共に送信された追跡 ID。

要求本文

名前 必須 説明
text True

string

トークンに分割するテキスト。

analyzer

LexicalAnalyzerName

指定したテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定したテキストを区切るときに使用する文字フィルターのオプションリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenFilters

TokenFilterName[]

指定したテキストを中断するときに使用するトークン フィルターのオプションリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定したテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

応答

名前 説明
200 OK

AnalyzeResult

Other Status Codes

SearchError

エラー応答。

SearchServiceIndexAnalyze

Sample Request

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2023-11-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

Sample Response

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名前 説明
AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントを指定します。

AnalyzeResult

テキストでアナライザーをテストした結果。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

SearchError

API のエラー条件について説明します。

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

名前 説明
endOffset

integer

入力テキスト内のトークンの最後の文字のインデックス。

position

integer

他のトークンに対する相対的な入力テキスト内のトークンの位置。 入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 などです。 使用されるアナライザーによっては、一部のトークンの位置が同じになる場合があります (たとえば、トークンが互いのシノニムである場合)。

startOffset

integer

入力テキスト内のトークンの最初の文字のインデックス。

token

string

アナライザーによって返されるトークン。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントを指定します。

名前 説明
analyzer

LexicalAnalyzerName

指定したテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定したテキストを区切るときに使用する文字フィルターのオプションリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

text

string

トークンに分割するテキスト。

tokenFilters

TokenFilterName[]

指定したテキストを中断するときに使用するトークン フィルターのオプションリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定したテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

AnalyzeResult

テキストでアナライザーをテストした結果。

名前 説明
tokens

AnalyzedTokenInfo[]

要求で指定されたアナライザーによって返されるトークンの一覧。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

名前 説明
html_strip

string

HTML コンストラクトを取り除こうとする文字フィルター。 「https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html」を参照してください。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

名前 説明
ar.lucene

string

アラビア語用 Lucene アナライザー。

ar.microsoft

string

アラビア語用 Microsoft アナライザー。

bg.lucene

string

ブルガリア語用 Lucene アナライザー。

bg.microsoft

string

ブルガリア語用 Microsoft アナライザー。

bn.microsoft

string

Bangla 用 Microsoft アナライザー。

ca.lucene

string

カタロニア語用 Lucene アナライザー。

ca.microsoft

string

カタロニア語用 Microsoft アナライザー。

cs.lucene

string

チェコ語用 Lucene アナライザー。

cs.microsoft

string

チェコ語用 Microsoft アナライザー。

da.lucene

string

デンマーク語用 Lucene アナライザー。

da.microsoft

string

デンマーク語用 Microsoft アナライザー。

de.lucene

string

ドイツ語用 Lucene アナライザー。

de.microsoft

string

ドイツ語用 Microsoft アナライザー。

el.lucene

string

ギリシャ語用 Lucene アナライザー。

el.microsoft

string

ギリシャ語用 Microsoft アナライザー。

en.lucene

string

英語用 Lucene アナライザー。

en.microsoft

string

英語用 Microsoft アナライザー。

es.lucene

string

スペイン語用 Lucene アナライザー。

es.microsoft

string

スペイン語用 Microsoft アナライザー。

et.microsoft

string

エストニア語用 Microsoft アナライザー。

eu.lucene

string

バスク語用 Lucene アナライザー。

fa.lucene

string

ペルシャ語用 Lucene アナライザー。

fi.lucene

string

フィンランド語用 Lucene アナライザー。

fi.microsoft

string

フィンランド語用 Microsoft アナライザー。

fr.lucene

string

フランス語用 Lucene アナライザー。

fr.microsoft

string

フランス語用 Microsoft アナライザー。

ga.lucene

string

アイルランド語用 Lucene アナライザー。

gl.lucene

string

ガリシア語用 Lucene アナライザー。

gu.microsoft

string

Gujarati 用 Microsoft アナライザー。

he.microsoft

string

ヘブライ語用 Microsoft アナライザー。

hi.lucene

string

ヒンディー語用 Lucene アナライザー。

hi.microsoft

string

ヒンディー語用 Microsoft アナライザー。

hr.microsoft

string

クロアチア語用 Microsoft アナライザー。

hu.lucene

string

ハンガリー語用 Lucene アナライザー。

hu.microsoft

string

ハンガリー語用 Microsoft アナライザー。

hy.lucene

string

アルメニア語用 Lucene アナライザー。

id.lucene

string

インドネシア語用 Lucene アナライザー。

id.microsoft

string

インドネシア語 (Bahasa) 用 Microsoft アナライザー。

is.microsoft

string

アイスランド語用 Microsoft アナライザー。

it.lucene

string

イタリア語用 Lucene アナライザー。

it.microsoft

string

イタリア語用 Microsoft アナライザー。

ja.lucene

string

日本語用 Lucene アナライザー。

ja.microsoft

string

日本語用 Microsoft アナライザー。

keyword

string

フィールドの内容全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、製品名などのデータで役立ちます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html」を参照してください。

kn.microsoft

string

カンナダ用 Microsoft アナライザー。

ko.lucene

string

韓国語用 Lucene アナライザー。

ko.microsoft

string

韓国語用 Microsoft アナライザー。

lt.microsoft

string

リトアニア語用 Microsoft アナライザー。

lv.lucene

string

ラトビア語用 Lucene アナライザー。

lv.microsoft

string

ラトビア語用 Microsoft アナライザー。

ml.microsoft

string

マラヤーラム用 Microsoft アナライザー。

mr.microsoft

string

Marathi 用 Microsoft アナライザー。

ms.microsoft

string

マレー語 (ラテン) 用 Microsoft アナライザー。

nb.microsoft

string

ノルウェー語 (Bokmål) 用 Microsoft アナライザー。

nl.lucene

string

オランダ語用 Lucene アナライザー。

nl.microsoft

string

オランダ語用 Microsoft アナライザー。

no.lucene

string

ノルウェー語用 Lucene アナライザー。

pa.microsoft

string

Punjabi 用 Microsoft アナライザー。

pattern

string

正規表現のパターンを使用してテキストを用語に柔軟に分割します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html」を参照してください。

pl.lucene

string

ポーランド語用 Lucene アナライザー。

pl.microsoft

string

ポーランド語用 Microsoft アナライザー。

pt-BR.lucene

string

ポルトガル語 (ブラジル) 用 Lucene アナライザー。

pt-BR.microsoft

string

ポルトガル語 (ブラジル) 用 Microsoft アナライザー。

pt-PT.lucene

string

ポルトガル語 (ポルトガル) 用 Lucene アナライザー。

pt-PT.microsoft

string

ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。

ro.lucene

string

ルーマニア語用 Lucene アナライザー。

ro.microsoft

string

ルーマニア語用の Microsoft アナライザー。

ru.lucene

string

ロシア語用 Lucene アナライザー。

ru.microsoft

string

ロシア語用 Microsoft アナライザー。

simple

string

非文字でテキストが分割され、それらが小文字に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html」を参照してください。

sk.microsoft

string

スロバキア語用 Microsoft アナライザー。

sl.microsoft

string

スロベニア語用 Microsoft アナライザー。

sr-cyrillic.microsoft

string

セルビア語 (キリル) 用 Microsoft アナライザー。

sr-latin.microsoft

string

セルビア語 (ラテン) 用の Microsoft アナライザー。

standard.lucene

string

Standard Lucene アナライザー。

standardasciifolding.lucene

string

Standard ASCII フォールディング Lucene アナライザー。 「https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers」を参照してください。

stop

string

テキストを文字以外で分割します。小文字とストップワードのトークン フィルターを適用します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html」を参照してください。

sv.lucene

string

スウェーデン語用 Lucene アナライザー。

sv.microsoft

string

スウェーデン語用 Microsoft アナライザー。

ta.microsoft

string

Tamil 用 Microsoft アナライザー。

te.microsoft

string

テルグ語用 Microsoft アナライザー。

th.lucene

string

タイ語用 Lucene アナライザー。

th.microsoft

string

タイ語用 Microsoft アナライザー。

tr.lucene

string

トルコ語用 Lucene アナライザー。

tr.microsoft

string

トルコ語用 Microsoft アナライザー。

uk.microsoft

string

ウクライナ語用 Microsoft アナライザー。

ur.microsoft

string

Urdu 用 Microsoft アナライザー。

vi.microsoft

string

ベトナム語用 Microsoft アナライザー。

whitespace

string

空白文字トークナイザーを使用するアナライザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html」を参照してください。

zh-Hans.lucene

string

Lucene analyzer for Chinese (簡体字)。

zh-Hans.microsoft

string

Microsoft Analyzer for Chinese (簡体字)。

zh-Hant.lucene

string

Lucene analyzer for Chinese (繁体字)。

zh-Hant.microsoft

string

Microsoft Analyzer for Chinese (繁体字)。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

名前 説明
classic

string

ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html」を参照してください。

edgeNGram

string

エッジからの入力を、指定されたサイズの n グラムにトークン化します。 「https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html」を参照してください。

keyword_v2

string

入力全体が 1 つのトークンとして生成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html」を参照してください。

letter

string

非文字でテキストを分割します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html」を参照してください。

lowercase

string

非文字でテキストが分割され、それらが小文字に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html」を参照してください。

microsoft_language_stemming_tokenizer

string

言語固有のルールを使用してテキストが分割され、基本フォームに単語が減らされます。

microsoft_language_tokenizer

string

言語固有のルールを使用してテキストが分割されます。

nGram

string

入力が指定サイズの n グラムにトークン化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html」を参照してください。

path_hierarchy_v2

string

パスのような階層のトークナイザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html」を参照してください。

pattern

string

正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html」を参照してください。

standard_v2

string

Standard Lucene アナライザー。標準のトークナイザー、小文字のフィルター、および停止フィルターで構成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html」を参照してください。

uax_url_email

string

URL と電子メールが 1 つのトークンとしてトークン化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html」を参照してください。

whitespace

string

空白文字によりテキストが分割されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html」を参照してください。

SearchError

API のエラー条件について説明します。

名前 説明
code

string

サーバー定義のエラー コードのセットの 1 つ。

details

SearchError[]

この報告されたエラーの原因となった特定のエラーに関する詳細の配列。

message

string

エラーの人間が判読できる表現。

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

名前 説明
apostrophe

string

アポストロフィ以降 (アポストロフィ自体を含む) のすべての文字が除去されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html」を参照してください。

arabic_normalization

string

アラビア語ノーマライザーを適用して正書法を正規化するトークン フィルター。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html」を参照してください。

asciifolding

string

最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) にないアルファベット、数字、および記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html」を参照してください。

cjk_bigram

string

標準トークナイザーから生成される CJK 用語の bigrams を形成します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html」を参照してください。

cjk_width

string

CJK の幅の違いが正規化されます。 全角 ASCII バリアントを同等の基本ラテン語に、半角カタカナバリアントを同等のかなに折りたたみます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html」を参照してください。

classic

string

頭字語から英語の所有物とドットを削除します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html」を参照してください。

common_grams

string

インデックス付けの間に、頻繁に発生する用語に対してバイグラムが作成されます。 1 つの用語も、バイグラムがオーバーレイされてインデックス付けされます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html」を参照してください。

edgeNGram_v2

string

入力トークンの前面または背面から、指定したサイズの n グラムを生成します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html」を参照してください。

elision

string

省略記号が削除されます。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html」を参照してください。

german_normalization

string

German2 snowball アルゴリズムのヒューリスティックに従って、ドイツ語の文字を正規化します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html」を参照してください。

hindi_normalization

string

ヒンディー語のテキストが正規化され、スペルのバリエーションの違いが削除されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html」を参照してください。

indic_normalization

string

インドの言語でのテキストの Unicode 表現が正規化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html」を参照してください。

keyword_repeat

string

各受信トークンを 2 回、キーワード (keyword)として 1 回、非キーワード (keyword)として 1 回出力します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html」を参照してください。

kstem

string

英語用の高パフォーマンスの kstem フィルター。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html」を参照してください。

length

string

長すぎる単語または短すぎる単語が削除されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html」を参照してください。

limit

string

インデックス付けの間に、トークンの数が制限されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html」を参照してください。

lowercase

string

トークンのテキストが小文字に正規化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm」を参照してください。

nGram_v2

string

指定サイズの n グラムが生成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html」を参照してください。

persian_normalization

string

ペルシャ語の正規化が適用されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html」を参照してください。

phonetic

string

音声一致用のトークンが作成されます。 「https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html」を参照してください。

porter_stem

string

Porter ステミング アルゴリズムを使用してトークン ストリームを変換します。 「http://tartarus.org/~martin/PorterStemmer」を参照してください。

reverse

string

トークンの文字列が反転されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html」を参照してください。

scandinavian_folding

string

スカンジナビア語の文字が åÅäæÄÆ->a および öÖøØ->o にフォールドされます。 また、重母音 aa、ae、ao、oe、oo の使用を判別し、最初の 1 つだけが残されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html」を参照してください。

scandinavian_normalization

string

交換可能なスカンジナビア語の文字の使用を正規化します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html」を参照してください。

shingle

string

トークンの組み合わせが 1 つのトークンとして作成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html」を参照してください。

snowball

string

Snowball で生成されたステマーを使用して単語をステミングするフィルター。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html」を参照してください。

sorani_normalization

string

ソラニー語テキストの Unicode 表現が正規化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html」を参照してください。

stemmer

string

言語固有のステミング フィルター。 「https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters」を参照してください。

stopwords

string

トークン ストリームからストップワードが削除されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html」を参照してください。

trim

string

先頭と末尾の空白文字がトークンからトリミングされます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html」を参照してください。

truncate

string

用語を特定の長さに切り捨てます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html」を参照してください。

unique

string

前のトークンと同じテキストのトークンが除外されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html」を参照してください。

uppercase

string

トークンのテキストが大文字に正規化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html」を参照してください。

word_delimiter

string

単語がサブ単語に分割され、部分語のグループに対してオプションの変換が実行されます。