次の方法で共有


Indexes - Analyze

アナライザーがテキストをトークンに分割する方法を示します。

POST {endpoint}/indexes('{indexName}')/search.analyze?api-version=2024-07-01

URI パラメーター

名前 / 必須 説明
endpoint
path True

string

検索サービスのエンドポイント URL。

indexName
path True

string

アナライザーをテストするインデックスの名前。

api-version
query True

string

クライアント API のバージョン。

要求ヘッダー

名前 必須 説明
x-ms-client-request-id

string

uuid

デバッグに役立つ要求と共に送信される追跡 ID。

要求本文

名前 必須 説明
text True

string

トークンに分割するテキスト。

analyzer

LexicalAnalyzerName

指定されたテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenFilters

TokenFilterName[]

指定されたテキストを中断するときに使用するトークン フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定されたテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

応答

名前 説明
200 OK

AnalyzeResult

Other Status Codes

ErrorResponse

エラー応答。

SearchServiceIndexAnalyze

要求のサンプル

POST https://myservice.search.windows.net/indexes('hotels')/search.analyze?api-version=2024-07-01

{
  "text": "Text to analyze",
  "analyzer": "standard.lucene"
}

応答のサンプル

{
  "tokens": [
    {
      "token": "text",
      "startOffset": 0,
      "endOffset": 4,
      "position": 0
    },
    {
      "token": "to",
      "startOffset": 5,
      "endOffset": 7,
      "position": 1
    },
    {
      "token": "analyze",
      "startOffset": 8,
      "endOffset": 15,
      "position": 2
    }
  ]
}

定義

名前 説明
AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。

AnalyzeResult

テキストでアナライザーをテストした結果。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

ErrorAdditionalInfo

リソース管理エラーの追加情報。

ErrorDetail

エラーの詳細。

ErrorResponse

エラー応答

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

AnalyzedTokenInfo

アナライザーによって返されるトークンに関する情報。

名前 説明
endOffset

integer

入力テキスト内のトークンの最後の文字のインデックス。

position

integer

他のトークンに対する入力テキスト内のトークンの位置。 入力テキストの最初のトークンの位置は 0、次のトークンの位置は 1 です。 使用されるアナライザーによっては、一部のトークンが同じ位置にある場合があります (たとえば、トークンが互いのシノニムである場合)。

startOffset

integer

入力テキスト内のトークンの最初の文字のインデックス。

token

string

アナライザーによって返されるトークン。

AnalyzeRequest

そのテキストをトークンに分割するために使用されるテキストおよび分析コンポーネントをいくつか指定します。

名前 説明
analyzer

LexicalAnalyzerName

指定されたテキストを中断するために使用するアナライザーの名前。 このパラメーターを指定しない場合は、代わりにトークナイザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

charFilters

CharFilterName[]

指定したテキストを分割するときに使用する文字フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

text

string

トークンに分割するテキスト。

tokenFilters

TokenFilterName[]

指定されたテキストを中断するときに使用するトークン フィルターの省略可能なリスト。 このパラメーターは、トークナイザー パラメーターを使用する場合にのみ設定できます。

tokenizer

LexicalTokenizerName

指定されたテキストを区切るために使用するトークナイザーの名前。 このパラメーターを指定しない場合は、代わりにアナライザーを指定する必要があります。 トークナイザーパラメーターとアナライザー パラメーターは相互に排他的です。

AnalyzeResult

テキストでアナライザーをテストした結果。

名前 説明
tokens

AnalyzedTokenInfo[]

要求で指定されたアナライザーによって返されるトークンの一覧。

CharFilterName

検索エンジンでサポートされているすべての文字フィルターの名前を定義します。

名前 説明
html_strip

string

HTML コンストラクトを取り除こうとする文字フィルター。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください

ErrorAdditionalInfo

リソース管理エラーの追加情報。

名前 説明
info

object

追加情報。

type

string

追加情報の種類。

ErrorDetail

エラーの詳細。

名前 説明
additionalInfo

ErrorAdditionalInfo[]

エラーの追加情報。

code

string

エラー コード。

details

ErrorDetail[]

エラーの詳細。

message

string

エラー メッセージ。

target

string

エラーターゲット。

ErrorResponse

エラー応答

名前 説明
error

ErrorDetail

エラー オブジェクト。

LexicalAnalyzerName

検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。

名前 説明
ar.lucene

string

アラビア語用 Lucene アナライザー。

ar.microsoft

string

アラビア語用 Microsoft アナライザー。

bg.lucene

string

ブルガリア語用ルセンアナライザー。

bg.microsoft

string

ブルガリア語用 Microsoft アナライザー。

bn.microsoft

string

Bangla 用 Microsoft アナライザー。

ca.lucene

string

カタロニア語用 Lucene アナライザー。

ca.microsoft

string

カタロニア語用 Microsoft アナライザー。

cs.lucene

string

チェコ語用 Lucene アナライザー。

cs.microsoft

string

チェコ語用 Microsoft アナライザー。

da.lucene

string

デンマーク語用 Lucene アナライザー。

da.microsoft

string

デンマーク語用 Microsoft アナライザー。

de.lucene

string

ドイツ語用 Lucene アナライザー。

de.microsoft

string

ドイツ語用 Microsoft アナライザー。

el.lucene

string

ギリシャ語用 Lucene アナライザー。

el.microsoft

string

ギリシャ語用 Microsoft アナライザー。

en.lucene

string

英語用 Lucene アナライザー。

en.microsoft

string

英語用 Microsoft アナライザー。

es.lucene

string

スペイン語用 Lucene アナライザー。

es.microsoft

string

スペイン語用 Microsoft アナライザー。

et.microsoft

string

エストニア語用 Microsoft アナライザー。

eu.lucene

string

バスク用 Lucene アナライザー。

fa.lucene

string

ペルシア語用 Lucene アナライザー。

fi.lucene

string

フィンランド語用 Lucene アナライザー。

fi.microsoft

string

フィンランド語用 Microsoft アナライザー。

fr.lucene

string

フランス語用 Lucene アナライザー。

fr.microsoft

string

フランス語用 Microsoft アナライザー。

ga.lucene

string

アイルランド語用 Lucene アナライザー。

gl.lucene

string

ガリシア語用 Lucene アナライザー。

gu.microsoft

string

Gujarati 用 Microsoft アナライザー。

he.microsoft

string

ヘブライ語用 Microsoft アナライザー。

hi.lucene

string

ヒンディー語用 Lucene アナライザー。

hi.microsoft

string

ヒンディー語用 Microsoft アナライザー。

hr.microsoft

string

クロアチア語用 Microsoft アナライザー。

hu.lucene

string

ハンガリー語用 Lucene アナライザー。

hu.microsoft

string

ハンガリー語用 Microsoft アナライザー。

hy.lucene

string

アルメニア語用 Lucene アナライザー。

id.lucene

string

インドネシア語用 Lucene アナライザー。

id.microsoft

string

インドネシア語 (Bahasa) 用 Microsoft アナライザー。

is.microsoft

string

アイスランドの Microsoft アナライザー。

it.lucene

string

イタリア語用 Lucene アナライザー。

it.microsoft

string

イタリア語用 Microsoft アナライザー。

ja.lucene

string

日本語用 Lucene アナライザー。

ja.microsoft

string

日本語用 Microsoft アナライザー。

keyword

string

フィールドの内容全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください

kn.microsoft

string

カンナダ用 Microsoft アナライザー。

ko.lucene

string

韓国語用 Lucene アナライザー。

ko.microsoft

string

韓国語用 Microsoft アナライザー。

lt.microsoft

string

リトアニア語用 Microsoft アナライザー。

lv.lucene

string

ラトビア語用 Lucene アナライザー。

lv.microsoft

string

ラトビア語用 Microsoft アナライザー。

ml.microsoft

string

マラヤーラム用 Microsoft アナライザー。

mr.microsoft

string

Marathi 用 Microsoft アナライザー。

ms.microsoft

string

マレー語 (ラテン) 用 Microsoft アナライザー。

nb.microsoft

string

ノルウェー語 (Bokmål) 用 Microsoft アナライザー。

nl.lucene

string

オランダ語用 Lucene アナライザー。

nl.microsoft

string

オランダ語用 Microsoft アナライザー。

no.lucene

string

ノルウェー語用 Lucene アナライザー。

pa.microsoft

string

Punjabi 用 Microsoft アナライザー。

pattern

string

正規表現パターンを使用して、テキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください

pl.lucene

string

ポーランド語用 Lucene アナライザー。

pl.microsoft

string

ポーランド語用 Microsoft アナライザー。

pt-BR.lucene

string

ポルトガル語 (ブラジル) 用 Lucene アナライザー。

pt-BR.microsoft

string

ポルトガル語 (ブラジル) 用 Microsoft アナライザー。

pt-PT.lucene

string

ポルトガル語 (ポルトガル) 用 Lucene アナライザー。

pt-PT.microsoft

string

ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。

ro.lucene

string

ルーマニア語用 Lucene アナライザー。

ro.microsoft

string

ルーマニア語用 Microsoft アナライザー。

ru.lucene

string

ロシア語用 Lucene アナライザー。

ru.microsoft

string

ロシア語用 Microsoft アナライザー。

simple

string

テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください

sk.microsoft

string

スロバキア語用 Microsoft アナライザー。

sl.microsoft

string

スロベニア語用 Microsoft アナライザー。

sr-cyrillic.microsoft

string

セルビア語 (キリル) 用 Microsoft アナライザー。

sr-latin.microsoft

string

セルビア語 (ラテン) 用 Microsoft アナライザー。

standard.lucene

string

標準 Lucene アナライザー。

standardasciifolding.lucene

string

標準 ASCII フォールディング Lucene アナライザー。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください

stop

string

テキストを文字以外で除算します。小文字とストップワードのトークン フィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください

sv.lucene

string

スウェーデン語用 Lucene アナライザー。

sv.microsoft

string

スウェーデン語用 Microsoft アナライザー。

ta.microsoft

string

Tamil 用 Microsoft アナライザー。

te.microsoft

string

Telugu 用 Microsoft アナライザー。

th.lucene

string

タイ語用 Lucene アナライザー。

th.microsoft

string

タイ語用 Microsoft アナライザー。

tr.lucene

string

トルコ語用 Lucene アナライザー。

tr.microsoft

string

トルコ語用 Microsoft アナライザー。

uk.microsoft

string

ウクライナ語用 Microsoft アナライザー。

ur.microsoft

string

Urdu 用 Microsoft アナライザー。

vi.microsoft

string

ベトナム語用 Microsoft アナライザー。

whitespace

string

空白トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください

zh-Hans.lucene

string

中国語 (簡体字) 用 Lucene アナライザー。

zh-Hans.microsoft

string

Microsoft Analyzer for Chinese (簡体字)。

zh-Hant.lucene

string

中国語 (繁体字) 用 Lucene アナライザー。

zh-Hant.microsoft

string

Microsoft analyzer for Chinese (繁体字)。

LexicalTokenizerName

検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。

名前 説明
classic

string

ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html を参照してください

edgeNGram

string

エッジからの入力を特定のサイズの n グラムにトークン化します。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html を参照してください

keyword_v2

string

入力全体を 1 つのトークンとして出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html を参照してください

letter

string

テキストを文字以外で分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html を参照してください

lowercase

string

テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html を参照してください

microsoft_language_stemming_tokenizer

string

言語固有のルールを使用してテキストを分割し、単語を基本フォームに減らします。

microsoft_language_tokenizer

string

言語固有のルールを使用してテキストを分割します。

nGram

string

指定したサイズの n グラムに入力をトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html を参照してください

path_hierarchy_v2

string

パスに似た階層のトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html を参照してください

pattern

string

正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html を参照してください

standard_v2

string

標準 Lucene アナライザー;標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html を参照してください

uax_url_email

string

URL と電子メールを 1 つのトークンとしてトークン化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html を参照してください

whitespace

string

空白文字でテキストを分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html を参照してください

TokenFilterName

検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。

名前 説明
apostrophe

string

アポストロフィの後のすべての文字 (アポストロフィ自体を含む) を除去します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html を参照してください

arabic_normalization

string

アラビア語のノーマライザーを適用して序数を正規化するトークン フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html を参照してください

asciifolding

string

最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html を参照してください

cjk_bigram

string

標準トークナイザーから生成される CJK 用語のビグラムを形成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html を参照してください

cjk_width

string

CJK の幅の違いを正規化します。 フルwidth ASCIIバリアントを同等の基本的なラテン語に、半角カタカナバリアントを同等のかなに折りたたみます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html を参照してください

classic

string

頭字語から英語の所有物とドットを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html を参照してください

common_grams

string

インデックス作成中に頻繁に発生する用語のビグラムを構築します。 単一の用語もインデックスが作成され、バイグラムが重なっています。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html を参照してください

edgeNGram_v2

string

入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html を参照してください

elision

string

エリジオンを削除します。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html を参照してください

german_normalization

string

German2 スノーボール アルゴリズムのヒューリスティックに従って、ドイツ語の文字を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html を参照してください

hindi_normalization

string

ヒンディー語のテキストを正規化して、スペル バリエーションの違いをいくつか削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html を参照してください

indic_normalization

string

インド言語でのテキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html を参照してください

keyword_repeat

string

各受信トークンを 2 回、キーワードとして 1 回、非キーワードとして 1 回出力します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html を参照してください

kstem

string

英語のハイ パフォーマンス kstem フィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html を参照してください

length

string

長すぎる単語または短すぎる単語を削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html を参照してください

limit

string

インデックス作成中のトークンの数を制限します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html を参照してください

lowercase

string

トークン テキストを小文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html を参照してください

nGram_v2

string

指定されたサイズの n グラムを生成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html を参照してください

persian_normalization

string

ペルシア語の正規化を適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html を参照してください

phonetic

string

ふりがなのトークンを作成します。 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html を参照してください

porter_stem

string

Porter ステミング アルゴリズムを使用してトークン ストリームを変換します。 http://tartarus.org/~martin/PorterStemmer を参照してください

reverse

string

トークン文字列を逆にします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html を参照してください

scandinavian_folding

string

スカンジナビア文字 åÅäæÄÆ->a と ööøØ->o. また、二重母音 aa、ae、ao、oe、oo の使用を区別し、最初の母音だけを残します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html を参照してください

scandinavian_normalization

string

交換可能なスカンジナビア文字の使用を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html を参照してください

shingle

string

トークンの組み合わせを 1 つのトークンとして作成します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html を参照してください

snowball

string

Snowball で生成されたステマーを使用して単語の語幹を読み上めるフィルター。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html を参照してください

sorani_normalization

string

Sorani テキストの Unicode 表現を正規化します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html を参照してください

stemmer

string

言語固有のステミング フィルター。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters を参照してください

stopwords

string

トークン ストリームからストップ ワードを削除します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html を参照してください

trim

string

トークンから先頭と末尾の空白をトリミングします。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html を参照してください

truncate

string

用語を特定の長さに切り捨てます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html を参照してください

unique

string

前のトークンと同じテキストを持つトークンを除外します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html を参照してください

uppercase

string

トークン テキストを大文字に正規化します。 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html を参照してください

word_delimiter

string

単語をサブワードに分割し、サブワード グループに対してオプションの変換を実行します。