Indexes - Create
新しい検索インデックスを作成します。
POST {endpoint}/indexes?api-version=2024-07-01
URI パラメーター
名前 | / | 必須 | 型 | 説明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
検索サービスのエンドポイント URL。 |
api-version
|
query | True |
string |
クライアント API のバージョン。 |
要求ヘッダー
名前 | 必須 | 型 | 説明 |
---|---|---|---|
x-ms-client-request-id |
string uuid |
デバッグに役立つ要求と共に送信される追跡 ID。 |
要求本文
名前 | 必須 | 型 | 説明 |
---|---|---|---|
fields | True |
インデックスのフィールド。 |
|
name | True |
string |
インデックスの名前。 |
@odata.etag |
string |
インデックスの ETag。 |
|
analyzers | LexicalAnalyzer[]: |
インデックスのアナライザー。 |
|
charFilters | CharFilter[]: |
インデックスの文字フィルター。 |
|
corsOptions |
インデックスのクロスオリジン リソース共有 (CORS) を制御するオプション。 |
||
defaultScoringProfile |
string |
クエリで何も指定されていない場合に使用するスコアリング プロファイルの名前。 このプロパティが設定されておらず、クエリでスコアリング プロファイルが指定されていない場合は、既定のスコアリング (tf-idf) が使用されます。 |
|
encryptionKey |
Azure Key Vault で作成する暗号化キーの説明。 このキーは、データの暗号化を解除できる Microsoft 以外のユーザーがいないという完全な保証が必要な場合に、データの保存時の追加レベルを提供するために使用されます。 データを暗号化すると、常に暗号化されたままになります。 検索サービスは、このプロパティを null に設定する試行を無視します。 暗号化キーをローテーションする場合は、必要に応じてこのプロパティを変更できます。データは影響を受けません。 カスタマー マネージド キーを使用した暗号化は、無料の検索サービスでは使用できません。また、2019 年 1 月 1 日以降に作成された有料サービスでのみ使用できます。 |
||
scoringProfiles |
インデックスのスコアリング プロファイル。 |
||
semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
||
similarity | Similarity: |
検索クエリに一致するドキュメントのスコア付けとランク付けに使用する類似性アルゴリズムの種類。 類似性アルゴリズムは、インデックス作成時にのみ定義でき、既存のインデックスでは変更できません。 null の場合は、ClassicSimilarity アルゴリズムが使用されます。 |
|
suggesters |
インデックスのサジェスター。 |
||
tokenFilters |
TokenFilter[]:
|
インデックスのトークン フィルター。 |
|
tokenizers | LexicalTokenizer[]: |
インデックスのトークナイザー。 |
|
vectorSearch |
ベクター検索に関連する構成オプションが含まれています。 |
応答
名前 | 型 | 説明 |
---|---|---|
201 Created | ||
Other Status Codes |
エラー応答。 |
例
SearchServiceCreateIndex
要求のサンプル
POST https://myservice.search.windows.net/indexes?api-version=2024-07-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
応答のサンプル
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile",
"synonymMaps": []
},
{
"name": "descriptionEmbedding_notstored",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": false,
"stored": false,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswSQProfile"
},
{
"name": "descriptionEmbedding_forBQ",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswBQProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "nameEmbedding",
"type": "Collection(Edm.Half)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenFilters": [],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myHnswSQProfile",
"algorithm": "myHnsw",
"compression": "mySQ8"
},
{
"name": "myHnswBQProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi",
"compression": "myBQ"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
},
{
"name": "myBQ",
"kind": "binaryQuantization",
"rerankWithOriginalVectors": true,
"defaultOversampling": 10
}
]
}
}
定義
名前 | 説明 |
---|---|
Ascii |
最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Azure |
Azure Key Vault に格納されている暗号化キーへの認証済みアクセスに使用される、検索サービス用に作成された登録済みアプリケーションの資格情報。 |
Azure |
Azure OpenAI リソースを使用して、特定のテキスト入力のベクター埋め込みを生成できます。 |
Azure |
呼び出される Azure Open AI モデル名。 |
Azure |
Azure OpenAI リソースに接続するためのパラメーターを指定します。 |
Azure |
クエリ文字列のベクター化に使用する Azure OpenAI リソースを指定します。 |
Binary |
インデックス作成およびクエリ中に使用されるバイナリ量子化圧縮方法に固有の構成オプションが含まれています。 |
BM25Similarity |
Okapi BM25 類似性アルゴリズムに基づくランク付け関数。 BM25 は TF-IDF に似たアルゴリズムであり、長さの正規化 ('b' パラメーターによって制御される) と、用語の頻度の飽和 ('k1' パラメーターによって制御) が含まれます。 |
Char |
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。 |
Cjk |
標準トークナイザーから生成される CJK 用語のビグラムを形成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Cjk |
CjkBigramTokenFilter で無視できるスクリプト。 |
Classic |
TF-IDF の Lucene TFIDFSimilarity 実装を使用する従来の類似性アルゴリズム。 この TF-IDF のバリエーションでは、静的ドキュメントの長さの正規化と、検索されたクエリの一部にのみ一致するドキュメントに対する影響を受け取る調整要因が導入されています。 |
Classic |
ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Common |
インデックス作成中に頻繁に発生する用語のビグラムを構築します。 単一の用語もインデックスが作成され、バイグラムが重なっています。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Cors |
インデックスのクロスオリジン リソース共有 (CORS) を制御するオプションを定義します。 |
Custom |
テキストをインデックス可能/検索可能なトークンに変換するプロセスを制御できます。 これは、1 つの定義済みのトークナイザーと 1 つ以上のフィルターで構成されるユーザー定義の構成です。 トークナイザーは、テキストをトークンに分割し、トークナイザーによって出力されるトークンを変更するためのフィルターを担当します。 |
Dictionary |
多くのゲルマン語で見つかった複合語を分解します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Distance |
地理的な場所からの距離に基づいてスコアをブーストする関数を定義します。 |
Distance |
距離スコアリング関数にパラメーター値を提供します。 |
Edge |
入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Edge |
n-gram を生成する入力の側を指定します。 |
Edge |
入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Edge |
エッジからの入力を特定のサイズの n グラムにトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Elision |
エリジオンを削除します。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Error |
リソース管理エラーの追加情報。 |
Error |
エラーの詳細。 |
Error |
エラー応答 |
Exhaustive |
完全な KNN アルゴリズムに固有のパラメーターが含まれています。 |
Exhaustive |
クエリ中に使用される完全な KNN アルゴリズムに固有の構成オプションが含まれており、ベクター インデックス全体でブルート フォース検索を実行します。 |
Freshness |
日時フィールドの値に基づいてスコアをブーストする関数を定義します。 |
Freshness |
新度スコアリング関数にパラメーター値を提供します。 |
Hnsw |
HNSW アルゴリズムに固有のパラメーターを格納します。 |
Hnsw |
インデックス作成とクエリ中に使用される HNSW 近似最近隣アルゴリズムに固有の構成オプションが含まれています。 HNSW アルゴリズムは、検索速度と精度の間で調整可能なトレードオフを提供します。 |
Input |
スキルの入力フィールド マッピング。 |
Keep |
指定した単語の一覧に含まれるテキストを持つトークンのみを保持するトークン フィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Keyword |
用語をキーワードとしてマークします。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Keyword |
入力全体を 1 つのトークンとして出力します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Keyword |
入力全体を 1 つのトークンとして出力します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Length |
長すぎる単語または短すぎる単語を削除します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Lexical |
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。 |
Lexical |
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。 |
Limit |
インデックス作成中のトークンの数を制限します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Lucene |
Standard Apache Lucene アナライザー。標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。 |
Lucene |
Unicode テキストのセグメント化ルールに従ってテキストを区切ります。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Lucene |
Unicode テキストのセグメント化ルールに従ってテキストを区切ります。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Magnitude |
数値フィールドの大きさに基づいてスコアをブーストする関数を定義します。 |
Magnitude |
パラメーター値をマグニチュード スコアリング関数に提供します。 |
Mapping |
マッピング オプションで定義されたマッピングを適用する文字フィルター。 一致は最長一致です (特定のポイントで最も長いパターン マッチングが優先されます)。 置換は空の文字列にすることができます。 この文字フィルターは、Apache Lucene を使用して実装されます。 |
Microsoft |
言語固有のルールを使用してテキストを分割し、単語を基本フォームに減らします。 |
Microsoft |
言語固有のルールを使用してテキストを分割します。 |
Microsoft |
Microsoft 言語ステミング トークナイザーでサポートされている言語を一覧表示します。 |
Microsoft |
Microsoft 言語トークナイザーでサポートされている言語を一覧表示します。 |
NGram |
指定されたサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
NGram |
指定されたサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
NGram |
指定したサイズの n グラムに入力をトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Output |
スキルの出力フィールド マッピング。 |
Path |
パスに似た階層のトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Pattern |
正規表現パターンを使用して、テキストを用語に柔軟に分割します。 このアナライザーは、Apache Lucene を使用して実装されます。 |
Pattern |
Java 正規表現を使用して、1 つ以上のパターンでキャプチャ グループごとに 1 つずつ、複数のトークンを出力します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Pattern |
入力文字列内の文字を置き換える文字フィルター。 正規表現を使用して保持する文字シーケンスを識別し、置換する文字を識別する置換パターンを使用します。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換後の "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 この文字フィルターは、Apache Lucene を使用して実装されます。 |
Pattern |
入力文字列内の文字を置き換える文字フィルター。 正規表現を使用して保持する文字シーケンスを識別し、置換する文字を識別する置換パターンを使用します。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換後の "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Pattern |
正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Phonetic |
PhoneticTokenFilter で使用するふりがなエンコーダーの種類を識別します。 |
Phonetic |
ふりがなのトークンを作成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Prioritized |
セマンティック ランク付け、キャプション、強調表示、回答に使用するタイトル、コンテンツ、キーワードのフィールドについて説明します。 |
Regex |
パターン アナライザーとパターン トークナイザーでの正規表現の使用方法を制御するために組み合わせることができるフラグを定義します。 |
Scalar |
スカラー量子化に固有のパラメーターを格納します。 |
Scalar |
インデックス作成およびクエリ中に使用されるスカラー量子化圧縮方法に固有の構成オプションが含まれています。 |
Scoring |
スコアリング プロファイル内のすべてのスコアリング関数の結果を結合するために使用する集計関数を定義します。 |
Scoring |
さまざまなドキュメントでスコアブーストを補間するために使用する関数を定義します。 |
Scoring |
検索クエリのスコア付けに影響を与える検索インデックスのパラメーターを定義します。 |
Search |
インデックス定義内のフィールドを表します。フィールドの名前、データ型、および検索動作を表します。 |
Search |
検索インデックス内のフィールドのデータ型を定義します。 |
Search |
インデックスのフィールドと検索動作を記述する検索インデックス定義を表します。 |
Search |
データソースの ID プロパティをクリアします。 |
Search |
使用するデータソースの ID を指定します。 |
Search |
Azure Key Vault のカスタマー マネージド暗号化キー。 作成および管理するキーは、インデックスやシノニム マップなどの保存データの暗号化または暗号化解除に使用できます。 |
Semantic |
セマンティック機能のコンテキストで使用する特定の構成を定義します。 |
Semantic |
セマンティック構成の一部として使用されるフィールド。 |
Semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
Shingle |
トークンの組み合わせを 1 つのトークンとして作成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Snowball |
Snowball で生成されたステマーを使用して単語の語幹を読み上めるフィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Snowball |
Snowball トークン フィルターに使用する言語。 |
Stemmer |
ユーザー辞書ベースのステミングを使用して、他のステミング フィルターをオーバーライドする機能を提供します。 辞書で語幹を付けた用語はキーワードとしてマークされるため、チェーンの下にあるステマーで語幹を付けないようにします。 ステミング フィルターの前に配置する必要があります。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Stemmer |
言語固有のステミング フィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Stemmer |
ステマー トークン フィルターに使用する言語。 |
Stop |
テキストを文字以外で除算します。小文字とストップワードのトークン フィルターを適用します。 このアナライザーは、Apache Lucene を使用して実装されます。 |
Stopwords |
言語固有のストップワードの定義済みリストを識別します。 |
Stopwords |
トークン ストリームからストップ ワードを削除します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Suggester |
Suggest API をインデックス内のフィールドのグループに適用する方法を定義します。 |
Suggester |
suggester の機能を示す値。 |
Synonym |
トークン ストリーム内の単一または複数単語のシノニムと一致します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Tag |
特定のタグのリストに一致する文字列値を持つドキュメントのスコアを向上させる関数を定義します。 |
Tag |
タグ スコアリング関数にパラメーター値を提供します。 |
Text |
検索クエリでスコアリングを向上させる必要がある一致するインデックス フィールドの重みを定義します。 |
Token |
トークン フィルターが動作できる文字のクラスを表します。 |
Token |
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。 |
Truncate |
用語を特定の長さに切り捨てます。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Uax |
URL と電子メールを 1 つのトークンとしてトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。 |
Unique |
前のトークンと同じテキストを持つトークンを除外します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
Vector |
ベクター フィールドの内容を解釈するためのエンコード形式。 |
Vector |
ベクター検索に関連する構成オプションが含まれています。 |
Vector |
インデックス作成とクエリに使用されるアルゴリズム。 |
Vector |
ベクター比較に使用する類似性メトリック。 埋め込みモデルのトレーニングと同じ類似性メトリックを選択することをお勧めします。 |
Vector |
インデックス作成とクエリに使用される圧縮方法。 |
Vector |
圧縮ベクター値の量子化データ型。 |
Vector |
ベクター検索で使用する構成の組み合わせを定義します。 |
Vector |
クエリ時間中に使用されるベクター化メソッド。 |
Web |
ユーザー定義ベクターライザーに接続するためのプロパティを指定します。 |
Web |
クエリ文字列のベクター埋め込みを生成するためのユーザー定義ベクターライザーを指定します。 外部ベクターライザーの統合は、スキルセットのカスタム Web API インターフェイスを使用して実現されます。 |
Word |
単語をサブワードに分割し、サブワード グループに対してオプションの変換を実行します。 このトークン フィルターは、Apache Lucene を使用して実装されます。 |
AsciiFoldingTokenFilter
最初の 127 個の ASCII 文字 ("Basic Latin" Unicode ブロック) に含まれていないアルファベット、数字、記号の Unicode 文字を、ASCII に相当する文字に変換します (そのような文字が存在する場合)。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
preserveOriginal |
boolean |
False |
元のトークンを保持するかどうかを示す値。 既定値は false です。 |
AzureActiveDirectoryApplicationCredentials
Azure Key Vault に格納されている暗号化キーへの認証済みアクセスに使用される、検索サービス用に作成された登録済みアプリケーションの資格情報。
名前 | 型 | 説明 |
---|---|---|
applicationId |
string |
保存データの暗号化時に使用される Azure Key Vault に対する必要なアクセス許可が付与された AAD アプリケーション ID。 アプリケーション ID は、AAD アプリケーションのオブジェクト ID と混同しないでください。 |
applicationSecret |
string |
指定した AAD アプリケーションの認証キー。 |
AzureOpenAIEmbeddingSkill
Azure OpenAI リソースを使用して、特定のテキスト入力のベクター埋め込みを生成できます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
スキルの種類を指定する URI フラグメント。 |
apiKey |
string |
指定された Azure OpenAI リソースの API キー。 |
authIdentity | SearchIndexerDataIdentity: |
送信接続に使用されるユーザー割り当てマネージド ID。 |
context |
string |
ドキュメントのルートやドキュメントのコンテンツ (/document や /document/content など) など、操作が行われるレベルを表します。 既定値は /document です。 |
deploymentId |
string |
指定されたリソースに対する Azure OpenAI モデルデプロイの ID。 |
description |
string |
スキルの入力、出力、および使用方法を記述するスキルの説明。 |
dimensions |
integer |
結果の出力埋め込みで必要なディメンションの数。 text-embedding-3 以降のモデルでのみサポートされます。 |
inputs |
スキルの入力には、ソース データ セット内の列、またはアップストリーム スキルの出力を指定できます。 |
|
modelName |
指定された deploymentId パスにデプロイされる埋め込みモデルの名前。 |
|
name |
string |
スキルセット内で一意に識別されるスキルの名前。 名前が定義されていないスキルには、スキル配列内の 1 から始まるインデックスの既定の名前が付けられます。先頭には文字 '#' が付きます。 |
outputs |
スキルの出力は、検索インデックス内のフィールドか、別のスキルによる入力として使用できる値のいずれかです。 |
|
resourceUri |
string |
Azure OpenAI リソースのリソース URI。 |
AzureOpenAIModelName
呼び出される Azure Open AI モデル名。
名前 | 型 | 説明 |
---|---|---|
text-embedding-3-large |
string |
|
text-embedding-3-small |
string |
|
text-embedding-ada-002 |
string |
AzureOpenAIParameters
Azure OpenAI リソースに接続するためのパラメーターを指定します。
名前 | 型 | 説明 |
---|---|---|
apiKey |
string |
指定された Azure OpenAI リソースの API キー。 |
authIdentity | SearchIndexerDataIdentity: |
送信接続に使用されるユーザー割り当てマネージド ID。 |
deploymentId |
string |
指定されたリソースに対する Azure OpenAI モデルデプロイの ID。 |
modelName |
指定された deploymentId パスにデプロイされる埋め込みモデルの名前。 |
|
resourceUri |
string |
Azure OpenAI リソースのリソース URI。 |
AzureOpenAIVectorizer
クエリ文字列のベクター化に使用する Azure OpenAI リソースを指定します。
名前 | 型 | 説明 |
---|---|---|
azureOpenAIParameters | AzureOpenAIParameters: |
Azure OpenAI 埋め込みベクター化に固有のパラメーターが含まれています。 |
kind |
string:
azure |
ベクター検索で使用するように構成されているベクター化メソッドの種類の名前。 |
name |
string |
この特定のベクター化メソッドに関連付ける名前。 |
BinaryQuantizationVectorSearchCompressionConfiguration
インデックス作成およびクエリ中に使用されるバイナリ量子化圧縮方法に固有の構成オプションが含まれています。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
defaultOversampling |
number |
既定のオーバーサンプリング係数。 オーバーサンプリングでは、最初の検索で (この乗数で指定された) より多くのドキュメントが内部的に要求されます。 これにより、全精度ベクトルから再計算された類似性スコアを使用して再ランク付けされる結果のセットが増加します。 最小値は 1 で、オーバーサンプリング (1x) がないことを意味します。 このパラメーターは、rerankWithOriginalVectors が true の場合にのみ設定できます。 値を大きくすると、待機時間を犠牲にして再現率が向上します。 |
|
kind |
string:
binary |
ベクター検索で使用するように構成されている圧縮方法の種類の名前。 |
|
name |
string |
この特定の構成に関連付ける名前。 |
|
rerankWithOriginalVectors |
boolean |
True |
true に設定すると、圧縮ベクターを使用して計算された順序付けされた結果セットが取得されると、完全精度の類似性スコアを再計算することで、再ランク付けされます。 これにより、待機時間を犠牲にして再現率が向上します。 |
BM25Similarity
Okapi BM25 類似性アルゴリズムに基づくランク付け関数。 BM25 は TF-IDF に似たアルゴリズムであり、長さの正規化 ('b' パラメーターによって制御される) と、用語の頻度の飽和 ('k1' パラメーターによって制御) が含まれます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
このプロパティは、ドキュメントの長さが関連性スコアに与える影響を制御します。 既定では、値 0.75 が使用されます。 値 0.0 は長さの正規化が適用されていないことを意味し、値 1.0 は、スコアがドキュメントの長さによって完全に正規化されていることを意味します。 |
k1 |
number |
このプロパティは、一致する各用語の用語頻度と、ドキュメント とクエリのペアの最終的な関連性スコアの間のスケーリング関数を制御します。 既定では、値 1.2 が使用されます。 値が 0.0 の場合、スコアは用語の頻度が増加してもスケーリングされません。 |
CharFilterName
検索エンジンでサポートされているすべての文字フィルターの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
html_strip |
string |
HTML コンストラクトを取り除こうとする文字フィルター。 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html を参照してください |
CjkBigramTokenFilter
標準トークナイザーから生成される CJK 用語のビグラムを形成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
ignoreScripts |
無視するスクリプト。 |
||
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
outputUnigrams |
boolean |
False |
ユニグラムとビグラムの両方を出力するか (true の場合)、または単に bigram (false の場合) を出力するかを示す値。 既定値は false です。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter で無視できるスクリプト。
名前 | 型 | 説明 |
---|---|---|
han |
string |
CJK 用語のビグラムを形成するときに Han スクリプトを無視します。 |
hangul |
string |
CJK 用語のビグラムを形成するときにハングル スクリプトを無視します。 |
hiragana |
string |
CJK 用語のビグラムを形成する場合は、ひらがなスクリプトを無視します。 |
katakana |
string |
CJK 用語のビグラムを形成する場合は、Katakana スクリプトを無視します。 |
ClassicSimilarity
TF-IDF の Lucene TFIDFSimilarity 実装を使用する従来の類似性アルゴリズム。 この TF-IDF のバリエーションでは、静的ドキュメントの長さの正規化と、検索されたクエリの一部にのみ一致するドキュメントに対する影響を受け取る調整要因が導入されています。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長を超えるトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
CommonGramTokenFilter
インデックス作成中に頻繁に発生する用語のビグラムを構築します。 単一の用語もインデックスが作成され、バイグラムが重なっています。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
commonWords |
string[] |
一般的な単語のセット。 |
|
ignoreCase |
boolean |
False |
一般的な単語の一致で大文字と小文字が区別されないかどうかを示す値。 既定値は false です。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
queryMode |
boolean |
False |
トークン フィルターがクエリ モードであるかどうかを示す値。 クエリ モードの場合、トークン フィルターはビッグラムを生成し、共通の単語と 1 つの用語の後に共通の単語を削除します。 既定値は false です。 |
CorsOptions
インデックスのクロスオリジン リソース共有 (CORS) を制御するオプションを定義します。
名前 | 型 | 説明 |
---|---|---|
allowedOrigins |
string[] |
JavaScript コードにインデックスへのアクセスが許可される配信元のリスト。 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式のホストの一覧を含めたり、すべての配信元を許可する単一の '*' を含めることができます (推奨されません)。 |
maxAgeInSeconds |
integer |
ブラウザーが CORS プリフライト応答をキャッシュする期間。 既定値は 5 分です。 |
CustomAnalyzer
テキストをインデックス可能/検索可能なトークンに変換するプロセスを制御できます。 これは、1 つの定義済みのトークナイザーと 1 つ以上のフィルターで構成されるユーザー定義の構成です。 トークナイザーは、テキストをトークンに分割し、トークナイザーによって出力されるトークンを変更するためのフィルターを担当します。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
アナライザーの種類を指定する URI フラグメント。 |
charFilters |
トークナイザーによって処理される前に入力テキストを準備するために使用される文字フィルターの一覧。 たとえば、特定の文字や記号を置き換えることができます。 フィルターは、一覧表示されている順序で実行されます。 |
|
name |
string |
アナライザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
tokenFilters |
トークナイザーによって生成されたトークンをフィルターで除外または変更するために使用されるトークン フィルターの一覧。 たとえば、すべての文字を小文字に変換する小文字フィルターを指定できます。 フィルターは、一覧表示されている順序で実行されます。 |
|
tokenizer |
文を単語に分割するなど、連続するテキストをトークンのシーケンスに分割するために使用するトークナイザーの名前。 |
DictionaryDecompounderTokenFilter
多くのゲルマン語で見つかった複合語を分解します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxSubwordSize |
integer |
15 |
サブワードの最大サイズ。 これより短いサブワードのみが出力されます。 既定値は 15 です。 最大値は 300 です。 |
minSubwordSize |
integer |
2 |
最小サブワード サイズ。 これより長いサブワードのみが出力されます。 既定値は 2 です。 最大値は 300 です。 |
minWordSize |
integer |
5 |
単語の最小サイズ。 これより長い単語のみが処理されます。 既定値は 5 です。 最大値は 300 です。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
onlyLongestMatch |
boolean |
False |
最も長い一致するサブワードのみを出力に追加するかどうかを示す値。 既定値は false です。 |
wordList |
string[] |
一致する単語の一覧。 |
DistanceScoringFunction
地理的な場所からの距離に基づいてスコアをブーストする関数を定義します。
名前 | 型 | 説明 |
---|---|---|
boost |
number |
生のスコアの乗数。 1.0 に等しくない正の数値を指定する必要があります。 |
distance |
距離スコアリング関数のパラメーター値。 |
|
fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
interpolation |
ドキュメント スコア間でブーストがどのように補間されるかを示す値。既定値は "Linear" です。 |
|
type |
string:
distance |
使用する関数の種類を示します。 有効な値には、大きさ、鮮度、距離、タグが含まれます。 関数の型は小文字にする必要があります。 |
DistanceScoringParameters
距離スコアリング関数にパラメーター値を提供します。
名前 | 型 | 説明 |
---|---|---|
boostingDistance |
number |
ブースティング範囲が終了する基準位置からの距離 (キロメートル単位)。 |
referencePointParameter |
string |
参照場所を指定するために検索クエリで渡されるパラメーターの名前。 |
EdgeNGramTokenFilter
入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n グラムの最大長。 既定値は 2 です。 |
minGram |
integer |
1 |
n グラムの最小長。 既定値は 1 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
side | front |
n-gram を生成する入力の側を指定します。 既定値は "front" です。 |
EdgeNGramTokenFilterSide
n-gram を生成する入力の側を指定します。
名前 | 型 | 説明 |
---|---|---|
back |
string |
n-gram を入力の背面から生成することを指定します。 |
front |
string |
n-gram を入力の先頭から生成することを指定します。 |
EdgeNGramTokenFilterV2
入力トークンの前面または背面から始まる、指定されたサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n グラムの最大長。 既定値は 2 です。 最大値は 300 です。 |
minGram |
integer |
1 |
n グラムの最小長。 既定値は 1 です。 最大値は 300 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
side | front |
n-gram を生成する入力の側を指定します。 既定値は "front" です。 |
EdgeNGramTokenizer
エッジからの入力を特定のサイズの n グラムにトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n グラムの最大長。 既定値は 2 です。 最大値は 300 です。 |
minGram |
integer |
1 |
n グラムの最小長。 既定値は 1 です。 最大値は 300 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
tokenChars |
トークンに保持する文字クラス。 |
ElisionTokenFilter
エリジオンを削除します。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
articles |
string[] |
削除するアーティクルのセット。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
ErrorAdditionalInfo
リソース管理エラーの追加情報。
名前 | 型 | 説明 |
---|---|---|
info |
object |
追加情報。 |
type |
string |
追加情報の種類。 |
ErrorDetail
エラーの詳細。
名前 | 型 | 説明 |
---|---|---|
additionalInfo |
エラーの追加情報。 |
|
code |
string |
エラー コード。 |
details |
エラーの詳細。 |
|
message |
string |
エラー メッセージ。 |
target |
string |
エラーターゲット。 |
ErrorResponse
エラー応答
名前 | 型 | 説明 |
---|---|---|
error |
エラー オブジェクト。 |
ExhaustiveKnnParameters
完全な KNN アルゴリズムに固有のパラメーターが含まれています。
名前 | 型 | 説明 |
---|---|---|
metric |
ベクター比較に使用する類似性メトリック。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
クエリ中に使用される完全な KNN アルゴリズムに固有の構成オプションが含まれており、ベクター インデックス全体でブルート フォース検索を実行します。
名前 | 型 | 説明 |
---|---|---|
exhaustiveKnnParameters |
完全な KNN アルゴリズムに固有のパラメーターが含まれています。 |
|
kind |
string:
exhaustive |
ベクター検索で使用するように構成されているアルゴリズムの種類の名前。 |
name |
string |
この特定の構成に関連付ける名前。 |
FreshnessScoringFunction
日時フィールドの値に基づいてスコアをブーストする関数を定義します。
名前 | 型 | 説明 |
---|---|---|
boost |
number |
生のスコアの乗数。 1.0 に等しくない正の数値を指定する必要があります。 |
fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
freshness |
鮮度スコアリング関数のパラメーター値。 |
|
interpolation |
ドキュメント スコア間でブーストがどのように補間されるかを示す値。既定値は "Linear" です。 |
|
type |
string:
freshness |
使用する関数の種類を示します。 有効な値には、大きさ、鮮度、距離、タグが含まれます。 関数の型は小文字にする必要があります。 |
FreshnessScoringParameters
新度スコアリング関数にパラメーター値を提供します。
名前 | 型 | 説明 |
---|---|---|
boostingDuration |
string |
特定のドキュメントのブーストが停止する有効期限。 |
HnswParameters
HNSW アルゴリズムに固有のパラメーターを格納します。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
efConstruction |
integer |
400 |
インデックス時に使用される、最も近い近傍を含む動的リストのサイズ。 このパラメーターを大きくすると、インデックス作成時間の増加を犠牲にしてインデックスの品質が向上する可能性があります。 特定の時点で、このパラメーターを大きくすると、戻り値が減少します。 |
efSearch |
integer |
500 |
検索時に使用される、最も近い近傍を含む動的リストのサイズ。 このパラメーターを大きくすると、検索速度が低下して検索結果が向上する可能性があります。 特定の時点で、このパラメーターを大きくすると、戻り値が減少します。 |
m |
integer |
4 |
構築中に新しい要素ごとに作成された双方向リンクの数。 このパラメーター値を大きくすると、メモリ消費の増加とインデックス作成時間の長さを犠牲にして、組み込み次元が高いデータセットの再現率が向上し、取得時間が短縮される可能性があります。 |
metric |
ベクター比較に使用する類似性メトリック。 |
HnswVectorSearchAlgorithmConfiguration
インデックス作成とクエリ中に使用される HNSW 近似最近隣アルゴリズムに固有の構成オプションが含まれています。 HNSW アルゴリズムは、検索速度と精度の間で調整可能なトレードオフを提供します。
名前 | 型 | 説明 |
---|---|---|
hnswParameters |
HNSW アルゴリズムに固有のパラメーターを格納します。 |
|
kind |
string:
hnsw |
ベクター検索で使用するように構成されているアルゴリズムの種類の名前。 |
name |
string |
この特定の構成に関連付ける名前。 |
InputFieldMappingEntry
スキルの入力フィールド マッピング。
名前 | 型 | 説明 |
---|---|---|
inputs |
複合型の作成時に使用される再帰入力。 |
|
name |
string |
入力の名前。 |
source |
string |
入力のソース。 |
sourceContext |
string |
再帰入力の選択に使用されるソース コンテキスト。 |
KeepTokenFilter
指定した単語の一覧に含まれるテキストを持つトークンのみを保持するトークン フィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
keepWords |
string[] |
保持する単語の一覧。 |
|
keepWordsCase |
boolean |
False |
すべての単語を最初に小文字にするかどうかを示す値。 既定値は false です。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
KeywordMarkerTokenFilter
用語をキーワードとしてマークします。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
ignoreCase |
boolean |
False |
大文字と小文字を無視するかどうかを示す値。 true の場合、すべての単語が最初に小文字に変換されます。 既定値は false です。 |
keywords |
string[] |
キーワードとしてマークする単語の一覧。 |
|
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
KeywordTokenizer
入力全体を 1 つのトークンとして出力します。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
bufferSize |
integer |
256 |
読み取りバッファー サイズ (バイト単位)。 既定値は 256 です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
KeywordTokenizerV2
入力全体を 1 つのトークンとして出力します。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
256 |
トークンの最大長。 既定値は 256 です。 最大長を超えるトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
LengthTokenFilter
長すぎる単語または短すぎる単語を削除します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
max |
integer |
300 |
最大文字数。 既定値と最大値は 300 です。 |
min |
integer |
0 |
文字の最小長。 既定値は 0 です。 最大値は 300 です。 max の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
LexicalAnalyzerName
検索エンジンでサポートされているすべてのテキスト アナライザーの名前を定義します。
名前 | 型 | 説明 |
---|---|---|
ar.lucene |
string |
アラビア語用 Lucene アナライザー。 |
ar.microsoft |
string |
アラビア語用 Microsoft アナライザー。 |
bg.lucene |
string |
ブルガリア語用ルセンアナライザー。 |
bg.microsoft |
string |
ブルガリア語用 Microsoft アナライザー。 |
bn.microsoft |
string |
Bangla 用 Microsoft アナライザー。 |
ca.lucene |
string |
カタロニア語用 Lucene アナライザー。 |
ca.microsoft |
string |
カタロニア語用 Microsoft アナライザー。 |
cs.lucene |
string |
チェコ語用 Lucene アナライザー。 |
cs.microsoft |
string |
チェコ語用 Microsoft アナライザー。 |
da.lucene |
string |
デンマーク語用 Lucene アナライザー。 |
da.microsoft |
string |
デンマーク語用 Microsoft アナライザー。 |
de.lucene |
string |
ドイツ語用 Lucene アナライザー。 |
de.microsoft |
string |
ドイツ語用 Microsoft アナライザー。 |
el.lucene |
string |
ギリシャ語用 Lucene アナライザー。 |
el.microsoft |
string |
ギリシャ語用 Microsoft アナライザー。 |
en.lucene |
string |
英語用 Lucene アナライザー。 |
en.microsoft |
string |
英語用 Microsoft アナライザー。 |
es.lucene |
string |
スペイン語用 Lucene アナライザー。 |
es.microsoft |
string |
スペイン語用 Microsoft アナライザー。 |
et.microsoft |
string |
エストニア語用 Microsoft アナライザー。 |
eu.lucene |
string |
バスク用 Lucene アナライザー。 |
fa.lucene |
string |
ペルシア語用 Lucene アナライザー。 |
fi.lucene |
string |
フィンランド語用 Lucene アナライザー。 |
fi.microsoft |
string |
フィンランド語用 Microsoft アナライザー。 |
fr.lucene |
string |
フランス語用 Lucene アナライザー。 |
fr.microsoft |
string |
フランス語用 Microsoft アナライザー。 |
ga.lucene |
string |
アイルランド語用 Lucene アナライザー。 |
gl.lucene |
string |
ガリシア語用 Lucene アナライザー。 |
gu.microsoft |
string |
Gujarati 用 Microsoft アナライザー。 |
he.microsoft |
string |
ヘブライ語用 Microsoft アナライザー。 |
hi.lucene |
string |
ヒンディー語用 Lucene アナライザー。 |
hi.microsoft |
string |
ヒンディー語用 Microsoft アナライザー。 |
hr.microsoft |
string |
クロアチア語用 Microsoft アナライザー。 |
hu.lucene |
string |
ハンガリー語用 Lucene アナライザー。 |
hu.microsoft |
string |
ハンガリー語用 Microsoft アナライザー。 |
hy.lucene |
string |
アルメニア語用 Lucene アナライザー。 |
id.lucene |
string |
インドネシア語用 Lucene アナライザー。 |
id.microsoft |
string |
インドネシア語 (Bahasa) 用 Microsoft アナライザー。 |
is.microsoft |
string |
アイスランドの Microsoft アナライザー。 |
it.lucene |
string |
イタリア語用 Lucene アナライザー。 |
it.microsoft |
string |
イタリア語用 Microsoft アナライザー。 |
ja.lucene |
string |
日本語用 Lucene アナライザー。 |
ja.microsoft |
string |
日本語用 Microsoft アナライザー。 |
keyword |
string |
フィールドの内容全体を 1 つのトークンとして扱います。 これは、郵便番号、ID、一部の製品名などのデータに役立ちます。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html を参照してください |
kn.microsoft |
string |
カンナダ用 Microsoft アナライザー。 |
ko.lucene |
string |
韓国語用 Lucene アナライザー。 |
ko.microsoft |
string |
韓国語用 Microsoft アナライザー。 |
lt.microsoft |
string |
リトアニア語用 Microsoft アナライザー。 |
lv.lucene |
string |
ラトビア語用 Lucene アナライザー。 |
lv.microsoft |
string |
ラトビア語用 Microsoft アナライザー。 |
ml.microsoft |
string |
マラヤーラム用 Microsoft アナライザー。 |
mr.microsoft |
string |
Marathi 用 Microsoft アナライザー。 |
ms.microsoft |
string |
マレー語 (ラテン) 用 Microsoft アナライザー。 |
nb.microsoft |
string |
ノルウェー語 (Bokmål) 用 Microsoft アナライザー。 |
nl.lucene |
string |
オランダ語用 Lucene アナライザー。 |
nl.microsoft |
string |
オランダ語用 Microsoft アナライザー。 |
no.lucene |
string |
ノルウェー語用 Lucene アナライザー。 |
pa.microsoft |
string |
Punjabi 用 Microsoft アナライザー。 |
pattern |
string |
正規表現パターンを使用して、テキストを用語に柔軟に分割します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html を参照してください |
pl.lucene |
string |
ポーランド語用 Lucene アナライザー。 |
pl.microsoft |
string |
ポーランド語用 Microsoft アナライザー。 |
pt-BR.lucene |
string |
ポルトガル語 (ブラジル) 用 Lucene アナライザー。 |
pt-BR.microsoft |
string |
ポルトガル語 (ブラジル) 用 Microsoft アナライザー。 |
pt-PT.lucene |
string |
ポルトガル語 (ポルトガル) 用 Lucene アナライザー。 |
pt-PT.microsoft |
string |
ポルトガル語 (ポルトガル) 用 Microsoft アナライザー。 |
ro.lucene |
string |
ルーマニア語用 Lucene アナライザー。 |
ro.microsoft |
string |
ルーマニア語用 Microsoft アナライザー。 |
ru.lucene |
string |
ロシア語用 Lucene アナライザー。 |
ru.microsoft |
string |
ロシア語用 Microsoft アナライザー。 |
simple |
string |
テキストを文字以外で分割し、小文字に変換します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html を参照してください |
sk.microsoft |
string |
スロバキア語用 Microsoft アナライザー。 |
sl.microsoft |
string |
スロベニア語用 Microsoft アナライザー。 |
sr-cyrillic.microsoft |
string |
セルビア語 (キリル) 用 Microsoft アナライザー。 |
sr-latin.microsoft |
string |
セルビア語 (ラテン) 用 Microsoft アナライザー。 |
standard.lucene |
string |
標準 Lucene アナライザー。 |
standardasciifolding.lucene |
string |
標準 ASCII フォールディング Lucene アナライザー。 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers を参照してください |
stop |
string |
テキストを文字以外で除算します。小文字とストップワードのトークン フィルターを適用します。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html を参照してください |
sv.lucene |
string |
スウェーデン語用 Lucene アナライザー。 |
sv.microsoft |
string |
スウェーデン語用 Microsoft アナライザー。 |
ta.microsoft |
string |
Tamil 用 Microsoft アナライザー。 |
te.microsoft |
string |
Telugu 用 Microsoft アナライザー。 |
th.lucene |
string |
タイ語用 Lucene アナライザー。 |
th.microsoft |
string |
タイ語用 Microsoft アナライザー。 |
tr.lucene |
string |
トルコ語用 Lucene アナライザー。 |
tr.microsoft |
string |
トルコ語用 Microsoft アナライザー。 |
uk.microsoft |
string |
ウクライナ語用 Microsoft アナライザー。 |
ur.microsoft |
string |
Urdu 用 Microsoft アナライザー。 |
vi.microsoft |
string |
ベトナム語用 Microsoft アナライザー。 |
whitespace |
string |
空白トークナイザーを使用するアナライザー。 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html を参照してください |
zh-Hans.lucene |
string |
中国語 (簡体字) 用 Lucene アナライザー。 |
zh-Hans.microsoft |
string |
Microsoft Analyzer for Chinese (簡体字)。 |
zh-Hant.lucene |
string |
中国語 (繁体字) 用 Lucene アナライザー。 |
zh-Hant.microsoft |
string |
Microsoft analyzer for Chinese (繁体字)。 |
LexicalTokenizerName
検索エンジンでサポートされているすべてのトークナイザーの名前を定義します。
LimitTokenFilter
インデックス作成中のトークンの数を制限します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
consumeAllTokens |
boolean |
False |
maxTokenCount に達した場合でも、入力からのすべてのトークンを使用する必要があるかどうかを示す値。 既定値は false です。 |
maxTokenCount |
integer |
1 |
生成するトークンの最大数。 既定値は 1 です。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
LuceneStandardAnalyzer
Standard Apache Lucene アナライザー。標準トークナイザー、小文字フィルター、および停止フィルターで構成されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
アナライザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長を超えるトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
アナライザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
stopwords |
string[] |
ストップワードの一覧。 |
LuceneStandardTokenizer
Unicode テキストのセグメント化ルールに従ってテキストを区切ります。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長を超えるトークンは分割されます。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
LuceneStandardTokenizerV2
Unicode テキストのセグメント化ルールに従ってテキストを区切ります。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長を超えるトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
MagnitudeScoringFunction
数値フィールドの大きさに基づいてスコアをブーストする関数を定義します。
名前 | 型 | 説明 |
---|---|---|
boost |
number |
生のスコアの乗数。 1.0 に等しくない正の数値を指定する必要があります。 |
fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
interpolation |
ドキュメント スコア間でブーストがどのように補間されるかを示す値。既定値は "Linear" です。 |
|
magnitude |
マグニチュード スコアリング関数のパラメーター値。 |
|
type |
string:
magnitude |
使用する関数の種類を示します。 有効な値には、大きさ、鮮度、距離、タグが含まれます。 関数の型は小文字にする必要があります。 |
MagnitudeScoringParameters
パラメーター値をマグニチュード スコアリング関数に提供します。
名前 | 型 | 説明 |
---|---|---|
boostingRangeEnd |
number |
ブーストが終了するフィールド値。 |
boostingRangeStart |
number |
ブーストが開始されるフィールド値。 |
constantBoostBeyondRange |
boolean |
範囲の終了値を超えるフィールド値に定数ブーストを適用するかどうかを示す値。既定値は false です。 |
MappingCharFilter
マッピング オプションで定義されたマッピングを適用する文字フィルター。 一致は最長一致です (特定のポイントで最も長いパターン マッチングが優先されます)。 置換は空の文字列にすることができます。 この文字フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
char フィルターの種類を指定する URI フラグメント。 |
mappings |
string[] |
"a=>b" という形式のマッピングの一覧 (文字 "a" のすべての出現箇所は文字 "b" に置き換えられます)。 |
name |
string |
文字フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
MicrosoftLanguageStemmingTokenizer
言語固有のルールを使用してテキストを分割し、単語を基本フォームに減らします。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
isSearchTokenizer |
boolean |
False |
トークナイザーの使用方法を示す値。 検索トークナイザーとして使用する場合は true に設定し、インデックス作成トークナイザーとして使用する場合は false に設定します。 既定値は false です。 |
language |
使用する言語。 既定値は英語です。 |
||
maxTokenLength |
integer |
255 |
トークンの最大長。 最大長を超えるトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 300 文字を超えるトークンは、最初に長さ 300 のトークンに分割され、その後、各トークンは最大トークン長セットに基づいて分割されます。 既定値は 255 です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
MicrosoftLanguageTokenizer
言語固有のルールを使用してテキストを分割します。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
isSearchTokenizer |
boolean |
False |
トークナイザーの使用方法を示す値。 検索トークナイザーとして使用する場合は true に設定し、インデックス作成トークナイザーとして使用する場合は false に設定します。 既定値は false です。 |
language |
使用する言語。 既定値は英語です。 |
||
maxTokenLength |
integer |
255 |
トークンの最大長。 最大長を超えるトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 300 文字を超えるトークンは、最初に長さ 300 のトークンに分割され、その後、各トークンは最大トークン長セットに基づいて分割されます。 既定値は 255 です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
MicrosoftStemmingTokenizerLanguage
Microsoft 言語ステミング トークナイザーでサポートされている言語を一覧表示します。
名前 | 型 | 説明 |
---|---|---|
arabic |
string |
アラビア語の Microsoft ステミング トークナイザーを選択します。 |
bangla |
string |
Bangla の Microsoft ステミング トークナイザーを選択します。 |
bulgarian |
string |
ブルガリア語の Microsoft ステミング トークナイザーを選択します。 |
catalan |
string |
カタロニア語の Microsoft ステミング トークナイザーを選択します。 |
croatian |
string |
クロアチア語の Microsoft ステミング トークナイザーを選択します。 |
czech |
string |
チェコ語の Microsoft ステミング トークナイザーを選択します。 |
danish |
string |
デンマーク語用の Microsoft ステミング トークナイザーを選択します。 |
dutch |
string |
オランダ語の Microsoft ステミング トークナイザーを選択します。 |
english |
string |
英語の Microsoft ステミング トークナイザーを選択します。 |
estonian |
string |
エストニア語の Microsoft ステミング トークナイザーを選択します。 |
finnish |
string |
フィンランド語の Microsoft ステミング トークナイザーを選択します。 |
french |
string |
フランス語の Microsoft ステミング トークナイザーを選択します。 |
german |
string |
ドイツ語の Microsoft ステミング トークナイザーを選択します。 |
greek |
string |
ギリシャ語の Microsoft ステミング トークナイザーを選択します。 |
gujarati |
string |
Gujarati の Microsoft ステミング トークナイザーを選択します。 |
hebrew |
string |
ヘブライ語の Microsoft ステミング トークナイザーを選択します。 |
hindi |
string |
ヒンディー語の Microsoft ステミング トークナイザーを選択します。 |
hungarian |
string |
ハンガリー語の Microsoft ステミング トークナイザーを選択します。 |
icelandic |
string |
アイスランド語の Microsoft ステミング トークナイザーを選択します。 |
indonesian |
string |
インドネシア語の Microsoft ステミング トークナイザーを選択します。 |
italian |
string |
イタリア語の Microsoft ステミング トークナイザーを選択します。 |
kannada |
string |
カンナダの Microsoft ステミング トークナイザーを選択します。 |
latvian |
string |
ラトビア語の Microsoft ステミング トークナイザーを選択します。 |
lithuanian |
string |
リトアニア語の Microsoft ステミング トークナイザーを選択します。 |
malay |
string |
マレー語の Microsoft ステミング トークナイザーを選択します。 |
malayalam |
string |
マラヤーラムの Microsoft ステミング トークナイザーを選択します。 |
marathi |
string |
Marathi の Microsoft ステミング トークナイザーを選択します。 |
norwegianBokmaal |
string |
ノルウェー語 (Bokmål) の Microsoft ステミング トークナイザーを選択します。 |
polish |
string |
ポーランド語の Microsoft ステミング トークナイザーを選択します。 |
portuguese |
string |
ポルトガル語の Microsoft ステミング トークナイザーを選択します。 |
portugueseBrazilian |
string |
ポルトガル語 (ブラジル) の Microsoft ステミング トークナイザーを選択します。 |
punjabi |
string |
Punjabi の Microsoft ステミング トークナイザーを選択します。 |
romanian |
string |
ルーマニア語の Microsoft ステミング トークナイザーを選択します。 |
russian |
string |
ロシア語の Microsoft ステミング トークナイザーを選択します。 |
serbianCyrillic |
string |
セルビア語 (キリル) の Microsoft ステミング トークナイザーを選択します。 |
serbianLatin |
string |
セルビア語 (ラテン) の Microsoft ステミング トークナイザーを選択します。 |
slovak |
string |
スロバキア語の Microsoft ステミング トークナイザーを選択します。 |
slovenian |
string |
スロベニア語の Microsoft ステミング トークナイザーを選択します。 |
spanish |
string |
スペイン語の Microsoft ステミング トークナイザーを選択します。 |
swedish |
string |
スウェーデン語の Microsoft ステミング トークナイザーを選択します。 |
tamil |
string |
Tamil の Microsoft ステミング トークナイザーを選択します。 |
telugu |
string |
Telugu の Microsoft ステミング トークナイザーを選択します。 |
turkish |
string |
トルコ語の Microsoft ステミング トークナイザーを選択します。 |
ukrainian |
string |
ウクライナ語の Microsoft ステミング トークナイザーを選択します。 |
urdu |
string |
Urdu の Microsoft ステミング トークナイザーを選択します。 |
MicrosoftTokenizerLanguage
Microsoft 言語トークナイザーでサポートされている言語を一覧表示します。
名前 | 型 | 説明 |
---|---|---|
bangla |
string |
Bangla の Microsoft トークナイザーを選択します。 |
bulgarian |
string |
ブルガリア語用の Microsoft トークナイザーを選択します。 |
catalan |
string |
カタロニア語の Microsoft トークナイザーを選択します。 |
chineseSimplified |
string |
中国語 (簡体字) 用の Microsoft トークナイザーを選択します。 |
chineseTraditional |
string |
中国語 (繁体字) の Microsoft トークナイザーを選択します。 |
croatian |
string |
クロアチア語の Microsoft トークナイザーを選択します。 |
czech |
string |
チェコ語の Microsoft トークナイザーを選択します。 |
danish |
string |
デンマーク語の Microsoft トークナイザーを選択します。 |
dutch |
string |
オランダ語用の Microsoft トークナイザーを選択します。 |
english |
string |
英語の Microsoft トークナイザーを選択します。 |
french |
string |
フランス語の Microsoft トークナイザーを選択します。 |
german |
string |
ドイツ語用の Microsoft トークナイザーを選択します。 |
greek |
string |
ギリシャ語の Microsoft トークナイザーを選択します。 |
gujarati |
string |
Gujarati の Microsoft トークナイザーを選択します。 |
hindi |
string |
ヒンディー語の Microsoft トークナイザーを選択します。 |
icelandic |
string |
アイスランドの Microsoft トークナイザーを選択します。 |
indonesian |
string |
インドネシア語の Microsoft トークナイザーを選択します。 |
italian |
string |
イタリア語の Microsoft トークナイザーを選択します。 |
japanese |
string |
日本語の Microsoft トークナイザーを選択します。 |
kannada |
string |
カンナダの Microsoft トークナイザーを選択します。 |
korean |
string |
韓国語用の Microsoft トークナイザーを選択します。 |
malay |
string |
マレー語の Microsoft トークナイザーを選択します。 |
malayalam |
string |
マラヤーラムの Microsoft トークナイザーを選択します。 |
marathi |
string |
Marathi の Microsoft トークナイザーを選択します。 |
norwegianBokmaal |
string |
ノルウェー語 (Bokmål) の Microsoft トークナイザーを選択します。 |
polish |
string |
ポーランド語の Microsoft トークナイザーを選択します。 |
portuguese |
string |
ポルトガル語用の Microsoft トークナイザーを選択します。 |
portugueseBrazilian |
string |
ポルトガル語 (ブラジル) の Microsoft トークナイザーを選択します。 |
punjabi |
string |
Punjabi の Microsoft トークナイザーを選択します。 |
romanian |
string |
ルーマニア語の Microsoft トークナイザーを選択します。 |
russian |
string |
ロシア語の Microsoft トークナイザーを選択します。 |
serbianCyrillic |
string |
セルビア語 (キリル) の Microsoft トークナイザーを選択します。 |
serbianLatin |
string |
セルビア語 (ラテン) の Microsoft トークナイザーを選択します。 |
slovenian |
string |
スロベニア語の Microsoft トークナイザーを選択します。 |
spanish |
string |
スペイン語の Microsoft トークナイザーを選択します。 |
swedish |
string |
スウェーデン語の Microsoft トークナイザーを選択します。 |
tamil |
string |
Tamil の Microsoft トークナイザーを選択します。 |
telugu |
string |
テルグ語の Microsoft トークナイザーを選択します。 |
thai |
string |
タイ語の Microsoft トークナイザーを選択します。 |
ukrainian |
string |
ウクライナ語の Microsoft トークナイザーを選択します。 |
urdu |
string |
Urdu の Microsoft トークナイザーを選択します。 |
vietnamese |
string |
ベトナム語の Microsoft トークナイザーを選択します。 |
NGramTokenFilter
指定されたサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n グラムの最大長。 既定値は 2 です。 |
minGram |
integer |
1 |
n グラムの最小長。 既定値は 1 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
NGramTokenFilterV2
指定されたサイズの n グラムを生成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n グラムの最大長。 既定値は 2 です。 最大値は 300 です。 |
minGram |
integer |
1 |
n グラムの最小長。 既定値は 1 です。 最大値は 300 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
NGramTokenizer
指定したサイズの n グラムに入力をトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxGram |
integer |
2 |
n グラムの最大長。 既定値は 2 です。 最大値は 300 です。 |
minGram |
integer |
1 |
n グラムの最小長。 既定値は 1 です。 最大値は 300 です。 maxGram の値より小さくする必要があります。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
tokenChars |
トークンに保持する文字クラス。 |
OutputFieldMappingEntry
スキルの出力フィールド マッピング。
名前 | 型 | 説明 |
---|---|---|
name |
string |
スキルによって定義された出力の名前。 |
targetName |
string |
出力のターゲット名。 これは省略可能であり、既定では名前になります。 |
PathHierarchyTokenizerV2
パスに似た階層のトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
delimiter |
string |
/ |
使用する区切り文字。 既定値は "/" です。 |
maxTokenLength |
integer |
300 |
トークンの最大長。 既定値と最大値は 300 です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
replacement |
string |
/ |
設定されている場合、区切り文字を置き換える値。 既定値は "/" です。 |
reverse |
boolean |
False |
トークンを逆の順序で生成するかどうかを示す値。 既定値は false です。 |
skip |
integer |
0 |
スキップする初期トークンの数。 既定値は 0 です。 |
PatternAnalyzer
正規表現パターンを使用して、テキストを用語に柔軟に分割します。 このアナライザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
アナライザーの種類を指定する URI フラグメント。 |
|
flags |
正規表現フラグ。 |
||
lowercase |
boolean |
True |
用語を小文字にするかどうかを示す値。 既定値は true です。 |
name |
string |
アナライザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
pattern |
string |
\W+ |
トークン区切り記号と一致する正規表現パターン。 既定値は、1 つ以上の単語以外の文字と一致する式です。 |
stopwords |
string[] |
ストップワードの一覧。 |
PatternCaptureTokenFilter
Java 正規表現を使用して、1 つ以上のパターンでキャプチャ グループごとに 1 つずつ、複数のトークンを出力します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
patterns |
string[] |
各トークンと照合するパターンの一覧。 |
|
preserveOriginal |
boolean |
True |
いずれかのパターンが一致した場合でも、元のトークンを返すかどうかを示す値。 既定値は true です。 |
PatternReplaceCharFilter
入力文字列内の文字を置き換える文字フィルター。 正規表現を使用して保持する文字シーケンスを識別し、置換する文字を識別する置換パターンを使用します。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換後の "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 この文字フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
char フィルターの種類を指定する URI フラグメント。 |
name |
string |
文字フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
pattern |
string |
正規表現パターン。 |
replacement |
string |
置換テキスト。 |
PatternReplaceTokenFilter
入力文字列内の文字を置き換える文字フィルター。 正規表現を使用して保持する文字シーケンスを識別し、置換する文字を識別する置換パターンを使用します。 たとえば、入力テキスト "aa bb aa bb"、パターン "(aa)\s+(bb)"、置換後の "$1#$2" を指定すると、結果は "aa#bb aa#bb" になります。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
pattern |
string |
正規表現パターン。 |
replacement |
string |
置換テキスト。 |
PatternTokenizer
正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
flags |
正規表現フラグ。 |
||
group |
integer |
-1 |
トークンに抽出する正規表現パターン内の一致するグループの 0 から始まる序数。 一致するグループに関係なく、パターン全体を使用して入力をトークンに分割する場合は、-1 を使用します。 既定値は -1 です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
pattern |
string |
\W+ |
トークン区切り記号と一致する正規表現パターン。 既定値は、1 つ以上の単語以外の文字と一致する式です。 |
PhoneticEncoder
PhoneticTokenFilter で使用するふりがなエンコーダーの種類を識別します。
名前 | 型 | 説明 |
---|---|---|
beiderMorse |
string |
トークンを Beider-Morse 値にエンコードします。 |
caverphone1 |
string |
Caverphone 1.0 値にトークンをエンコードします。 |
caverphone2 |
string |
Caverphone 2.0 値にトークンをエンコードします。 |
cologne |
string |
トークンをケルンのふりがな値にエンコードします。 |
doubleMetaphone |
string |
トークンを二重メタフォン値にエンコードします。 |
haasePhonetik |
string |
Kölner Phonetik アルゴリズムの Haase 絞り込みを使用してトークンをエンコードします。 |
koelnerPhonetik |
string |
Kölner Phonetik アルゴリズムを使用してトークンをエンコードします。 |
metaphone |
string |
トークンをメタフォン値にエンコードします。 |
nysiis |
string |
トークンを NYSIIS 値にエンコードします。 |
refinedSoundex |
string |
トークンを Refined Soundex 値にエンコードします。 |
soundex |
string |
トークンを Soundex 値にエンコードします。 |
PhoneticTokenFilter
ふりがなのトークンを作成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
encoder | metaphone |
使用するふりがなエンコーダー。 既定値は "metaphone" です。 |
|
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
replace |
boolean |
True |
エンコードされたトークンが元のトークンを置き換える必要があるかどうかを示す値。 false の場合、エンコードされたトークンはシノニムとして追加されます。 既定値は true です。 |
PrioritizedFields
セマンティック ランク付け、キャプション、強調表示、回答に使用するタイトル、コンテンツ、キーワードのフィールドについて説明します。
名前 | 型 | 説明 |
---|---|---|
prioritizedContentFields |
セマンティック ランク付け、キャプション、強調表示、回答に使用するコンテンツ フィールドを定義します。 最適な結果を得る場合は、選択したフィールドに自然言語形式のテキストが含まれている必要があります。 配列内のフィールドの順序は、その優先順位を表します。 コンテンツが長い場合、優先順位の低いフィールドは切り捨てられる可能性があります。 |
|
prioritizedKeywordsFields |
セマンティック ランク付け、キャプション、強調表示、回答に使用するキーワード フィールドを定義します。 最適な結果を得る場合は、選択したフィールドにキーワードの一覧が含まれている必要があります。 配列内のフィールドの順序は、その優先順位を表します。 コンテンツが長い場合、優先順位の低いフィールドは切り捨てられる可能性があります。 |
|
titleField |
セマンティック ランク付け、キャプション、強調表示、回答に使用するタイトル フィールドを定義します。 インデックスにタイトル フィールドがない場合は、空白のままにします。 |
RegexFlags
パターン アナライザーとパターン トークナイザーでの正規表現の使用方法を制御するために組み合わせることができるフラグを定義します。
名前 | 型 | 説明 |
---|---|---|
CANON_EQ |
string |
正規の等価性を有効にします。 |
CASE_INSENSITIVE |
string |
大文字と小文字を区別しない照合を有効にします。 |
COMMENTS |
string |
パターン内の空白とコメントを許可します。 |
DOTALL |
string |
dotall モードを有効にします。 |
LITERAL |
string |
パターンのリテラル解析を有効にします。 |
MULTILINE |
string |
複数行モードを有効にします。 |
UNICODE_CASE |
string |
Unicode 対応の大文字と小文字の折りたたみを有効にします。 |
UNIX_LINES |
string |
Unix 行モードを有効にします。 |
ScalarQuantizationParameters
スカラー量子化に固有のパラメーターを格納します。
名前 | 型 | 説明 |
---|---|---|
quantizedDataType |
圧縮ベクター値の量子化データ型。 |
ScalarQuantizationVectorSearchCompressionConfiguration
インデックス作成およびクエリ中に使用されるスカラー量子化圧縮方法に固有の構成オプションが含まれています。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
defaultOversampling |
number |
既定のオーバーサンプリング係数。 オーバーサンプリングでは、最初の検索で (この乗数で指定された) より多くのドキュメントが内部的に要求されます。 これにより、全精度ベクトルから再計算された類似性スコアを使用して再ランク付けされる結果のセットが増加します。 最小値は 1 で、オーバーサンプリング (1x) がないことを意味します。 このパラメーターは、rerankWithOriginalVectors が true の場合にのみ設定できます。 値を大きくすると、待機時間を犠牲にして再現率が向上します。 |
|
kind |
string:
scalar |
ベクター検索で使用するように構成されている圧縮方法の種類の名前。 |
|
name |
string |
この特定の構成に関連付ける名前。 |
|
rerankWithOriginalVectors |
boolean |
True |
true に設定すると、圧縮ベクターを使用して計算された順序付けされた結果セットが取得されると、完全精度の類似性スコアを再計算することで、再ランク付けされます。 これにより、待機時間を犠牲にして再現率が向上します。 |
scalarQuantizationParameters |
スカラー量子化に固有のパラメーターを格納します。 |
ScoringFunctionAggregation
スコアリング プロファイル内のすべてのスコアリング関数の結果を結合するために使用する集計関数を定義します。
名前 | 型 | 説明 |
---|---|---|
average |
string |
すべてのスコアリング関数の結果の平均によってスコアを高めます。 |
firstMatching |
string |
スコアリング プロファイルの最初の適用可能なスコアリング関数を使用してスコアをブーストします。 |
maximum |
string |
すべてのスコアリング関数の結果の最大値でスコアを高めます。 |
minimum |
string |
すべてのスコアリング関数の結果の最小値でスコアを高めます。 |
sum |
string |
すべてのスコアリング関数の結果の合計によってスコアを高めます。 |
ScoringFunctionInterpolation
さまざまなドキュメントでスコアブーストを補間するために使用する関数を定義します。
名前 | 型 | 説明 |
---|---|---|
constant |
string |
スコアを一定の係数でブーストします。 |
linear |
string |
スコアを線形に減少させてブーストします。 これは、スコアリング関数の既定の補間です。 |
logarithmic |
string |
対数的に減少する量でスコアをブーストします。 ブーストは、スコアが高い場合は急速に減少し、スコアが減少するにつれて遅くなります。 タグ スコアリング関数では、この補間オプションは使用できません。 |
quadratic |
string |
2 次的に減少する量でスコアをブーストします。 ブーストは、スコアが上がると徐々に減少し、スコアが減少するにつれて速くなります。 タグ スコアリング関数では、この補間オプションは使用できません。 |
ScoringProfile
検索クエリのスコア付けに影響を与える検索インデックスのパラメーターを定義します。
名前 | 型 | 説明 |
---|---|---|
functionAggregation |
個々のスコアリング関数の結果を結合する方法を示す値。 既定値は "Sum" です。 スコアリング関数がない場合は無視されます。 |
|
functions | ScoringFunction[]: |
ドキュメントのスコア付けに影響を与える関数のコレクション。 |
name |
string |
スコアリング プロファイルの名前。 |
text |
特定のインデックス フィールドのテキストの一致に基づいてスコアリングを強化するパラメーター。 |
SearchField
インデックス定義内のフィールドを表します。フィールドの名前、データ型、および検索動作を表します。
名前 | 型 | 説明 |
---|---|---|
analyzer |
フィールドに使用するアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用でき、searchAnalyzer または indexAnalyzer と一緒に設定することはできません。 アナライザーを選択すると、フィールドに対して変更することはできません。 複合フィールドの場合は null にする必要があります。 |
|
dimensions |
integer |
ベクター フィールドの次元。 |
facetable |
boolean |
ファセット クエリでフィールドを参照できるようにするかどうかを示す値。 通常、カテゴリ別のヒット数を含む検索結果のプレゼンテーションで使用されます (たとえば、デジタル カメラを検索し、ブランド別、画素数別、価格別などのヒット数を確認します)。 複合フィールドの場合、このプロパティは null にする必要があります。 Edm.GeographyPoint 型または Collection(Edm.GeographyPoint) 型のフィールドをファセット可能にすることはできません。 その他すべての単純フィールドの既定値は true です。 |
fields |
Edm.ComplexType または Collection(Edm.ComplexType) 型のフィールドである場合のサブフィールドのリスト。 単純フィールドの場合は null または空にする必要があります。 |
|
filterable |
boolean |
$filterクエリでフィールドを参照できるようにするかどうかを示す値。 filterable は、文字列の処理方法で検索可能とは異なります。 フィルター可能な Edm.String 型または Collection(Edm.String) 型のフィールドは単語区切りを行わないので、比較は完全一致のみを対象とします。 たとえば、このようなフィールド f を "晴れた日" に設定した場合、$filter=f eq 'sunny' は一致しませんが、$filter=f eq 'sunny day' になります。 複合フィールドの場合、このプロパティは null にする必要があります。 単純フィールドの場合は既定値は true、複合フィールドの場合は null です。 |
indexAnalyzer |
フィールドのインデックス作成時に使用されるアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用できます。 searchAnalyzer と共に設定する必要があり、アナライザー オプションと一緒に設定することはできません。 このプロパティを言語アナライザーの名前に設定することはできません。言語アナライザーが必要な場合は、代わりにアナライザー プロパティを使用してください。 アナライザーを選択すると、フィールドに対して変更することはできません。 複合フィールドの場合は null にする必要があります。 |
|
key |
boolean |
フィールドがインデックス内のドキュメントを一意に識別するかどうかを示す値。 キー フィールドとして各インデックスの最上位フィールドを 1 つだけ選択し、Edm.String 型にする必要があります。 キー フィールドを使用すると、ドキュメントを直接検索したり、特定のドキュメントを更新または削除したりできます。 単純フィールドの場合は既定値は false、複合フィールドの場合は null です。 |
name |
string |
フィールドの名前。インデックスまたは親フィールドのフィールド コレクション内で一意である必要があります。 |
retrievable |
boolean |
検索結果でフィールドを返すことができるかどうかを示す値。 フィルター、並べ替え、またはスコア付けメカニズムとしてフィールド (余白など) を使用するが、エンド ユーザーにフィールドを表示したくない場合は、このオプションを無効にすることができます。 このプロパティは、キー フィールドの場合は true である必要があり、複合フィールドの場合は null である必要があります。 このプロパティは、既存のフィールドで変更できます。 このプロパティを有効にしても、インデックス ストレージの要件は増加しません。 単純フィールドの場合は既定値は true、ベクター フィールドの場合は false、複合フィールドの場合は null です。 |
searchAnalyzer |
フィールドの検索時に使用されるアナライザーの名前。 このオプションは、検索可能なフィールドでのみ使用できます。 indexAnalyzer と共に設定する必要があり、アナライザー オプションと一緒に設定することはできません。 このプロパティを言語アナライザーの名前に設定することはできません。言語アナライザーが必要な場合は、代わりにアナライザー プロパティを使用してください。 このアナライザーは、既存のフィールドで更新できます。 複合フィールドの場合は null にする必要があります。 |
|
searchable |
boolean |
フィールドがフルテキスト検索可能かどうかを示す値。 つまり、インデックス作成中に単語区切りなどの分析が行われます。 検索可能なフィールドを "晴れた日" のような値に設定すると、内部的には個々のトークン "sunny" と "day" に分割されます。 これにより、これらの用語のフルテキスト検索が可能になります。 Edm.String 型または Collection(Edm.String) 型のフィールドは、既定で検索できます。 このプロパティは、他の文字列以外のデータ型の単純なフィールドの場合は false にする必要があり、複合フィールドの場合は null にする必要があります。 注: 検索可能フィールドは、フルテキスト検索のフィールド値のトークン化された追加バージョンに対応するために、インデックスに余分なスペースを消費します。 インデックスの領域を節約する必要があり、検索にフィールドを含める必要がない場合は、検索可能を false に設定します。 |
sortable |
boolean |
$orderby式でフィールドを参照できるようにするかどうかを示す値。 既定では、検索エンジンは結果をスコアで並べ替えますが、多くのエクスペリエンスでは、ユーザーはドキュメント内のフィールドで並べ替える必要があります。 単純フィールドは、単一値である場合にのみ並べ替えることができます (親ドキュメントのスコープ内に 1 つの値があります)。 単純なコレクション フィールドは複数値であるため、並べ替えできません。 複合コレクションの単純なサブフィールドも複数値であるため、並べ替えできません。 これは、それが直接の親フィールドであるか、先祖フィールドであるかに関係なく、複雑なコレクションです。 複合フィールドは並べ替え可能にできず、このようなフィールドの並べ替え可能なプロパティは null である必要があります。 並べ替え可能の既定値は、単一値の単純フィールドの場合は true、複数値の単純フィールドの場合は false、複合フィールドの場合は null です。 |
stored |
boolean |
フィールドが検索結果に返されるディスク上に個別に保持されるかどうかを示す変更できない値。 検索応答でフィールドの内容を返してストレージのオーバーヘッドを節約する予定がない場合は、このオプションを無効にすることができます。 これは、インデックスの作成時にのみ設定でき、ベクター フィールドに対してのみ設定できます。 既存のフィールドに対してこのプロパティを変更したり、新しいフィールドに対して false に設定したりすることはできません。 このプロパティが false に設定されている場合、プロパティ 'retrievable' も false に設定する必要があります。 このプロパティは、キー フィールド、新しいフィールド、および非ベクター フィールドの場合は true または unset である必要があり、複合フィールドの場合は null にする必要があります。 このプロパティを無効にすると、インデックスストレージの要件が減ります。 ベクトル フィールドの既定値は true です。 |
synonymMaps |
string[] |
このフィールドに関連付けるシノニム マップの名前の一覧。 このオプションは、検索可能なフィールドでのみ使用できます。 現在、サポートされているシノニム マップはフィールドごとに 1 つだけです。 フィールドにシノニム マップを割り当てると、そのフィールドを対象とするクエリ用語が、シノニム マップのルールを使用してクエリ時に展開されます。 この属性は、既存のフィールドで変更できます。 複合フィールドの場合は null または空のコレクションである必要があります。 |
type |
フィールドのデータ型。 |
|
vectorEncoding |
フィールドの内容を解釈するエンコード形式。 |
|
vectorSearchProfile |
string |
ベクター フィールドを検索するときに使用するアルゴリズムとベクターライザーを指定するベクター検索プロファイルの名前。 |
SearchFieldDataType
検索インデックス内のフィールドのデータ型を定義します。
名前 | 型 | 説明 |
---|---|---|
Edm.Boolean |
string |
フィールドにブール値 (true または false) が含まれていることを示します。 |
Edm.Byte |
string |
フィールドに 8 ビット符号なし整数が含まれていることを示します。 これは Collection(Edm.Byte) で使用した場合にのみ有効です。 |
Edm.ComplexType |
string |
フィールドに、他の型のサブフィールドを持つ 1 つ以上の複雑なオブジェクトが含まれていることを示します。 |
Edm.DateTimeOffset |
string |
フィールドに、タイムゾーン情報を含む日付/時刻値が含まれていることを示します。 |
Edm.Double |
string |
フィールドに IEEE 倍精度浮動小数点数が含まれていることを示します。 |
Edm.GeographyPoint |
string |
フィールドに経度と緯度の観点から geo 位置が含まれていることを示します。 |
Edm.Half |
string |
フィールドに半精度浮動小数点数が含まれていることを示します。 これは Collection(Edm.Half) と共に使用した場合にのみ有効です。 |
Edm.Int16 |
string |
フィールドに 16 ビット符号付き整数が含まれていることを示します。 これは Collection(Edm.Int16) で使用した場合にのみ有効です。 |
Edm.Int32 |
string |
フィールドに 32 ビット符号付き整数が含まれていることを示します。 |
Edm.Int64 |
string |
フィールドに 64 ビット符号付き整数が含まれていることを示します。 |
Edm.SByte |
string |
フィールドに 8 ビット符号付き整数が含まれていることを示します。 これは Collection(Edm.SByte) で使用した場合にのみ有効です。 |
Edm.Single |
string |
フィールドに単精度浮動小数点数が含まれていることを示します。 これは Collection(Edm.Single) で使用した場合にのみ有効です。 |
Edm.String |
string |
フィールドに文字列が含まれていることを示します。 |
SearchIndex
インデックスのフィールドと検索動作を記述する検索インデックス定義を表します。
名前 | 型 | 説明 |
---|---|---|
@odata.etag |
string |
インデックスの ETag。 |
analyzers | LexicalAnalyzer[]: |
インデックスのアナライザー。 |
charFilters | CharFilter[]: |
インデックスの文字フィルター。 |
corsOptions |
インデックスのクロスオリジン リソース共有 (CORS) を制御するオプション。 |
|
defaultScoringProfile |
string |
クエリで何も指定されていない場合に使用するスコアリング プロファイルの名前。 このプロパティが設定されておらず、クエリでスコアリング プロファイルが指定されていない場合は、既定のスコアリング (tf-idf) が使用されます。 |
encryptionKey |
Azure Key Vault で作成する暗号化キーの説明。 このキーは、データの暗号化を解除できる Microsoft 以外のユーザーがいないという完全な保証が必要な場合に、データの保存時の追加レベルを提供するために使用されます。 データを暗号化すると、常に暗号化されたままになります。 検索サービスは、このプロパティを null に設定する試行を無視します。 暗号化キーをローテーションする場合は、必要に応じてこのプロパティを変更できます。データは影響を受けません。 カスタマー マネージド キーを使用した暗号化は、無料の検索サービスでは使用できません。また、2019 年 1 月 1 日以降に作成された有料サービスでのみ使用できます。 |
|
fields |
インデックスのフィールド。 |
|
name |
string |
インデックスの名前。 |
scoringProfiles |
インデックスのスコアリング プロファイル。 |
|
semantic |
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。 |
|
similarity | Similarity: |
検索クエリに一致するドキュメントのスコア付けとランク付けに使用する類似性アルゴリズムの種類。 類似性アルゴリズムは、インデックス作成時にのみ定義でき、既存のインデックスでは変更できません。 null の場合は、ClassicSimilarity アルゴリズムが使用されます。 |
suggesters |
インデックスのサジェスター。 |
|
tokenFilters |
TokenFilter[]:
|
インデックスのトークン フィルター。 |
tokenizers | LexicalTokenizer[]: |
インデックスのトークナイザー。 |
vectorSearch |
ベクター検索に関連する構成オプションが含まれています。 |
SearchIndexerDataNoneIdentity
データソースの ID プロパティをクリアします。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ID の種類を指定する URI フラグメント。 |
SearchIndexerDataUserAssignedIdentity
使用するデータソースの ID を指定します。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ID の種類を指定する URI フラグメント。 |
userAssignedIdentity |
string |
通常、ユーザー割り当てマネージド ID の完全修飾 Azure リソース ID は、検索サービスに割り当てられている必要がある "/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId" の形式です。 |
SearchResourceEncryptionKey
Azure Key Vault のカスタマー マネージド暗号化キー。 作成および管理するキーは、インデックスやシノニム マップなどの保存データの暗号化または暗号化解除に使用できます。
名前 | 型 | 説明 |
---|---|---|
accessCredentials |
Azure Key Vault へのアクセスに使用されるオプションの Azure Active Directory 資格情報。 代わりにマネージド ID を使用する場合は必要ありません。 |
|
keyVaultKeyName |
string |
保存データの暗号化に使用する Azure Key Vault キーの名前。 |
keyVaultKeyVersion |
string |
保存データの暗号化に使用する Azure Key Vault キーのバージョン。 |
keyVaultUri |
string |
保存データの暗号化に使用するキーを含む Azure Key Vault の URI (DNS 名とも呼ばれます)。 URI の例は、 |
SemanticConfiguration
セマンティック機能のコンテキストで使用する特定の構成を定義します。
名前 | 型 | 説明 |
---|---|---|
name |
string |
セマンティック構成の名前。 |
prioritizedFields |
セマンティック ランク付け、キャプション、強調表示、回答に使用するタイトル、コンテンツ、およびキーワード フィールドについて説明します。 3 つのサブ プロパティ (titleField、prioritizedKeywordsFields、prioritizedContentFields) のうち少なくとも 1 つを設定する必要があります。 |
SemanticField
セマンティック構成の一部として使用されるフィールド。
名前 | 型 | 説明 |
---|---|---|
fieldName |
string |
SemanticSettings
セマンティック機能に影響を与える検索インデックスのパラメーターを定義します。
名前 | 型 | 説明 |
---|---|---|
configurations |
インデックスのセマンティック構成。 |
|
defaultConfiguration |
string |
インデックスに既定のセマンティック構成の名前を設定できます。これにより、毎回クエリ パラメーターとして渡す省略可能になります。 |
ShingleTokenFilter
トークンの組み合わせを 1 つのトークンとして作成します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
filterToken |
string |
_ |
トークンがない位置ごとに挿入する文字列。 既定値はアンダースコア ("_") です。 |
maxShingleSize |
integer |
2 |
最大の真ん中の大きさ。 既定値と最小値は 2 です。 |
minShingleSize |
integer |
2 |
最小の真ん中の大きさ。 既定値と最小値は 2 です。 maxShingleSize の値より小さくする必要があります。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
outputUnigrams |
boolean |
True |
出力ストリームに入力トークン (ユニグラム) と輝きが含まれるかどうかを示す値。 既定値は true です。 |
outputUnigramsIfNoShingles |
boolean |
False |
これらの時刻に対して、使用できる輝きがない場合にユニグラムを出力するかどうかを示す値。 outputUnigrams が false に設定されている場合、このプロパティが優先されます。 既定値は false です。 |
tokenSeparator |
string |
隣接するトークンを結合して輝きを形成するときに使用する文字列。 既定値は 1 つのスペース (" ") です。 |
SnowballTokenFilter
Snowball で生成されたステマーを使用して単語の語幹を読み上めるフィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
language |
使用する言語。 |
|
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
SnowballTokenFilterLanguage
Snowball トークン フィルターに使用する言語。
名前 | 型 | 説明 |
---|---|---|
armenian |
string |
アルメニア語の Lucene Snowball ステミング トークナイザーを選択します。 |
basque |
string |
バスク語の Lucene Snowball ステミング トークナイザーを選択します。 |
catalan |
string |
カタロニア語の Lucene Snowball ステミング トークナイザーを選択します。 |
danish |
string |
デンマーク語の Lucene Snowball ステミング トークナイザーを選択します。 |
dutch |
string |
オランダ語の Lucene Snowball ステミング トークナイザーを選択します。 |
english |
string |
英語の Lucene Snowball ステミング トークナイザーを選択します。 |
finnish |
string |
フィンランド語の Lucene Snowball ステミング トークナイザーを選択します。 |
french |
string |
フランス語の Lucene Snowball ステミング トークナイザーを選択します。 |
german |
string |
ドイツ語の Lucene Snowball ステミング トークナイザーを選択します。 |
german2 |
string |
ドイツ語のバリアント アルゴリズムを使用する Lucene Snowball ステミング トークナイザーを選択します。 |
hungarian |
string |
ハンガリー語の Lucene Snowball ステミング トークナイザーを選択します。 |
italian |
string |
イタリア語の Lucene Snowball ステミング トークナイザーを選択します。 |
kp |
string |
Kraaij-Pohlmann ステミング アルゴリズムを使用するオランダ語の Lucene Snowball ステミング トークナイザーを選択します。 |
lovins |
string |
Lovins ステミング アルゴリズムを使用する英語の Lucene Snowball ステミング トークナイザーを選択します。 |
norwegian |
string |
ノルウェー語の Lucene Snowball ステミング トークナイザーを選択します。 |
porter |
string |
Porter ステミング アルゴリズムを使用する英語の Lucene Snowball ステミング トークナイザーを選択します。 |
portuguese |
string |
ポルトガル語の Lucene Snowball ステミング トークナイザーを選択します。 |
romanian |
string |
ルーマニア語の Lucene Snowball ステミング トークナイザーを選択します。 |
russian |
string |
ロシア語の Lucene Snowball ステミング トークナイザーを選択します。 |
spanish |
string |
スペイン語の Lucene Snowball ステミング トークナイザーを選択します。 |
swedish |
string |
スウェーデン語の Lucene Snowball ステミング トークナイザーを選択します。 |
turkish |
string |
トルコ語の Lucene Snowball ステミング トークナイザーを選択します。 |
StemmerOverrideTokenFilter
ユーザー辞書ベースのステミングを使用して、他のステミング フィルターをオーバーライドする機能を提供します。 辞書で語幹を付けた用語はキーワードとしてマークされるため、チェーンの下にあるステマーで語幹を付けないようにします。 ステミング フィルターの前に配置する必要があります。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
rules |
string[] |
"word => stem" という形式のステミング 規則の一覧 (例: "ran => run")。 |
StemmerTokenFilter
言語固有のステミング フィルター。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
language |
使用する言語。 |
|
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
StemmerTokenFilterLanguage
ステマー トークン フィルターに使用する言語。
名前 | 型 | 説明 |
---|---|---|
arabic |
string |
アラビア語の Lucene ステミング トークナイザーを選択します。 |
armenian |
string |
アルメニア語の Lucene ステミング トークナイザーを選択します。 |
basque |
string |
バスク語の Lucene ステミング トークナイザーを選択します。 |
brazilian |
string |
ポルトガル語 (ブラジル) の Lucene ステミング トークナイザーを選択します。 |
bulgarian |
string |
ブルガリア語の Lucene ステミング トークナイザーを選択します。 |
catalan |
string |
カタロニア語の Lucene ステミング トークナイザーを選択します。 |
czech |
string |
チェコ語の Lucene ステミング トークナイザーを選択します。 |
danish |
string |
デンマーク語の Lucene ステミング トークナイザーを選択します。 |
dutch |
string |
オランダ語の Lucene ステミング トークナイザーを選択します。 |
dutchKp |
string |
Kraaij-Pohlmann ステミング アルゴリズムを使用するオランダ語の Lucene ステミング トークナイザーを選択します。 |
english |
string |
英語の Lucene ステミング トークナイザーを選択します。 |
finnish |
string |
フィンランド語の Lucene ステミング トークナイザーを選択します。 |
french |
string |
フランス語の Lucene ステミング トークナイザーを選択します。 |
galician |
string |
ガリシア語の Lucene ステミング トークナイザーを選択します。 |
german |
string |
ドイツ語の Lucene ステミング トークナイザーを選択します。 |
german2 |
string |
ドイツ語のバリアント アルゴリズムを使用する Lucene ステミング トークナイザーを選択します。 |
greek |
string |
ギリシャ語の Lucene ステミング トークナイザーを選択します。 |
hindi |
string |
ヒンディー語の Lucene ステミング トークナイザーを選択します。 |
hungarian |
string |
ハンガリー語の Lucene ステミング トークナイザーを選択します。 |
indonesian |
string |
インドネシア語の Lucene ステミング トークナイザーを選択します。 |
irish |
string |
アイルランド語の Lucene ステミング トークナイザーを選択します。 |
italian |
string |
イタリア語の Lucene ステミング トークナイザーを選択します。 |
latvian |
string |
ラトビア語の Lucene ステミング トークナイザーを選択します。 |
lightEnglish |
string |
ライト ステミングを行う英語の Lucene ステミング トークナイザーを選択します。 |
lightFinnish |
string |
ライト ステミングを行うフィンランド語の Lucene ステミング トークナイザーを選択します。 |
lightFrench |
string |
光ステミングを行うフランス語の Lucene ステミング トークナイザーを選択します。 |
lightGerman |
string |
光ステミングを行うドイツ語の Lucene ステミング トークナイザーを選択します。 |
lightHungarian |
string |
光ステミングを行うハンガリー語の Lucene ステミング トークナイザーを選択します。 |
lightItalian |
string |
軽いステミングを行うイタリア語の Lucene ステミング トークナイザーを選択します。 |
lightNorwegian |
string |
光ステミングを行うノルウェー語 (Bokmål) の Lucene ステミング トークナイザーを選択します。 |
lightNynorsk |
string |
光ステミングを行うノルウェー語 (Nynorsk) の Lucene ステミング トークナイザーを選択します。 |
lightPortuguese |
string |
光ステミングを行うポルトガル語の Lucene ステミング トークナイザーを選択します。 |
lightRussian |
string |
光ステミングを行うロシア語の Lucene ステミング トークナイザーを選択します。 |
lightSpanish |
string |
光ステミングを行うスペイン語の Lucene ステミング トークナイザーを選択します。 |
lightSwedish |
string |
光ステミングを行うスウェーデン語の Lucene ステミング トークナイザーを選択します。 |
lovins |
string |
Lovins ステミング アルゴリズムを使用する英語の Lucene ステミング トークナイザーを選択します。 |
minimalEnglish |
string |
最小限のステミングを行う英語の Lucene ステミング トークナイザーを選択します。 |
minimalFrench |
string |
最小ステミングを行うフランス語の Lucene ステミング トークナイザーを選択します。 |
minimalGalician |
string |
最小ステミングを行うガリシア語の Lucene ステミング トークナイザーを選択します。 |
minimalGerman |
string |
最小ステミングを行うドイツ語の Lucene ステミング トークナイザーを選択します。 |
minimalNorwegian |
string |
最小ステミングを行うノルウェー語 (Bokmål) の Lucene ステミング トークナイザーを選択します。 |
minimalNynorsk |
string |
最小ステミングを行うノルウェー語 (Nynorsk) の Lucene ステミング トークナイザーを選択します。 |
minimalPortuguese |
string |
最小ステミングを行うポルトガル語の Lucene ステミング トークナイザーを選択します。 |
norwegian |
string |
ノルウェー語 (Bokmål) の Lucene ステミング トークナイザーを選択します。 |
porter2 |
string |
Porter2 ステミング アルゴリズムを使用する英語の Lucene ステミング トークナイザーを選択します。 |
portuguese |
string |
ポルトガル語の Lucene ステミング トークナイザーを選択します。 |
portugueseRslp |
string |
RSLP ステミング アルゴリズムを使用するポルトガル語の Lucene ステミング トークナイザーを選択します。 |
possessiveEnglish |
string |
単語から末尾の所有を削除する英語の Lucene ステミング トークナイザーを選択します。 |
romanian |
string |
ルーマニア語の Lucene ステミング トークナイザーを選択します。 |
russian |
string |
ロシア語の Lucene ステミング トークナイザーを選択します。 |
sorani |
string |
Sorani の Lucene ステミング トークナイザーを選択します。 |
spanish |
string |
スペイン語の Lucene ステミング トークナイザーを選択します。 |
swedish |
string |
スウェーデン語の Lucene ステミング トークナイザーを選択します。 |
turkish |
string |
トルコ語の Lucene ステミング トークナイザーを選択します。 |
StopAnalyzer
テキストを文字以外で除算します。小文字とストップワードのトークン フィルターを適用します。 このアナライザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 説明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
アナライザーの種類を指定する URI フラグメント。 |
name |
string |
アナライザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
stopwords |
string[] |
ストップワードの一覧。 |
StopwordsList
言語固有のストップワードの定義済みリストを識別します。
名前 | 型 | 説明 |
---|---|---|
arabic |
string |
アラビア語のストップワード リストを選択します。 |
armenian |
string |
アルメニア語のストップワード リストを選択します。 |
basque |
string |
バスク語のストップワード リストを選択します。 |
brazilian |
string |
ポルトガル語 (ブラジル) のストップワード リストを選択します。 |
bulgarian |
string |
ブルガリア語のストップワード リストを選択します。 |
catalan |
string |
カタロニア語のストップワード リストを選択します。 |
czech |
string |
チェコ語のストップワード リストを選択します。 |
danish |
string |
デンマーク語のストップワード リストを選択します。 |
dutch |
string |
オランダ語のストップワード リストを選択します。 |
english |
string |
英語のストップワード リストを選択します。 |
finnish |
string |
フィンランド語のストップワード リストを選択します。 |
french |
string |
フランス語のストップワード リストを選択します。 |
galician |
string |
ガリシア語のストップワード リストを選択します。 |
german |
string |
ドイツ語のストップワード リストを選択します。 |
greek |
string |
ギリシャ語のストップワード リストを選択します。 |
hindi |
string |
ヒンディー語のストップワード リストを選択します。 |
hungarian |
string |
ハンガリー語のストップワード リストを選択します。 |
indonesian |
string |
インドネシア語のストップワード リストを選択します。 |
irish |
string |
アイルランド語のストップワード リストを選択します。 |
italian |
string |
イタリア語のストップワード リストを選択します。 |
latvian |
string |
ラトビア語のストップワード リストを選択します。 |
norwegian |
string |
ノルウェー語のストップワード リストを選択します。 |
persian |
string |
ペルシア語のストップワード リストを選択します。 |
portuguese |
string |
ポルトガル語のストップワード リストを選択します。 |
romanian |
string |
ルーマニア語のストップワード リストを選択します。 |
russian |
string |
ロシア語のストップワード リストを選択します。 |
sorani |
string |
Sorani のストップワード リストを選択します。 |
spanish |
string |
スペイン語のストップワード リストを選択します。 |
swedish |
string |
スウェーデン語のストップワード リストを選択します。 |
thai |
string |
タイ語のストップワード リストを選択します。 |
turkish |
string |
トルコ語のストップワード リストを選択します。 |
StopwordsTokenFilter
トークン ストリームからストップ ワードを削除します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
ignoreCase |
boolean |
False |
大文字と小文字を無視するかどうかを示す値。 true の場合、すべての単語が最初に小文字に変換されます。 既定値は false です。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
removeTrailing |
boolean |
True |
最後の検索語句がストップ ワードの場合に無視するかどうかを示す値。 既定値は true です。 |
stopwords |
string[] |
ストップワードの一覧。 このプロパティとストップワード リスト プロパティの両方を設定することはできません。 |
|
stopwordsList | english |
使用するストップワードの定義済みリスト。 このプロパティとストップワード プロパティの両方を設定することはできません。 既定値は英語です。 |
Suggester
Suggest API をインデックス内のフィールドのグループに適用する方法を定義します。
名前 | 型 | 説明 |
---|---|---|
name |
string |
suggester の名前。 |
searchMode |
suggester の機能を示す値。 |
|
sourceFields |
string[] |
suggester が適用されるフィールド名の一覧。 各フィールドは検索可能である必要があります。 |
SuggesterSearchMode
suggester の機能を示す値。
名前 | 型 | 説明 |
---|---|---|
analyzingInfixMatching |
string |
フィールド内の連続する用語とプレフィックス全体に一致します。 たとえば、フィールド 'The fastest brown fox' では、クエリ 'fast' と 'fastest brow' の両方が一致します。 |
SynonymTokenFilter
トークン ストリーム内の単一または複数単語のシノニムと一致します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
expand |
boolean |
True |
シノニムの一覧内のすべての単語 (=> 表記が使用されていない場合) が相互にマップされるかどうかを示す値。 true の場合、シノニムの一覧内のすべての単語 (=> 表記が使用されていない場合) は相互にマップされます。 次のリスト:信じられないほどの、信じられないほどの、素晴らしい、素晴らしいに相当します:信じられないほどの、信じられないほどの、素晴らしい、素晴らしい=> 信じられないほどの、素晴らしい、素晴らしい。 誤った場合、次のリスト: 信じられないほどの、信じられないほどの、素晴らしい、素晴らしいと同等になります:信じられないほどの、信じられないほどの、素晴らしい、素晴らしい=> 信じられないほどの。 既定値は true です。 |
ignoreCase |
boolean |
False |
一致する入力を大文字と小文字を区別するかどうかを示す値。 既定値は false です。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
synonyms |
string[] |
次のいずれかの形式のシノニムの一覧: 1。 信じられないほどの、信じられないほどの、素晴らしい=> 素晴らしい - => 記号の左側のすべての用語は、右側のすべての用語に置き換えられます。2. 信じられないほどの、信じられないほどの、素晴らしい、素晴らしい - 同等の単語のコンマ区切りのリスト。 展開オプションを設定して、このリストの解釈方法を変更します。 |
TagScoringFunction
特定のタグのリストに一致する文字列値を持つドキュメントのスコアを向上させる関数を定義します。
名前 | 型 | 説明 |
---|---|---|
boost |
number |
生のスコアの乗数。 1.0 に等しくない正の数値を指定する必要があります。 |
fieldName |
string |
スコアリング関数への入力として使用されるフィールドの名前。 |
interpolation |
ドキュメント スコア間でブーストがどのように補間されるかを示す値。既定値は "Linear" です。 |
|
tag |
タグ スコアリング関数のパラメーター値。 |
|
type |
string:
tag |
使用する関数の種類を示します。 有効な値には、大きさ、鮮度、距離、タグが含まれます。 関数の型は小文字にする必要があります。 |
TagScoringParameters
タグ スコアリング関数にパラメーター値を提供します。
名前 | 型 | 説明 |
---|---|---|
tagsParameter |
string |
ターゲット フィールドと比較するタグの一覧を指定するために検索クエリで渡されるパラメーターの名前。 |
TextWeights
検索クエリでスコアリングを向上させる必要がある一致するインデックス フィールドの重みを定義します。
名前 | 型 | 説明 |
---|---|---|
weights |
object |
ドキュメントスコアリングを向上させるフィールドごとの重みのディクショナリ。 キーはフィールド名であり、値は各フィールドの重み付けです。 |
TokenCharacterKind
トークン フィルターが動作できる文字のクラスを表します。
名前 | 型 | 説明 |
---|---|---|
digit |
string |
トークン内の数字を保持します。 |
letter |
string |
トークン内の文字を保持します。 |
punctuation |
string |
句読点をトークンで保持します。 |
symbol |
string |
トークン内のシンボルを保持します。 |
whitespace |
string |
トークン内の空白を保持します。 |
TokenFilterName
検索エンジンでサポートされているすべてのトークン フィルターの名前を定義します。
TruncateTokenFilter
用語を特定の長さに切り捨てます。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
length |
integer |
300 |
用語が切り捨てられる長さ。 既定値と最大値は 300 です。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
UaxUrlEmailTokenizer
URL と電子メールを 1 つのトークンとしてトークン化します。 このトークナイザーは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークナイザーの種類を指定する URI フラグメント。 |
|
maxTokenLength |
integer |
255 |
トークンの最大長。 既定値は 255 です。 最大長を超えるトークンは分割されます。 使用できるトークンの最大長は 300 文字です。 |
name |
string |
トークナイザーの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
UniqueTokenFilter
前のトークンと同じテキストを持つトークンを除外します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
onlyOnSamePosition |
boolean |
False |
同じ位置でのみ重複を削除するかどうかを示す値。 既定値は false です。 |
VectorEncodingFormat
ベクター フィールドの内容を解釈するためのエンコード形式。
名前 | 型 | 説明 |
---|---|---|
packedBit |
string |
より広いデータ型にパックされたビットを表すエンコード形式。 |
VectorSearch
ベクター検索に関連する構成オプションが含まれています。
名前 | 型 | 説明 |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
インデックス作成またはクエリ中に使用されるアルゴリズムに固有の構成オプションが含まれています。 |
compressions | VectorSearchCompressionConfiguration[]: |
インデックス作成またはクエリ中に使用される圧縮方法に固有の構成オプションが含まれています。 |
profiles |
ベクター検索で使用する構成の組み合わせを定義します。 |
|
vectorizers | VectorSearchVectorizer[]: |
テキスト ベクター クエリをベクター化する方法に関する構成オプションが含まれています。 |
VectorSearchAlgorithmKind
インデックス作成とクエリに使用されるアルゴリズム。
名前 | 型 | 説明 |
---|---|---|
exhaustiveKnn |
string |
ブルート フォース検索を実行する完全な KNN アルゴリズム。 |
hnsw |
string |
HNSW (階層的なナビゲート可能な小さな世界)、概ね最も近い近隣アルゴリズムの一種。 |
VectorSearchAlgorithmMetric
ベクター比較に使用する類似性メトリック。 埋め込みモデルのトレーニングと同じ類似性メトリックを選択することをお勧めします。
名前 | 型 | 説明 |
---|---|---|
cosine |
string |
ベクトル間の角度を測定して類似性を定量化し、大きさを無視します。 角度が小さいと、類似性が近くなります。 |
dotProduct |
string |
要素ごとの積の合計を計算して、アライメントと大きさの類似性を測定します。 大きく、より肯定的なほど、類似性が近くなります。 |
euclidean |
string |
多次元空間内のベクトル間の直線距離を計算します。 距離が小さいと、類似性が近くなります。 |
hamming |
string |
ビット パックされたバイナリ データ型にのみ適用されます。 バイナリ ベクトル内の異なる位置をカウントすることによって、非類似性を判断します。 違いが少ないほど、類似性が近くなります。 |
VectorSearchCompressionKind
インデックス作成とクエリに使用される圧縮方法。
名前 | 型 | 説明 |
---|---|---|
binaryQuantization |
string |
バイナリ量子化。圧縮方法の一種です。 二項量子化では、元のベクトル値は、バイナリ値を使用してベクトルの各コンポーネントを分離して表すことによって、より狭いバイナリ型に圧縮され、それによって全体的なデータ サイズが小さくなります。 |
scalarQuantization |
string |
スカラー量子化。圧縮方法の一種です。 スカラー量子化では、元のベクトル値は、量子化された値の小さなセットを使用してベクトルの各コンポーネントを分離して表すことによって、より狭い型に圧縮され、それによって全体的なデータ サイズが小さくなります。 |
VectorSearchCompressionTargetDataType
圧縮ベクター値の量子化データ型。
名前 | 型 | 説明 |
---|---|---|
int8 |
string |
VectorSearchProfile
ベクター検索で使用する構成の組み合わせを定義します。
名前 | 型 | 説明 |
---|---|---|
algorithm |
string |
アルゴリズムと省略可能なパラメーターを指定するベクター検索アルゴリズム構成の名前。 |
compression |
string |
圧縮方法と省略可能なパラメーターを指定する圧縮方法構成の名前。 |
name |
string |
この特定のベクター検索プロファイルに関連付ける名前。 |
vectorizer |
string |
ベクター検索で使用するように構成されているベクター化の名前。 |
VectorSearchVectorizerKind
クエリ時間中に使用されるベクター化メソッド。
名前 | 型 | 説明 |
---|---|---|
azureOpenAI |
string |
クエリ時に Azure OpenAI リソースを使用して埋め込みを生成します。 |
customWebApi |
string |
クエリ時にカスタム Web エンドポイントを使用して埋め込みを生成します。 |
WebApiParameters
ユーザー定義ベクターライザーに接続するためのプロパティを指定します。
名前 | 型 | 説明 |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
送信接続に使用されるユーザー割り当てマネージド ID。 authResourceId が指定されていて、指定されていない場合は、システム割り当てマネージド ID が使用されます。 インデクサーの更新時に、ID が指定されていない場合、値は変更されません。 "none" に設定すると、このプロパティの値はクリアされます。 |
authResourceId |
string |
Azure 関数または変換を提供する他のアプリケーションの外部コードに接続するカスタム エンドポイントに適用されます。 この値は、関数またはアプリが Azure Active Directory に登録されたときに作成されたアプリケーション ID である必要があります。 指定すると、ベクター化は、検索サービスのマネージド ID (システムまたはユーザー割り当て) と関数またはアプリのアクセス トークンを使用して関数またはアプリに接続します。この値は、アクセス トークンのスコープを作成するためのリソース ID として使用されます。 |
httpHeaders |
object |
HTTP 要求を行うために必要なヘッダー。 |
httpMethod |
string |
HTTP 要求のメソッド。 |
timeout |
string |
要求に必要なタイムアウト。 既定値は 30 秒です。 |
uri |
string |
ベクターライザーを提供する Web API の URI。 |
WebApiVectorizer
クエリ文字列のベクター埋め込みを生成するためのユーザー定義ベクターライザーを指定します。 外部ベクターライザーの統合は、スキルセットのカスタム Web API インターフェイスを使用して実現されます。
名前 | 型 | 説明 |
---|---|---|
customWebApiParameters |
ユーザー定義ベクターライザーのプロパティを指定します。 |
|
kind |
string:
custom |
ベクター検索で使用するように構成されているベクター化メソッドの種類の名前。 |
name |
string |
この特定のベクター化メソッドに関連付ける名前。 |
WordDelimiterTokenFilter
単語をサブワードに分割し、サブワード グループに対してオプションの変換を実行します。 このトークン フィルターは、Apache Lucene を使用して実装されます。
名前 | 型 | 規定値 | 説明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
トークン フィルターの種類を指定する URI フラグメント。 |
|
catenateAll |
boolean |
False |
すべてのサブワード部分を分類するかどうかを示す値。 たとえば、これが true に設定されている場合、"Azure-Search-1" は "AzureSearch1" になります。 既定値は false です。 |
catenateNumbers |
boolean |
False |
数値部分の最大実行数を分類するかどうかを示す値。 たとえば、これが true に設定されている場合、"1- 2" は "12" になります。 既定値は false です。 |
catenateWords |
boolean |
False |
単語部分の最大実行数を分類するかどうかを示す値。 たとえば、これが true に設定されている場合、"Azure-Search" は "AzureSearch" になります。 既定値は false です。 |
generateNumberParts |
boolean |
True |
数値サブワードを生成するかどうかを示す値。 既定値は true です。 |
generateWordParts |
boolean |
True |
パート ワードを生成するかどうかを示す値。 設定すると、単語の一部が生成されます。たとえば、"AzureSearch" は "Azure" "Search" になります。 既定値は true です。 |
name |
string |
トークン フィルターの名前。 文字、数字、スペース、ダッシュ、アンダースコアのみを含める必要があり、開始と終了は英数字のみで、128 文字に制限されます。 |
|
preserveOriginal |
boolean |
False |
元の単語を保持してサブワード リストに追加するかどうかを示す値。 既定値は false です。 |
protectedWords |
string[] |
区切られるのを防ぎ、保護するトークンの一覧。 |
|
splitOnCaseChange |
boolean |
True |
caseChange で単語を分割するかどうかを示す値。 たとえば、これが true に設定されている場合、"AzureSearch" は "Azure" "Search" になります。 既定値は true です。 |
splitOnNumerics |
boolean |
True |
数値で分割するかどうかを示す値。 たとえば、これが true に設定されている場合、"Azure1Search" は "Azure" "1" "Search" になります。 既定値は true です。 |
stemEnglishPossessive |
boolean |
True |
各サブワードの末尾の "'s" を削除するかどうかを示す値。 既定値は true です。 |