Indexes - Create Or Update
建立新的搜尋索引,或更新索引 (如果已存在)。
PUT {endpoint}/indexes('{indexName}')?api-version=2025-09-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2025-09-01
URI 參數
| 名稱 | 位於 | 必要 | 類型 | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
搜尋服務的端點 URL。 |
|
index
|
path | True |
string |
要建立或更新的索引定義。 |
|
api-version
|
query | True |
string |
用戶端 API 版本。 |
|
allow
|
query |
boolean |
允許將索引離線至少幾秒鐘,將新的分析器、標記器、權杖篩選器或字元篩選器新增至索引。 這暫時會導致索引和查詢請求失敗。 索引的效能及寫入可用性可能會在索引更新之後數分鐘受損,或對於非常大的索引,可能會更長時間。 |
要求標頭
| 名稱 | 必要 | 類型 | Description |
|---|---|---|---|
| x-ms-client-request-id |
string (uuid) |
隨請求一起傳送的追蹤 ID,以協助偵錯。 |
|
| If-Match |
string |
定義 If-Match 條件。 只有在伺服器上的 ETag 符合此值時,才會執行作業。 |
|
| If-None-Match |
string |
定義 If-None-Match 條件。 只有在伺服器上的 ETag 不符合此值時,才會執行作業。 |
|
| Prefer | True |
string |
針對 HTTP PUT 要求,指示服務在成功時傳回建立/更新的資源。 |
要求本文
| 名稱 | 必要 | 類型 | Description |
|---|---|---|---|
| fields | True |
索引的欄位。 |
|
| name | True |
string |
索引的名稱。 |
| @odata.etag |
string |
索引的 ETag。 |
|
| analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
|
| charFilters | CharFilter[]: |
索引的字元篩選器。 |
|
| corsOptions |
控制索引跨來源資源共用 (CORS) 的選項。 |
||
| defaultScoringProfile |
string |
如果查詢中未指定任何項目,則要使用的評分設定檔名稱。 如果未設定此內容,且未在查詢中指定評分設定檔,則會使用預設評分 (tf-idf)。 |
|
| description |
string |
索引的描述。 |
|
| encryptionKey |
您在 Azure 金鑰保存庫中建立的加密金鑰描述。 當您想要完全保證沒有人 (甚至 Microsoft) 無法解密您的數據時,此金鑰可用來為您的數據提供額外的待用加密層級。 加密資料後,資料將始終保持加密狀態。 搜尋服務會忽略嘗試將此屬性設定為 Null。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的資料不會受到影響。 使用客戶管理的金鑰進行加密不適用於免費搜尋服務,且僅適用於 2019 年 1 月 1 日或之後建立的付費服務。 |
||
| normalizers | LexicalNormalizer[]: |
索引的正規化器。 |
|
| scoringProfiles |
索引的評分設定檔。 |
||
| semantic |
定義影響語意功能的搜尋索引參數。 |
||
| similarity | Similarity: |
對符合搜尋查詢的文件進行評分和排名時要使用的相似性演算法類型。 相似性演算法只能在索引建立時定義,無法在現有索引上修改。 如果為 Null,則會使用 ClassicSimilarity 演算法。 |
|
| suggesters |
索引的建議。 |
||
| tokenFilters |
TokenFilter[]:
|
索引的權杖篩選。 |
|
| tokenizers | LexicalTokenizer[]: |
索引的標記器。 |
|
| vectorSearch |
包含與向量搜尋相關的組態選項。 |
回應
| 名稱 | 類型 | Description |
|---|---|---|
| 200 OK | ||
| 201 Created | ||
| Other Status Codes |
錯誤回應。 |
範例
SearchServiceCreateOrUpdateIndex
範例要求
PUT https://stableexampleservice.search.windows.net/indexes('temp-stable-test')?allowIndexDowntime=&api-version=2025-09-01
{
"name": "temp-stable-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene",
"normalizer": "standard"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore"
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2
}
]
},
"@odata.etag": "0x1234568AE7E58A1"
}
範例回覆
{
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
{
"name": "temp-stable-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"normalizer": "standard",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "tagsNormalizer",
"tokenFilters": [
"asciifolding"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 4,
"rescoreStorageMethod": "preserveOriginals"
}
}
]
}
}
定義
| 名稱 | Description |
|---|---|
|
Ascii |
將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Azure |
針對搜尋服務建立之已註冊應用程式認證,用於對儲存在 Azure 金鑰保存庫中的加密金鑰進行驗證存取。 |
|
Azure |
可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。 |
|
Azure |
將呼叫的 Azure Open AI 模型名稱。 |
|
Azure |
指定連線到 Azure OpenAI 資源的參數。 |
|
Azure |
指定用來向量化查詢字串的 Azure OpenAI 資源。 |
|
Binary |
包含索引和查詢期間所使用的二進位量化壓縮方法特有的組態選項。 |
| BM25Similarity |
基於Okapi BM25相似度演算法的排名函數。 BM25 是一種類似 TF-IDF 的演算法,包括長度歸一化 (由 'b' 參數控制) 以及項頻率飽和度 (由 'k1' 參數控制)。 |
|
Char |
定義搜尋引擎支援的所有字元篩選器的名稱。 |
|
Cjk |
形成從標準標記器產生的 CJK 術語的二元組。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Cjk |
CjkBigramTokenFilter 可以忽略的腳本。 |
|
Classic |
使用 TF-IDF 的 Lucene TFIDFSimilarity 實現的遺留相似性算法。 這種 TF-IDF 變體引入了靜態文檔長度正規化,以及懲罰僅部分匹配搜索查詢的文件的協調因素。 |
|
Classic |
基於語法的分詞器,適用於處理大多數歐洲語言文檔。 此分詞器是使用 Apache Lucene 實作的。 |
|
Common |
在索引時為經常出現的術語建構二元組。 單個術語也仍然被索引,二元組疊加。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Cors |
定義控制索引跨來源資源共用 (CORS) 的選項。 |
|
Custom |
允許您控制將文本轉換為可索引/可搜索標記的過程。 它是使用者定義的設定,由單一預先定義的標記器和一或多個篩選器組成。 分詞器負責將文本分成標記,過濾器用於修改分詞器發出的標記。 |
|
Custom |
可讓您設定可篩選、可排序和可多面向欄位的正規化,這些欄位預設會以嚴格比對的方式運作。 這是使用者定義的配置,由至少一或多個過濾器組成,這些過濾器會修改儲存的記號。 |
|
Dictionary |
分解許多日耳曼語言中的複合詞。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Distance |
定義一個函數,根據與地理位置的距離提高分數。 |
|
Distance |
提供距離評分函數的參數值。 |
|
Edge |
從輸入記號的正面或背面開始產生給定大小的 n 克。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Edge |
指定應從輸入的哪一側產生 n-gram。 |
|
Edge |
從輸入記號的正面或背面開始產生給定大小的 n 克。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Edge |
將來自邊緣的輸入標記化為給定大小的 n-gram。 此分詞器是使用 Apache Lucene 實作的。 |
|
Elision |
刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Error |
資源管理錯誤其他資訊。 |
|
Error |
錯誤詳細數據。 |
|
Error |
錯誤回應 |
|
Exhaustive |
包含詳盡 KNN 演算法特有的參數。 |
|
Exhaustive |
包含查詢期間使用的詳盡 KNN 演算法特定的組態選項,該演算法將在整個向量索引中執行暴力搜尋。 |
|
Freshness |
定義一個函數,根據日期時間欄位的值來提升分數。 |
|
Freshness |
提供鮮度評分函數的參數值。 |
|
Hnsw |
包含 HNSW 演算法特定的參數。 |
|
Hnsw |
包含索引和查詢期間使用的 HNSW 近似最近鄰演算法特有的組態選項。 HNSW 演算法在搜尋速度和準確性之間提供了可調整的權衡。 |
|
Input |
技能的輸入欄位對應。 |
|
Keep |
權杖篩選器,僅保留指定單字清單中包含文字的權杖。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Keyword |
將術語標記為關鍵字。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Keyword |
將整個輸入作為單一記號發出。 此分詞器是使用 Apache Lucene 實作的。 |
|
Keyword |
將整個輸入作為單一記號發出。 此分詞器是使用 Apache Lucene 實作的。 |
|
Length |
刪除太長或太短的單字。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Lexical |
定義搜尋引擎支援的所有文字分析器的名稱。 |
|
Lexical |
定義搜尋引擎支援的所有文字正規化程式的名稱。 |
|
Lexical |
定義搜尋引擎支援的所有標記器的名稱。 |
|
Limit |
限制索引時的權杖數目。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Lucene |
標準 Apache Lucene 分析器;由標準分詞器、小寫過濾器和停止過濾器組成。 |
|
Lucene |
按照 Unicode 文字分割規則中斷文字。 此分詞器是使用 Apache Lucene 實作的。 |
|
Lucene |
按照 Unicode 文字分割規則中斷文字。 此分詞器是使用 Apache Lucene 實作的。 |
|
Magnitude |
定義一個函數,根據數值欄位的大小來提升分數。 |
|
Magnitude |
提供大小評分函數的參數值。 |
|
Mapping |
套用使用 mappings 選項定義的對應的字元過濾器。 匹配是貪婪的(在給定點上最長的模式匹配獲勝)。 允許取代為空字串。 此字元篩選器是使用 Apache Lucene 實作。 |
|
Microsoft |
使用特定語言的規則分割文字,並將單字簡化為基本形式。 |
|
Microsoft |
使用語言特定的規則來分割文字。 |
|
Microsoft |
列出 Microsoft 語言詞幹標記器所支援的語言。 |
|
Microsoft |
列出 Microsoft 語言權杖建立器所支援的語言。 |
|
NGram |
產生給定大小的 n-gram。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
NGram |
產生給定大小的 n-gram。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
NGram |
將輸入標記為給定大小的 n-gram。 此分詞器是使用 Apache Lucene 實作的。 |
|
Output |
技能的輸出欄位對應。 |
|
Path |
路徑式階層的分詞器。 此分詞器是使用 Apache Lucene 實作的。 |
|
Pattern |
透過正則表達式模式靈活地將文字分隔為術語。 此分析器是使用 Apache Lucene 實作。 |
|
Pattern |
使用 Java 規則運算式發出多個記號 - 一個或多個模式中的每個擷取群組一個。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Pattern |
取代輸入字串中字元的字元篩選器。 它使用正則表達式來識別要保留的字符序列,並使用替換模式來識別要替換的字符。 例如,給定輸入文字「aa bb aa bb」、模式「(aa)\s+(bb)」和替換「$1#$2」,結果將是「aa#bb aa#bb」。 此字元篩選器是使用 Apache Lucene 實作。 |
|
Pattern |
取代輸入字串中字元的字元篩選器。 它使用正則表達式來識別要保留的字符序列,並使用替換模式來識別要替換的字符。 例如,給定輸入文字「aa bb aa bb」、模式「(aa)\s+(bb)」和替換「$1#$2」,結果將是「aa#bb aa#bb」。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Pattern |
使用正則表達式模式比對來建構不同權杖的標記器。 此分詞器是使用 Apache Lucene 實作的。 |
|
Phonetic |
識別要與 PhoneticTokenFilter 搭配使用的語音編碼器類型。 |
|
Phonetic |
為語音匹配創建令牌。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Prioritized |
描述要用於語意排名、標題、重點和答案的標題、內容和關鍵字欄位。 |
|
Ranking |
代表用於文件排序順序的分數。 |
|
Regex |
定義可組合的旗標,以控制在型樣分析器和型樣記號器中使用正規表示式的方式。 |
|
Rescoring |
包含重新評分的選項。 |
|
Scalar |
包含純量量化特有的參數。 |
|
Scalar |
包含索引和查詢期間所使用的純量量化壓縮方法特有的組態選項。 |
|
Scoring |
定義用來合併評分設定檔中所有評分函數結果的彙總函數。 |
|
Scoring |
定義用來在一系列文件中插補分數提升的函數。 |
|
Scoring |
定義影響搜尋查詢評分的搜尋索引參數。 |
|
Search |
代表索引定義中的欄位,描述欄位的名稱、資料類型及搜尋行為。 |
|
Search |
定義搜尋索引中欄位的資料類型。 |
|
Search |
代表搜尋索引定義,描述索引的欄位和搜尋行為。 |
|
Search |
清除資料來源的身分識別屬性。 |
|
Search |
指定要使用的資料來源身分識別。 |
|
Search |
Azure Key Vault 中的客戶管理加密金鑰。 您建立和管理的金鑰可用來加密或解密靜態資料,例如索引和同義字對映。 |
|
Semantic |
定義要在語意功能內容中使用的特定組態。 |
|
Semantic |
用作語意配置一部分的欄位。 |
|
Semantic |
定義影響語意功能的搜尋索引參數。 |
|
Shingle |
將權杖組合建立為單一權杖。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Snowball |
使用 Snowball 產生的詞幹分析器對單字進行字幹的篩選器。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Snowball |
要用於 Snowball 權杖篩選器的語言。 |
|
Stemmer |
提供使用自訂字典型詞幹取代其他詞幹篩選器的功能。 任何字典詞幹詞都將被標記為關鍵字,這樣它們就不會被鏈條下游的詞幹詞幹。 必須放置在任何詞幹過濾器之前。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Stemmer |
特定語言詞幹篩選器。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Stemmer |
用於詞幹計算器權杖篩選器的語言。 |
|
Stop |
將文字分割為非字母;套用小寫和停用字詞記號篩選器。 此分析器是使用 Apache Lucene 實作。 |
|
Stopwords |
識別語言特定停用字詞的預先定義清單。 |
|
Stopwords |
從權杖串流中移除停用字。 此權杖篩選器是使用 Apache Lucene 實作的。 |
| Suggester |
定義建議 API 應如何套用至索引中的一組欄位。 |
|
Suggester |
指出建議者功能的值。 |
|
Synonym |
比對權杖串流中的單一或多字同義字。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Tag |
定義一個函數,用於提升字串值符合給定標籤清單的文件分數。 |
|
Tag |
提供參數值給標籤評分函數。 |
|
Text |
定義索引欄位的權重,其相符項目應提高搜尋查詢的評分。 |
|
Token |
代表權杖過濾器可以操作的字元類別。 |
|
Token |
定義搜尋引擎支援的所有權杖篩選器的名稱。 |
|
Truncate |
將項截斷為特定長度。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Uax |
將 URL 和電子郵件標記為一個標記。 此分詞器是使用 Apache Lucene 實作的。 |
|
Unique |
篩選出與前一個權杖具有相同文字的權杖。 此權杖篩選器是使用 Apache Lucene 實作的。 |
|
Vector |
解譯向量欄位內容的編碼格式。 |
|
Vector |
包含與向量搜尋相關的組態選項。 |
|
Vector |
用於索引和查詢的演算法。 |
|
Vector |
用於向量比較的相似性指標。 建議選擇與內嵌模型訓練時相同的相似度指標。 |
|
Vector |
用於索引和查詢的壓縮方法。 |
|
Vector |
用於重新評分和內部索引操作的原始全精度向量的儲存方法。 |
|
Vector |
壓縮向量值的量化資料類型。 |
|
Vector |
定義要與向量搜尋搭配使用的組態組合。 |
|
Vector |
查詢期間要使用的向量化方法。 |
|
Web |
指定連接至使用者定義向量化程式的屬性。 |
|
Web |
指定使用者定義的向量化器,以產生查詢字串的向量內嵌。 外部向量化器的整合是使用技能組的自訂 Web API 介面來達成。 |
|
Word |
將單字分割成子字,並對子單字群組執行可選的轉換。 此權杖篩選器是使用 Apache Lucene 實作的。 |
AsciiFoldingTokenFilter
將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| preserveOriginal |
boolean |
False |
指示是否保留原始權杖的值。 預設值為 false。 |
AzureActiveDirectoryApplicationCredentials
針對搜尋服務建立之已註冊應用程式認證,用於對儲存在 Azure 金鑰保存庫中的加密金鑰進行驗證存取。
| 名稱 | 類型 | Description |
|---|---|---|
| applicationId |
string |
已授與 Azure 金鑰保存庫所需存取權限的 AAD 應用程式識別碼,可在加密待用資料時使用。 應用程式識別碼不應與 AAD 應用程式的物件識別碼混淆。 |
| applicationSecret |
string |
指定 AAD 應用程式的驗證金鑰。 |
AzureOpenAIEmbeddingSkill
可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定技能類型的 URI 片段。 |
| apiKey |
string |
指定 Azure OpenAI 資源的 API 金鑰。 |
| authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 |
| context |
string |
代表作業發生的層級,例如文件根目錄或文件內容 (例如,/document 或 /document/content)。 預設值為 /document。 |
| deploymentId |
string |
指定資源上 Azure OpenAI 模型部署的識別碼。 |
| description |
string |
技能的描述,描述技能的輸入、輸出和使用方式。 |
| dimensions |
integer (int32) |
產生的輸出內嵌應具有的維度數目。 僅在 text-embedding-3 和更新版本中支援。 |
| inputs |
技能的輸入可以是來源資料集中的資料行,也可以是上游技能的輸出。 |
|
| modelName |
部署在提供的 deploymentId 路徑上的內嵌模型名稱。 |
|
| name |
string |
在技能集中唯一識別技能的技能名稱。 未定義名稱的技能將在技能陣列中獲得其從 1 開始的索引的預設名稱,並以字元「#」為前綴。 |
| outputs |
技能的輸出是搜尋索引中的欄位,或可作為另一個技能輸入使用的值。 |
|
| resourceUri |
string (uri) |
Azure OpenAI 資源的資源 URI。 |
AzureOpenAIModelName
將呼叫的 Azure Open AI 模型名稱。
| 值 | Description |
|---|---|
| text-embedding-ada-002 | |
| text-embedding-3-large | |
| text-embedding-3-small |
AzureOpenAIParameters
指定連線到 Azure OpenAI 資源的參數。
| 名稱 | 類型 | Description |
|---|---|---|
| apiKey |
string |
指定 Azure OpenAI 資源的 API 金鑰。 |
| authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 |
| deploymentId |
string |
指定資源上 Azure OpenAI 模型部署的識別碼。 |
| modelName |
部署在提供的 deploymentId 路徑上的內嵌模型名稱。 |
|
| resourceUri |
string (uri) |
Azure OpenAI 資源的資源 URI。 |
AzureOpenAIVectorizer
指定用來向量化查詢字串的 Azure OpenAI 資源。
| 名稱 | 類型 | Description |
|---|---|---|
| azureOpenAIParameters | AzureOpenAIParameters: |
包含 Azure OpenAI 內嵌向量化的特定參數。 |
| kind |
string:
azure |
要設定為與向量搜尋搭配使用的向量化方法類型的名稱。 |
| name |
string |
要與此特定向量化方法相關聯的名稱。 |
BinaryQuantizationVectorSearchCompressionConfiguration
包含索引和查詢期間所使用的二進位量化壓縮方法特有的組態選項。
| 名稱 | 類型 | Description |
|---|---|---|
| kind |
string:
binary |
設定為與向量搜尋搭配使用的壓縮方法類型的名稱。 |
| name |
string |
要與此特定組態相關聯的名稱。 |
| rescoringOptions |
包含重新評分的選項。 |
|
| truncationDimension |
integer (int32) |
要截斷向量的維度數。 截斷向量可減少向量的大小,以及搜尋期間需要傳輸的資料量。 這可以節省儲存成本並提高搜尋效能,但代價是召回率。 它只能用於使用套娃表示學習 (MRL) 訓練的嵌入,例如 OpenAI text-embedding-3-large (small)。 預設值為 null,表示沒有截斷。 |
BM25Similarity
基於Okapi BM25相似度演算法的排名函數。 BM25 是一種類似 TF-IDF 的演算法,包括長度歸一化 (由 'b' 參數控制) 以及項頻率飽和度 (由 'k1' 參數控制)。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
|
| b |
number (double) |
此屬性會控制文件長度如何影響相關性分數。 依預設,會使用值 0.75。 值 0.0 表示不套用長度正規化,而值 1.0 表示分數已完全依文件長度正規化。 |
| k1 |
number (double) |
此屬性控制每個相符字詞的字詞頻率與文件查詢配對的最終相關性分數之間的縮放函數。 依預設,會使用值 1.2。 值 0.0 表示分數不會隨著術語頻率的增加而縮放。 |
CharFilterName
定義搜尋引擎支援的所有字元篩選器的名稱。
| 值 | Description |
|---|---|
| html_strip |
嘗試去除 HTML 建構的字元篩選器。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
形成從標準標記器產生的 CJK 術語的二元組。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| ignoreScripts |
要忽略的腳本。 |
||
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| outputUnigrams |
boolean |
False |
一個值,指出是否要同時輸出單元組和二元組 (如果為真),或只輸出二元組 (如果為假)。 預設值為 false。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter 可以忽略的腳本。
| 值 | Description |
|---|---|
| han |
在形成中日韓術語的二元組時忽略漢文字。 |
| hiragana |
在形成 CJK 術語的二元組時忽略平假名腳本。 |
| katakana |
在形成 CJK 術語的二元組時忽略片假名腳本。 |
| hangul |
在形成 CJK 術語的二元組時忽略韓文文字。 |
ClassicSimilarity
使用 TF-IDF 的 Lucene TFIDFSimilarity 實現的遺留相似性算法。 這種 TF-IDF 變體引入了靜態文檔長度正規化,以及懲罰僅部分匹配搜索查詢的文件的協調因素。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
ClassicTokenizer
基於語法的分詞器,適用於處理大多數歐洲語言文檔。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
CommonGramTokenFilter
在索引時為經常出現的術語建構二元組。 單個術語也仍然被索引,二元組疊加。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| commonWords |
string[] |
常用詞集。 |
|
| ignoreCase |
boolean |
False |
指出常用單字比對是否不區分大小寫的值。 預設值為 false。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| queryMode |
boolean |
False |
指出權杖篩選器是否處於查詢模式的值。 在查詢模式中時,權杖篩選會產生二元組,然後移除常用單字和單一字詞,後面接著一個通用單字。 預設值為 false。 |
CorsOptions
定義控制索引跨來源資源共用 (CORS) 的選項。
| 名稱 | 類型 | Description |
|---|---|---|
| allowedOrigins |
string[] |
JavaScript 程式碼將從中獲得索引存取權的來源清單。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式的主機清單,或單一 '*' 以允許所有來源 (不建議)。 |
| maxAgeInSeconds |
integer (int64) |
瀏覽器應快取 CORS 預檢回應的持續時間。 預設為 5 分鐘。 |
CustomAnalyzer
允許您控制將文本轉換為可索引/可搜索標記的過程。 它是使用者定義的設定,由單一預先定義的標記器和一或多個篩選器組成。 分詞器負責將文本分成標記,過濾器用於修改分詞器發出的標記。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
| charFilters |
在分詞器處理輸入文字之前,用來準備輸入文字的字元篩選器清單。 例如,它們可以替換某些字元或符號。 過濾器會依其列出的順序執行。 |
|
| name |
string |
分析器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
| tokenFilters |
權杖篩選器清單,用來篩選或修改權杖化器所產生的權杖。 例如,您可以指定將所有字元轉換為小寫的小寫篩選器。 過濾器會依其列出的順序執行。 |
|
| tokenizer |
用來將連續文字分割成一系列標記的標記器的名稱,例如將句子分成單字。 |
CustomNormalizer
可讓您設定可篩選、可排序和可多面向欄位的正規化,這些欄位預設會以嚴格比對的方式運作。 這是使用者定義的配置,由至少一或多個過濾器組成,這些過濾器會修改儲存的記號。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定正規化程式類型的 URI 片段。 |
| charFilters |
用於在處理輸入文字之前準備輸入文字的字元篩選器清單。 例如,它們可以替換某些字元或符號。 過濾器會依其列出的順序執行。 |
|
| name |
string |
正規化工具的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 它不能以 '.microsoft' 或 '.lucene' 結尾,也不能命名為 'asciifolding'、'standard'、'lowercase'、'uppercase' 或 'elision'。 |
| tokenFilters |
用來篩選或修改輸入權杖的權杖篩選器清單。 例如,您可以指定將所有字元轉換為小寫的小寫篩選器。 過濾器會依其列出的順序執行。 |
DictionaryDecompounderTokenFilter
分解許多日耳曼語言中的複合詞。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
子字大小上限。 只會輸出短於此的子字。 預設值為 15。 最大值為 300。 |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
子字大小下限。 只輸出比此長度長的子字。 預設值為 2。 最大值為 300。 |
| minWordSize |
integer (int32) maximum: 300 |
5 |
最小字數大小。 只有比這更長的單詞才會被處理。 預設值為 5。 最大值為 300。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| onlyLongestMatch |
boolean |
False |
一個值,指出是否只將最長的相符子字新增至輸出。 預設值為 false。 |
| wordList |
string[] |
要比對的單字清單。 |
DistanceScoringFunction
定義一個函數,根據與地理位置的距離提高分數。
| 名稱 | 類型 | Description |
|---|---|---|
| boost |
number (double) |
原始分數的乘數。 必須是不等於 1.0 的正數。 |
| distance |
距離評分函數的參數值。 |
|
| fieldName |
string |
用作評分函數輸入的欄位名稱。 |
| interpolation |
一個值,指出如何在文件分數之間插值提升;預設為「線性」。 |
|
| type |
string:
distance |
指出要使用的函數類型。 有效值包括大小、新鮮度、距離和標籤。 函數類型必須是小寫。 |
DistanceScoringParameters
提供距離評分函數的參數值。
| 名稱 | 類型 | Description |
|---|---|---|
| boostingDistance |
number (double) |
與提升範圍結束的參考位置的距離(以公里為單位)。 |
| referencePointParameter |
string |
在搜尋查詢中傳遞的參數名稱,以指定參考位置。 |
EdgeNGramTokenFilter
從輸入記號的正面或背面開始產生給定大小的 n 克。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| maxGram |
integer (int32) |
2 |
n-gram 長度上限。 預設值為 2。 |
| minGram |
integer (int32) |
1 |
最小 n-gram 長度。 預設 為 1。 必須小於 maxGram 的值。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| side | front |
指定應從輸入的哪一端產生 n-gram。 預設值為「front」。 |
EdgeNGramTokenFilterSide
指定應從輸入的哪一側產生 n-gram。
| 值 | Description |
|---|---|
| front |
指定應該從輸入的前面產生 n-gram。 |
| back |
指定應該從輸入的背面產生 n-gram。 |
EdgeNGramTokenFilterV2
從輸入記號的正面或背面開始產生給定大小的 n 克。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
n-gram 長度上限。 預設值為 2。 最大值為 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram 長度。 預設 為 1。 最大值為 300。 必須小於 maxGram 的值。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| side | front |
指定應從輸入的哪一端產生 n-gram。 預設值為「front」。 |
EdgeNGramTokenizer
將來自邊緣的輸入標記化為給定大小的 n-gram。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
n-gram 長度上限。 預設值為 2。 最大值為 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram 長度。 預設 為 1。 最大值為 300。 必須小於 maxGram 的值。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| tokenChars |
要保留在令牌中的字元類別。 |
ElisionTokenFilter
刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
| articles |
string[] |
要移除的文章集。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
ErrorAdditionalInfo
資源管理錯誤其他資訊。
| 名稱 | 類型 | Description |
|---|---|---|
| info |
object |
其他資訊。 |
| type |
string |
其他信息類型。 |
ErrorDetail
錯誤詳細數據。
| 名稱 | 類型 | Description |
|---|---|---|
| additionalInfo |
錯誤其他資訊。 |
|
| code |
string |
錯誤碼。 |
| details |
錯誤詳細數據。 |
|
| message |
string |
錯誤訊息。 |
| target |
string |
錯誤目標。 |
ErrorResponse
錯誤回應
| 名稱 | 類型 | Description |
|---|---|---|
| error |
error 物件。 |
ExhaustiveKnnParameters
包含詳盡 KNN 演算法特有的參數。
| 名稱 | 類型 | Description |
|---|---|---|
| metric |
用於向量比較的相似性指標。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
包含查詢期間使用的詳盡 KNN 演算法特定的組態選項,該演算法將在整個向量索引中執行暴力搜尋。
| 名稱 | 類型 | Description |
|---|---|---|
| exhaustiveKnnParameters |
包含詳盡 KNN 演算法特有的參數。 |
|
| kind |
string:
exhaustive |
設定為與向量搜尋搭配使用的演算法類型的名稱。 |
| name |
string |
要與此特定組態相關聯的名稱。 |
FreshnessScoringFunction
定義一個函數,根據日期時間欄位的值來提升分數。
| 名稱 | 類型 | Description |
|---|---|---|
| boost |
number (double) |
原始分數的乘數。 必須是不等於 1.0 的正數。 |
| fieldName |
string |
用作評分函數輸入的欄位名稱。 |
| freshness |
新鮮度評分函數的參數值。 |
|
| interpolation |
一個值,指出如何在文件分數之間插值提升;預設為「線性」。 |
|
| type |
string:
freshness |
指出要使用的函數類型。 有效值包括大小、新鮮度、距離和標籤。 函數類型必須是小寫。 |
FreshnessScoringParameters
提供鮮度評分函數的參數值。
| 名稱 | 類型 | Description |
|---|---|---|
| boostingDuration |
string (duration) |
特定文件的加強推廣將停止的到期期間。 |
HnswParameters
包含 HNSW 演算法特定的參數。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
包含最近鄰居的動態清單大小,在索引時間期間使用。 增加此參數可能會改善索引品質,但代價是索引時間增加。 在某個時刻,增加該參數會導致收益遞減。 |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
包含最近鄰接項的動態清單大小,在搜尋期間使用。 增加此參數可能會改善搜尋結果,但會降低搜尋速度。 在某個時刻,增加該參數會導致收益遞減。 |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
在建構期間為每個新元素建立的雙向連結數目。 增加此參數值可能會改善召回率,並減少具有高內在維度的資料集的擷取時間,但代價是記憶體耗用量增加和索引時間延長。 |
| metric |
用於向量比較的相似性指標。 |
HnswVectorSearchAlgorithmConfiguration
包含索引和查詢期間使用的 HNSW 近似最近鄰演算法特有的組態選項。 HNSW 演算法在搜尋速度和準確性之間提供了可調整的權衡。
| 名稱 | 類型 | Description |
|---|---|---|
| hnswParameters |
包含 HNSW 演算法特有的參數。 |
|
| kind |
string:
hnsw |
設定為與向量搜尋搭配使用的演算法類型的名稱。 |
| name |
string |
要與此特定組態相關聯的名稱。 |
InputFieldMappingEntry
技能的輸入欄位對應。
| 名稱 | 類型 | Description |
|---|---|---|
| inputs |
建立複雜類型時使用的遞迴輸入。 |
|
| name |
string |
輸入的名稱。 |
| source |
string |
輸入的來源。 |
| sourceContext |
string |
用於選取遞迴輸入的來源內容。 |
KeepTokenFilter
權杖篩選器,僅保留指定單字清單中包含文字的權杖。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| keepWords |
string[] |
要保留的單字清單。 |
|
| keepWordsCase |
boolean |
False |
指出是否先將所有單字小寫的值。 預設值為 false。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
KeywordMarkerTokenFilter
將術語標記為關鍵字。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| ignoreCase |
boolean |
False |
指出是否忽略大小文字的值。 如果為true,則所有單字都會先轉換為小寫。 預設值為 false。 |
| keywords |
string[] |
要標示為關鍵字的單字清單。 |
|
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
KeywordTokenizer
將整個輸入作為單一記號發出。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| bufferSize |
integer (int32) |
256 |
讀取緩衝區大小 (以位元組為單位)。 預設值為 256。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
KeywordTokenizerV2
將整個輸入作為單一記號發出。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
權杖長度上限。 預設值為 256。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
LengthTokenFilter
刪除太長或太短的單字。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| max |
integer (int32) maximum: 300 |
300 |
字元長度上限。 預設值和最大值為 300。 |
| min |
integer (int32) maximum: 300 |
0 |
字元長度下限。 預設值為 0。 最大值為 300。 必須小於 max 的值。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
LexicalAnalyzerName
定義搜尋引擎支援的所有文字分析器的名稱。
| 值 | Description |
|---|---|
| ar.microsoft |
適用於阿拉伯文的 Microsoft 分析器。 |
| ar.lucene |
阿拉伯語的 Lucene 分析儀。 |
| hy.lucene |
亞美尼亞語的 Lucene 分析儀。 |
| bn.microsoft |
適用於孟加拉語的 Microsoft 分析器。 |
| eu.lucene |
巴斯克語的 Lucene 分析儀。 |
| bg.microsoft |
保加利亞文的 Microsoft 分析器。 |
| bg.lucene |
保加利亞語的 Lucene 分析儀。 |
| ca.microsoft |
適用於加泰隆尼亞語的 Microsoft 分析器。 |
| ca.lucene |
加泰羅尼亞語的 Lucene 分析儀。 |
| zh-Hans.microsoft |
中文版 Microsoft 分析器 (簡體)。 |
| zh-Hans.lucene |
Lucene 中文分析儀(簡體)。 |
| zh-Hant.microsoft |
中文 (繁體) 的 Microsoft 分析器。 |
| zh-Hant.lucene |
Lucene 中文分析儀(繁體)。 |
| hr.microsoft |
克羅埃西亞語的 Microsoft 分析器。 |
| cs.microsoft |
捷克語的 Microsoft 分析器。 |
| cs.lucene |
捷克語的 Lucene 分析儀。 |
| da.microsoft |
丹麥文的 Microsoft 分析器。 |
| da.lucene |
丹麥語的 Lucene 分析儀。 |
| nl.microsoft |
荷蘭語的 Microsoft 分析器。 |
| nl.lucene |
荷蘭語的 Lucene 分析儀。 |
| en.microsoft |
英文版 Microsoft 分析器。 |
| en.lucene |
英語的 Lucene 分析儀。 |
| et.microsoft |
愛沙尼亞語的 Microsoft 分析器。 |
| fi.microsoft |
芬蘭文的 Microsoft 分析器。 |
| fi.lucene |
芬蘭語的 Lucene 分析儀。 |
| fr.microsoft |
法文的 Microsoft 分析器。 |
| fr.lucene |
法語的 Lucene 分析儀。 |
| gl.lucene |
加利西亞的 Lucene 分析儀。 |
| de.microsoft |
德文的 Microsoft 分析器。 |
| de.lucene |
德語 Lucene 分析儀。 |
| el.microsoft |
希臘語的 Microsoft 分析器。 |
| el.lucene |
希臘語的 Lucene 分析儀。 |
| gu.microsoft |
古吉拉特語的 Microsoft 分析器。 |
| he.microsoft |
希伯來語的 Microsoft 分析器。 |
| hi.microsoft |
Microsoft analyzer for Hindi. |
| hi.lucene |
印地語的 Lucene 分析儀。 |
| hu.microsoft |
匈牙利文的 Microsoft 分析器。 |
| hu.lucene |
匈牙利語的 Lucene 分析儀。 |
| is.microsoft |
適用於冰島語的 Microsoft 分析器。 |
| id.microsoft |
印尼文 (印尼語) 的 Microsoft 分析器。 |
| id.lucene |
印尼語 Lucene 分析儀。 |
| ga.lucene |
愛爾蘭的 Lucene 分析儀。 |
| it.microsoft |
Microsoft Analyzer for Italian。 |
| it.lucene |
意大利語的 Lucene 分析儀。 |
| ja.microsoft |
日文的 Microsoft 分析器。 |
| ja.lucene |
日語 Lucene 分析儀。 |
| kn.microsoft |
適用於卡納達語的 Microsoft 分析器。 |
| ko.microsoft |
韓文的 Microsoft 分析器。 |
| ko.lucene |
韓語 Lucene 分析儀。 |
| lv.microsoft |
Microsoft Analyzer for Latvian。 |
| lv.lucene |
拉脫維亞語的 Lucene 分析儀。 |
| lt.microsoft |
適用於立陶宛文的 Microsoft 分析器。 |
| ml.microsoft |
適用於馬拉雅拉姆語的 Microsoft 分析器。 |
| ms.microsoft |
適用於馬來文的 Microsoft 分析器 (拉丁文)。 |
| mr.microsoft |
適用於馬拉地語的 Microsoft 分析器。 |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
挪威語的 Lucene 分析儀。 |
| fa.lucene |
波斯語的 Lucene 分析儀。 |
| pl.microsoft |
適用於波蘭文的 Microsoft 分析器。 |
| pl.lucene |
用於波蘭語的 Lucene 分析儀。 |
| pt-BR.microsoft |
適用於葡萄牙語 (巴西) 的 Microsoft 分析器。 |
| pt-BR.lucene |
葡萄牙語(巴西)的 Lucene 分析儀。 |
| pt-PT.microsoft |
葡萄牙語的 Microsoft 分析器 (葡萄牙)。 |
| pt-PT.lucene |
葡萄牙語的 Lucene 分析儀(葡萄牙)。 |
| pa.microsoft |
旁遮普語的 Microsoft 分析器。 |
| ro.microsoft |
羅馬尼亞文的 Microsoft 分析器。 |
| ro.lucene |
羅馬尼亞語的 Lucene 分析儀。 |
| ru.microsoft |
俄語的 Microsoft 分析器。 |
| ru.lucene |
俄語 Lucene 分析儀。 |
| sr-cyrillic.microsoft |
Microsoft 分析器適用於塞爾維亞文 (西里爾文)。 |
| sr-latin.microsoft |
Microsoft Analyzer for Serbian (Latin)。 |
| sk.microsoft |
Microsoft analyzer for Slovak. |
| sl.microsoft |
Microsoft analyzer for Slovenian. |
| es.microsoft |
西班牙文的 Microsoft 分析器。 |
| es.lucene |
西班牙語的 Lucene 分析儀。 |
| sv.microsoft |
瑞典文的 Microsoft 分析器。 |
| sv.lucene |
瑞典語 Lucene 分析儀。 |
| ta.microsoft |
適用於泰米爾語的 Microsoft 分析器。 |
| te.microsoft |
適用於泰盧固語的 Microsoft 分析器。 |
| th.microsoft |
適用於泰文的 Microsoft 分析器。 |
| th.lucene |
泰語 Lucene 分析儀。 |
| tr.microsoft |
土耳其語的 Microsoft 分析器。 |
| tr.lucene |
土耳其語的 Lucene 分析儀。 |
| uk.microsoft |
烏克蘭文的 Microsoft 分析器。 |
| ur.microsoft |
烏爾都語的 Microsoft 分析器。 |
| vi.microsoft |
越南語的 Microsoft 分析器。 |
| standard.lucene |
標準 Lucene 分析儀。 |
| standardasciifolding.lucene |
標準 ASCII 折疊 Lucene 分析儀。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
將欄位的整個內容視為單一權杖。 這對於郵遞區號、ID 和某些產品名稱等資料很有用。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
透過正則表達式模式靈活地將文字分隔為術語。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
將非字母處的文字分割並轉換為小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
將文字分割為非字母;套用小寫和停用字詞記號篩選器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
使用空格標記器的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
定義搜尋引擎支援的所有文字正規化程式的名稱。
| 值 | Description |
|---|---|
| asciifolding |
將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
將權杖文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
標準歸一化器,由小寫和 asciifolding 組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
將權杖文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
定義搜尋引擎支援的所有標記器的名稱。
LimitTokenFilter
限制索引時的權杖數目。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| consumeAllTokens |
boolean |
False |
一個值,指出即使達到 maxTokenCount,是否也必須耗用輸入中的所有記號。 預設值為 false。 |
| maxTokenCount |
integer (int32) |
1 |
要產生的權杖數目上限。 預設 為 1。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
LuceneStandardAnalyzer
標準 Apache Lucene 分析器;由標準分詞器、小寫過濾器和停止過濾器組成。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 |
| name |
string |
分析器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| stopwords |
string[] |
停用詞清單。 |
LuceneStandardTokenizer
按照 Unicode 文字分割規則中斷文字。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) |
255 |
權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
LuceneStandardTokenizerV2
按照 Unicode 文字分割規則中斷文字。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
MagnitudeScoringFunction
定義一個函數,根據數值欄位的大小來提升分數。
| 名稱 | 類型 | Description |
|---|---|---|
| boost |
number (double) |
原始分數的乘數。 必須是不等於 1.0 的正數。 |
| fieldName |
string |
用作評分函數輸入的欄位名稱。 |
| interpolation |
一個值,指出如何在文件分數之間插值提升;預設為「線性」。 |
|
| magnitude |
幅度評分函數的參數值。 |
|
| type |
string:
magnitude |
指出要使用的函數類型。 有效值包括大小、新鮮度、距離和標籤。 函數類型必須是小寫。 |
MagnitudeScoringParameters
提供大小評分函數的參數值。
| 名稱 | 類型 | Description |
|---|---|---|
| boostingRangeEnd |
number (double) |
加強推廣結束的欄位值。 |
| boostingRangeStart |
number (double) |
開始加強推廣的欄位值。 |
| constantBoostBeyondRange |
boolean |
一個值,指出是否要對超出範圍結束值的欄位值套用常數提升;預設值為 false。 |
MappingCharFilter
套用使用 mappings 選項定義的對應的字元過濾器。 匹配是貪婪的(在給定點上最長的模式匹配獲勝)。 允許取代為空字串。 此字元篩選器是使用 Apache Lucene 實作。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定字元篩選類型的 URI 片段。 |
| mappings |
string[] |
下列格式的對應清單:「a=>b」(字元 “a” 的所有出現都將取代為字元 “b”)。 |
| name |
string |
char 過濾器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
MicrosoftLanguageStemmingTokenizer
使用特定語言的規則分割文字,並將單字簡化為基本形式。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| isSearchTokenizer |
boolean |
False |
指出如何使用分詞器的值。 如果用作搜尋分詞器,請設定為 true,如果用作索引分詞器,則設為 false。 預設值為 false。 |
| language |
要使用的語言。 預設值為英文。 |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
權杖長度上限。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 超過 300 個字元的權杖會先分割成長度為 300 的權杖,然後根據設定的最大權杖長度來分割每個權杖。 預設值為 255。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
MicrosoftLanguageTokenizer
使用語言特定的規則來分割文字。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| isSearchTokenizer |
boolean |
False |
指出如何使用分詞器的值。 如果用作搜尋分詞器,請設定為 true,如果用作索引分詞器,則設為 false。 預設值為 false。 |
| language |
要使用的語言。 預設值為英文。 |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
權杖長度上限。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 超過 300 個字元的權杖會先分割成長度為 300 的權杖,然後根據設定的最大權杖長度來分割每個權杖。 預設值為 255。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
MicrosoftStemmingTokenizerLanguage
列出 Microsoft 語言詞幹標記器所支援的語言。
| 值 | Description |
|---|---|
| arabic |
選取阿拉伯文的 Microsoft 詞幹記號。 |
| bangla |
選取孟加拉語的 Microsoft 詞幹記號器。 |
| bulgarian |
選取保加利亞文的 Microsoft 詞幹記號。 |
| catalan |
選取 Catalan 的 Microsoft 詞幹記號。 |
| croatian |
選取克羅埃西亞文的 Microsoft 詞幹記號器。 |
| czech |
選取捷克文的 Microsoft 詞幹記號器。 |
| danish |
選取丹麥文的 Microsoft 詞幹記號。 |
| dutch |
選取荷蘭語的 Microsoft 詞幹記號化記號器。 |
| english |
選取英文的 Microsoft 詞幹記號化。 |
| estonian |
選取愛沙尼亞文的 Microsoft 詞幹記號。 |
| finnish |
選取芬蘭文的 Microsoft 詞幹記號。 |
| french |
選取法文的 Microsoft 詞幹記號產生器。 |
| german |
選取德文的 Microsoft 詞幹記號化記號器。 |
| greek |
選取希臘文的 Microsoft 詞幹記號。 |
| gujarati |
選取古吉拉特語的 Microsoft 詞幹記號建立器。 |
| hebrew |
選取希伯來文的 Microsoft 詞幹記號器。 |
| hindi |
選取印地文的 Microsoft 詞幹記號。 |
| hungarian |
選取匈牙利文的 Microsoft 詞幹記號。 |
| icelandic |
選取冰島文的 Microsoft 詞幹標記器。 |
| indonesian |
選取印尼文的 Microsoft 詞幹記號。 |
| italian |
選取義大利文的 Microsoft 詞幹記號。 |
| kannada |
選取卡納達語的 Microsoft 詞幹記號。 |
| latvian |
選取拉脫維亞文的 Microsoft 詞幹記號建立器。 |
| lithuanian |
選取立陶宛文的 Microsoft 詞幹記號化記號器。 |
| malay |
選取馬來文的 Microsoft 詞幹記號器。 |
| malayalam |
選取馬拉雅拉姆語的 Microsoft 詞幹記號化記號器。 |
| marathi |
選取馬拉地文的 Microsoft 詞幹記號。 |
| norwegianBokmaal |
選取挪威文 (Bokmål) 的 Microsoft 詞幹記號器。 |
| polish |
選取波蘭文的 Microsoft 詞幹記號。 |
| portuguese |
選取葡萄牙文的 Microsoft 詞幹記號。 |
| portugueseBrazilian |
選取葡萄牙文 (巴西) 的 Microsoft 詞幹記號化記號器。 |
| punjabi |
選取旁遮普文的 Microsoft 詞幹記號化記號器。 |
| romanian |
選取羅馬尼文的 Microsoft 詞幹記號器。 |
| russian |
選取俄文的 Microsoft 詞幹記號器。 |
| serbianCyrillic |
選取塞爾維亞文 (西里爾文) 的 Microsoft 詞幹記號器。 |
| serbianLatin |
選取塞爾維亞文 (拉丁文) 的 Microsoft 詞幹記號化記號器。 |
| slovak |
選取斯洛伐克語的 Microsoft 詞幹記號。 |
| slovenian |
選取斯洛文尼亞文的 Microsoft 詞幹記號。 |
| spanish |
選取西班牙文的 Microsoft 詞幹記號。 |
| swedish |
選取瑞典文的 Microsoft 詞幹記號。 |
| tamil |
選取泰米爾語的 Microsoft 詞幹記號。 |
| telugu |
選取泰盧固語的 Microsoft 詞幹記號產生器。 |
| turkish |
選取土耳其文的 Microsoft 詞幹記號器。 |
| ukrainian |
選取烏克蘭文的 Microsoft 詞幹記號化記號器。 |
| urdu |
選取烏爾都語的 Microsoft 詞幹記號。 |
MicrosoftTokenizerLanguage
列出 Microsoft 語言權杖建立器所支援的語言。
| 值 | Description |
|---|---|
| bangla |
選取孟加拉語的 Microsoft 權杖化器。 |
| bulgarian |
選取保加利亞文的 Microsoft 權杖化器。 |
| catalan |
選取加泰隆隆語的 Microsoft 權杖化器。 |
| chineseSimplified |
選取中文的 Microsoft 權杖化器 (簡體)。 |
| chineseTraditional |
選取中文 (繁體) 的 Microsoft 分詞器。 |
| croatian |
選取克羅埃西亞文的 Microsoft 權杖設定器。 |
| czech |
選取捷克文的 Microsoft 權杖化器。 |
| danish |
選取丹麥文的 Microsoft 權杖化器。 |
| dutch |
選取荷蘭文的 Microsoft 權杖化器。 |
| english |
選取英文的 Microsoft 權杖設定器。 |
| french |
選取法文的 Microsoft 權杖化器。 |
| german |
選取德文的 Microsoft 權杖化器。 |
| greek |
選取希臘文的 Microsoft 權杖化器。 |
| gujarati |
選取古吉拉特語的 Microsoft 權杖化器。 |
| hindi |
選取印地文的 Microsoft 權杖化器。 |
| icelandic |
選取冰島文的 Microsoft 權杖建立器。 |
| indonesian |
選取印尼文的 Microsoft 權杖設定器。 |
| italian |
選取義大利文的 Microsoft 權杖化器。 |
| japanese |
選取日文的 Microsoft 分詞器。 |
| kannada |
選取卡納達語的 Microsoft 權杖化器。 |
| korean |
選取韓文的 Microsoft 權杖化器。 |
| malay |
選取馬來文的 Microsoft 權杖建立器。 |
| malayalam |
選取馬拉雅拉姆語的 Microsoft 權杖化器。 |
| marathi |
選取馬拉地語的 Microsoft 權杖設定器。 |
| norwegianBokmaal |
選取挪威文 (Bokmål) 的 Microsoft 權杖化器。 |
| polish |
選取波蘭文的 Microsoft 權杖化器。 |
| portuguese |
選取葡萄牙文的 Microsoft 權杖化器。 |
| portugueseBrazilian |
選取葡萄牙文 (巴西) 的 Microsoft 權杖化器。 |
| punjabi |
選取旁遮普文的 Microsoft 權杖化器。 |
| romanian |
選取羅馬尼亞文的 Microsoft 權杖化器。 |
| russian |
選取俄文的 Microsoft 分詞器。 |
| serbianCyrillic |
選取塞爾維亞文 (西里爾文) 的 Microsoft 權杖化器。 |
| serbianLatin |
選取塞爾維亞文 (拉丁文) 的 Microsoft 權杖化器。 |
| slovenian |
選取斯洛文尼亞文的 Microsoft 權杖化器。 |
| spanish |
選取西班牙文的 Microsoft 權杖化器。 |
| swedish |
選取瑞典文的 Microsoft 權杖建立器。 |
| tamil |
選取泰米爾語的 Microsoft 分詞器。 |
| telugu |
選取泰盧固語的 Microsoft 權杖建立器。 |
| thai |
選取泰文的 Microsoft 權杖化器。 |
| ukrainian |
選取烏克蘭文的 Microsoft 權杖化器。 |
| urdu |
選取烏爾都語的 Microsoft 權杖化器。 |
| vietnamese |
選取越南文的 Microsoft 權杖建立器。 |
NGramTokenFilter
產生給定大小的 n-gram。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| maxGram |
integer (int32) |
2 |
n-gram 長度上限。 預設值為 2。 |
| minGram |
integer (int32) |
1 |
最小 n-gram 長度。 預設 為 1。 必須小於 maxGram 的值。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
NGramTokenFilterV2
產生給定大小的 n-gram。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
n-gram 長度上限。 預設值為 2。 最大值為 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram 長度。 預設 為 1。 最大值為 300。 必須小於 maxGram 的值。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
NGramTokenizer
將輸入標記為給定大小的 n-gram。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
n-gram 長度上限。 預設值為 2。 最大值為 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n-gram 長度。 預設 為 1。 最大值為 300。 必須小於 maxGram 的值。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| tokenChars |
要保留在令牌中的字元類別。 |
OutputFieldMappingEntry
技能的輸出欄位對應。
| 名稱 | 類型 | Description |
|---|---|---|
| name |
string |
技能所定義的輸出名稱。 |
| targetName |
string |
輸出的目標名稱。 它是選用的,預設為名稱。 |
PathHierarchyTokenizerV2
路徑式階層的分詞器。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| delimiter |
string (char) |
/ |
要使用的分隔字元。 預設值為 “/”。 |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
權杖長度上限。 預設值和最大值為 300。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| replacement |
string (char) |
/ |
如果設定,則會取代分隔字元的值。 預設值為 “/”。 |
| reverse |
boolean |
False |
指出是否以相反順序產生權杖的值。 預設值為 false。 |
| skip |
integer (int32) |
0 |
要略過的初始權杖數目。 預設值為 0。 |
PatternAnalyzer
透過正則表達式模式靈活地將文字分隔為術語。 此分析器是使用 Apache Lucene 實作。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
|
| flags |
正規表示式旗標。 |
||
| lowercase |
boolean |
True |
指出字詞是否應該小寫的值。 預設值是「true」。 |
| name |
string |
分析器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| pattern |
string |
\W+ |
比對權杖分隔符號的正規表示式模式。 預設值是符合一或多個非單字字元的運算式。 |
| stopwords |
string[] |
停用詞清單。 |
PatternCaptureTokenFilter
使用 Java 規則運算式發出多個記號 - 一個或多個模式中的每個擷取群組一個。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| patterns |
string[] |
要與每個權杖比對的模式清單。 |
|
| preserveOriginal |
boolean |
True |
一個值,指出是否要傳回原始記號,即使其中一個模式相符。 預設值是「true」。 |
PatternReplaceCharFilter
取代輸入字串中字元的字元篩選器。 它使用正則表達式來識別要保留的字符序列,並使用替換模式來識別要替換的字符。 例如,給定輸入文字「aa bb aa bb」、模式「(aa)\s+(bb)」和替換「$1#$2」,結果將是「aa#bb aa#bb」。 此字元篩選器是使用 Apache Lucene 實作。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定字元篩選類型的 URI 片段。 |
| name |
string |
char 過濾器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
| pattern |
string |
正規表示式模式。 |
| replacement |
string |
替換文本。 |
PatternReplaceTokenFilter
取代輸入字串中字元的字元篩選器。 它使用正則表達式來識別要保留的字符序列,並使用替換模式來識別要替換的字符。 例如,給定輸入文字「aa bb aa bb」、模式「(aa)\s+(bb)」和替換「$1#$2」,結果將是「aa#bb aa#bb」。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
| pattern |
string |
正規表示式模式。 |
| replacement |
string |
替換文本。 |
PatternTokenizer
使用正則表達式模式比對來建構不同權杖的標記器。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| flags |
正規表示式旗標。 |
||
| group |
integer (int32) |
-1 |
正則運算式模式中比對群組的從零開始的序數,要擷取到權杖中。 如果您想要使用整個模式將輸入分割成記號,而不論相符的群組為何,請使用 -1。 預設值為 -1。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| pattern |
string |
\W+ |
比對權杖分隔符號的正規表示式模式。 預設值是符合一或多個非單字字元的運算式。 |
PhoneticEncoder
識別要與 PhoneticTokenFilter 搭配使用的語音編碼器類型。
| 值 | Description |
|---|---|
| metaphone |
將權杖編碼為 Metaphone 值。 |
| doubleMetaphone |
將記號編碼為雙元音值。 |
| soundex |
將權杖編碼為 Soundex 值。 |
| refinedSoundex |
將權杖編碼為精簡的 Soundex 值。 |
| caverphone1 |
將權杖編碼為 Caverphone 1.0 值。 |
| caverphone2 |
將權杖編碼為 Caverphone 2.0 值。 |
| cologne |
將記號編碼為科隆語音值。 |
| nysiis |
將代幣編碼為 NYSIIS 值。 |
| koelnerPhonetik |
使用 Kölner Phonetik 算法對令牌進行編碼。 |
| haasePhonetik |
使用 Kölner Phonetik 算法的 Haase 細化對標記進行編碼。 |
| beiderMorse |
將權杖編碼為 Beider-Morse 值。 |
PhoneticTokenFilter
為語音匹配創建令牌。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| encoder | metaphone |
要使用的語音編碼器。 預設為「metaphone」。 |
|
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| replace |
boolean |
True |
指出編碼權杖是否應該取代原始權杖的值。 如果為 false,則會將編碼的權杖新增為同義字。 預設值是「true」。 |
PrioritizedFields
描述要用於語意排名、標題、重點和答案的標題、內容和關鍵字欄位。
| 名稱 | 類型 | Description |
|---|---|---|
| prioritizedContentFields |
定義要用於語意排名、標題、重點和答案的內容欄位。 為了獲得最佳結果,所選欄位應包含自然語言形式的文字。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會被截斷。 |
|
| prioritizedKeywordsFields |
定義要用於語意排名、標題、亮點和答案的關鍵字欄位。 為了獲得最佳結果,所選欄位應包含關鍵字清單。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會被截斷。 |
|
| titleField |
定義要用於語意排名、標題、醒目提示和答案的標題欄位。 如果您的索引中沒有標題欄位,請將此欄位留空。 |
RankingOrder
代表用於文件排序順序的分數。
| 值 | Description |
|---|---|
| BoostedRerankerScore |
將排序順序設定為 BoostedRerankerScore |
| RerankerScore |
將排序順序設定為 ReRankerScore |
RegexFlags
定義可組合的旗標,以控制在型樣分析器和型樣記號器中使用正規表示式的方式。
| 值 | Description |
|---|---|
| CANON_EQ |
啟用標準對等。 |
| CASE_INSENSITIVE |
啟用不區分大小寫的比對。 |
| COMMENTS |
允許模式中的空格和註解。 |
| DOTALL |
啟用點模式。 |
| LITERAL |
啟用模式的文字剖析。 |
| MULTILINE |
啟用多行模式。 |
| UNICODE_CASE |
啟用 Unicode 感知大小寫折疊。 |
| UNIX_LINES |
啟用 Unix 線路模式。 |
RescoringOptions
包含重新評分的選項。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| defaultOversampling |
number (double) |
預設過取樣係數。 過取樣會擷取一組更大的潛在文件,以抵消量化所造成的解析度損失。 這會增加將在全精度向量上重新評分的結果集。 最小值為 1,表示沒有過度取樣 (1x)。 只有在 'enableRescoring' 為 true 時,才能設定此參數。 較高的值會以延遲為代價來改善召回率。 |
|
| enableRescoring |
boolean |
True |
如果設為 true,則在對壓縮向量進行初始搜尋之後,會使用全精確度向量重新計算相似性分數。 這將以延遲為代價提高召回率。 |
| rescoreStorageMethod | preserveOriginals |
控制原始向量的儲存方法。 此設定是不可變的。 |
ScalarQuantizationParameters
包含純量量化特有的參數。
| 名稱 | 類型 | Description |
|---|---|---|
| quantizedDataType |
壓縮向量值的量化資料類型。 |
ScalarQuantizationVectorSearchCompressionConfiguration
包含索引和查詢期間所使用的純量量化壓縮方法特有的組態選項。
| 名稱 | 類型 | Description |
|---|---|---|
| kind |
string:
scalar |
設定為與向量搜尋搭配使用的壓縮方法類型的名稱。 |
| name |
string |
要與此特定組態相關聯的名稱。 |
| rescoringOptions |
包含重新評分的選項。 |
|
| scalarQuantizationParameters |
包含純量量化特有的參數。 |
|
| truncationDimension |
integer (int32) |
要截斷向量的維度數。 截斷向量可減少向量的大小,以及搜尋期間需要傳輸的資料量。 這可以節省儲存成本並提高搜尋效能,但代價是召回率。 它只能用於使用套娃表示學習 (MRL) 訓練的嵌入,例如 OpenAI text-embedding-3-large (small)。 預設值為 null,表示沒有截斷。 |
ScoringFunctionAggregation
定義用來合併評分設定檔中所有評分函數結果的彙總函數。
| 值 | Description |
|---|---|
| sum |
通過所有評分函數結果的總和來提高分數。 |
| average |
通過所有評分函數結果的平均值來提高分數。 |
| minimum |
將分數提高到所有評分函數結果的最小值。 |
| maximum |
將分數提高到所有評分函數結果的最大值。 |
| firstMatching |
使用評分設定檔中第一個適用的評分函數來提升分數。 |
ScoringFunctionInterpolation
定義用來在一系列文件中插補分數提升的函數。
| 值 | Description |
|---|---|
| linear |
將分數線性遞減。 這是評分函數的預設插補。 |
| constant |
通過恆定係數提高分數。 |
| quadratic |
將分數提高二次方遞減的量。 分數越高,提升會緩慢減少,而分數越低,就會越快。 標籤評分函數不允許使用此插補選項。 |
| logarithmic |
將分數提高對數遞減的量。 分數越高,提升會迅速減少,而隨著分數的下降,提升會越慢。 標籤評分函數不允許使用此插補選項。 |
ScoringProfile
定義影響搜尋查詢評分的搜尋索引參數。
| 名稱 | 類型 | Description |
|---|---|---|
| functionAggregation |
指出如何組合個別評分函式結果的值。 預設為「總和」。 如果沒有評分函數,則忽略。 |
|
| functions | ScoringFunction[]: |
影響文件評分的函數集合。 |
| name |
string |
評分設定檔的名稱。 |
| text |
根據特定索引欄位中的文字相符來提升評分的參數。 |
SearchField
代表索引定義中的欄位,描述欄位的名稱、資料類型及搜尋行為。
| 名稱 | 類型 | Description |
|---|---|---|
| analyzer |
要用於欄位的分析器名稱。 此選項只能與可搜尋的欄位搭配使用,且無法與 searchAnalyzer 或 indexAnalyzer 一起設定。 選擇分析器後,就無法針對欄位進行變更。 對於複雜欄位,必須為 Null。 |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
向量場的維度。 |
| facetable |
boolean |
指出是否要在 Facet 查詢中參考欄位的值。 通常用於搜尋結果的呈現方式,其中包括依類別排序的點閱數 (例如,搜尋數位相機,然後依照品牌、百萬像素、價格等項目來查看點閱數)。 對於複雜欄位,此屬性必須為 Null。 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint) 類型的欄位無法是可分面的。 所有其他簡單欄位的預設值為 true。 |
| fields |
如果這是類型為 Edm.ComplexType 或 Collection(Edm.ComplexType) 的欄位,則為子欄位清單。 對於簡單欄位,必須為 Null 或空白。 |
|
| filterable |
boolean |
指出是否要在$filter查詢中參考欄位的值。 filterable 與 searchable 在字串的處理方式上有所不同。 可篩選的 Edm.String 或 Collection(Edm.String) 類型的欄位不會進行斷詞,因此比較僅針對完全相符。 例如,如果您將這樣的欄位 f 設定為 “sunny day”,則 $filter=f eq 'sunny' 將找不到匹配項,但 $filter=f eq 'sunny day' 會找到匹配項。 對於複雜欄位,此屬性必須為 Null。 簡單欄位的預設值為 true,複雜欄位的預設值為 null。 |
| indexAnalyzer |
在欄位索引時使用的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 searchAnalyzer 一起設定,且無法與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用 Analyzer 屬性。 選擇分析器後,就無法針對欄位進行變更。 對於複雜欄位,必須為 Null。 |
|
| key |
boolean |
指出欄位是否唯一識別索引中文件的值。 每個索引中必須選擇一個最上層欄位作為索引鍵欄位,而且它必須是 Edm.String 類型。 索引鍵欄位可以用來直接查閱文件,並更新或刪除特定文件。 簡單欄位的預設值為 false,複雜欄位的預設值為 null。 |
| name |
string |
欄位的名稱,在索引或父欄位的欄位集合中必須是唯一的。 |
| normalizer |
要用於欄位的正規化程式名稱。 此選項只能用於已啟用可篩選、可排序或可多面的欄位。 選擇正規化器之後,就無法針對欄位變更它。 對於複雜欄位,必須為 Null。 |
|
| retrievable |
boolean |
指出是否可以在搜尋結果中傳回欄位的值。 如果您想要使用欄位 (例如邊界) 作為篩選器、排序或評分機制,但不想讓一般使用者看到該欄位,則可以停用此選項。 對於索引鍵欄位,此屬性必須為 true,對於複雜欄位,此屬性必須為 null。 可以在現有欄位上變更此屬性。 啟用此內容不會導致索引儲存需求增加。 簡單欄位的預設值為 true,向量欄位的預設值為 false,複雜欄位的預設值為 null。 |
| searchAnalyzer |
搜尋欄位時使用的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 indexAnalyzer 一起設定,而且不能與 analyzer 選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用 Analyzer 屬性。 此分析器可以在現有欄位上更新。 對於複雜欄位,必須為 Null。 |
|
| searchable |
boolean |
指出欄位是否可全文檢索搜尋的值。 這意味著它將在索引過程中進行分詞等分析。 如果您將可搜尋欄位設定為「晴天」等值,則在內部它會分割成個別標記「晴天」和「天」。 這樣就能針對這些字詞進行全文檢索搜尋。 依預設,Edm.String 或 Collection(Edm.String) 類型的欄位是可搜尋的。 對於其他非字串資料類型的簡單欄位,此屬性必須為 false,對於複雜欄位,此屬性必須為 null。 附註: 可搜尋欄位會耗用索引中的額外空間,以容納欄位值的其他權杖化版本,以進行全文檢索搜尋。 如果您想要節省索引中的空間,且不需要在搜尋中包含欄位,請將 searchable 設定為 false。 |
| sortable |
boolean |
指出是否啟用在$orderby運算式中參照欄位的值。 默認情況下,搜索引擎會按分數對結果進行排序,但在許多體驗中,用戶會想要按文檔中的字段進行排序。 只有當簡單欄位是單一值時,它才能排序 (它在父文件的範圍內具有單一值)。 簡單集合欄位無法排序,因為它們是多值的。 複雜集合的簡單子欄位也是多值的,因此無法排序。 不論其為直接父欄位或上階欄位,都是如此,這就是複雜集合。 複雜欄位無法排序,且這類欄位的 sortable 屬性必須為 Null。 對於單值簡單欄位,可排序的預設值為 true,對於多值簡單欄位為 false,對於複雜欄位為 null。 |
| stored |
boolean |
不可變值,指出欄位是否會個別保存在磁碟上,以傳回在搜尋結果中。 如果您不打算在搜尋回應中傳回欄位內容,以節省儲存額外負荷,則可以停用此選項。 這只能在建立索引期間設定,且只能針對向量欄位設定。 無法針對現有欄位變更此屬性,也無法針對新欄位設定為 false。 如果此屬性設定為 false,則屬性 'retrievable' 也必須設定為 false。 對於索引鍵欄位、新欄位和非向量欄位,此屬性必須為 true 或未設定,對於複雜欄位,它必須為 null。 停用此屬性會減少索引儲存需求。 向量欄位的預設值為 true。 |
| synonymMaps |
string[] |
要與此欄位建立關聯的同義字對應名稱清單。 此選項只能與可搜尋的欄位搭配使用。 目前只支援每個欄位一個同義字對應。 將同義字對應指派給欄位可確保將該欄位設為目標的查詢字詞會使用同義字對應中的規則在查詢時展開。 這個屬性可以在現有的欄位上變更。 對於複雜欄位,必須為 Null 或空白集合。 |
| type |
欄位的資料類型。 |
|
| vectorEncoding |
解譯欄位內容的編碼格式。 |
|
| vectorSearchProfile |
string |
向量搜尋設定檔的名稱,指定搜尋向量欄位時要使用的演算法和向量化器。 |
SearchFieldDataType
定義搜尋索引中欄位的資料類型。
| 值 | Description |
|---|---|
| Edm.String |
表示欄位包含字串。 |
| Edm.Int32 |
表示欄位包含 32 位帶正負號整數。 |
| Edm.Int64 |
表示欄位包含 64 位帶正負號整數。 |
| Edm.Double |
表示欄位包含 IEEE 雙精確度浮點數。 |
| Edm.Boolean |
表示欄位包含布林值 (true 或 false)。 |
| Edm.DateTimeOffset |
表示欄位包含日期/時間值,包括時區資訊。 |
| Edm.GeographyPoint |
表示欄位包含經度和緯度方面的地理位置。 |
| Edm.ComplexType |
表示欄位包含一或多個複雜物件,而這些物件又具有其他類型的子欄位。 |
| Edm.Single |
指出欄位包含單精確度浮點數。 這只有在與 Collection(Edm.Single) 搭配使用時才有效。 |
| Edm.Half |
指出欄位包含半精確度浮點數。 這只有在與 Collection(Edm.Half) 搭配使用時才有效。 |
| Edm.Int16 |
表示欄位包含 16 位帶正負號整數。 這只有在與 Collection(Edm.Int16) 搭配使用時才有效。 |
| Edm.SByte |
表示欄位包含 8 位帶正負號整數。 這只有在與 Collection(Edm.SByte) 搭配使用時才有效。 |
| Edm.Byte |
表示欄位包含 8 位元不帶正負號整數。 這只有在與 Collection(Edm.Byte) 搭配使用時才有效。 |
SearchIndex
代表搜尋索引定義,描述索引的欄位和搜尋行為。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.etag |
string |
索引的 ETag。 |
| analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
| charFilters | CharFilter[]: |
索引的字元篩選器。 |
| corsOptions |
控制索引跨來源資源共用 (CORS) 的選項。 |
|
| defaultScoringProfile |
string |
如果查詢中未指定任何項目,則要使用的評分設定檔名稱。 如果未設定此內容,且未在查詢中指定評分設定檔,則會使用預設評分 (tf-idf)。 |
| description |
string |
索引的描述。 |
| encryptionKey |
您在 Azure 金鑰保存庫中建立的加密金鑰描述。 當您想要完全保證沒有人 (甚至 Microsoft) 無法解密您的數據時,此金鑰可用來為您的數據提供額外的待用加密層級。 加密資料後,資料將始終保持加密狀態。 搜尋服務會忽略嘗試將此屬性設定為 Null。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的資料不會受到影響。 使用客戶管理的金鑰進行加密不適用於免費搜尋服務,且僅適用於 2019 年 1 月 1 日或之後建立的付費服務。 |
|
| fields |
索引的欄位。 |
|
| name |
string |
索引的名稱。 |
| normalizers | LexicalNormalizer[]: |
索引的正規化器。 |
| scoringProfiles |
索引的評分設定檔。 |
|
| semantic |
定義影響語意功能的搜尋索引參數。 |
|
| similarity | Similarity: |
對符合搜尋查詢的文件進行評分和排名時要使用的相似性演算法類型。 相似性演算法只能在索引建立時定義,無法在現有索引上修改。 如果為 Null,則會使用 ClassicSimilarity 演算法。 |
| suggesters |
索引的建議。 |
|
| tokenFilters |
TokenFilter[]:
|
索引的權杖篩選。 |
| tokenizers | LexicalTokenizer[]: |
索引的標記器。 |
| vectorSearch |
包含與向量搜尋相關的組態選項。 |
SearchIndexerDataNoneIdentity
清除資料來源的身分識別屬性。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定身分類型的 URI 片段。 |
SearchIndexerDataUserAssignedIdentity
指定要使用的資料來源身分識別。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定身分類型的 URI 片段。 |
| userAssignedIdentity |
string |
使用者指派受控識別的完整 Azure 資源識別碼,通常採用「/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId」格式,應該已指派給搜尋服務。 |
SearchResourceEncryptionKey
Azure Key Vault 中的客戶管理加密金鑰。 您建立和管理的金鑰可用來加密或解密靜態資料,例如索引和同義字對映。
| 名稱 | 類型 | Description |
|---|---|---|
| accessCredentials |
用來存取 Azure 金鑰保存庫的選擇性 Azure Active Directory 認證。 如果改用受控識別,則不需要。 |
|
| keyVaultKeyName |
string |
要用來加密待用資料的 Azure 金鑰保存庫名稱。 |
| keyVaultKeyVersion |
string |
要用來加密待用資料的 Azure 金鑰版本。 |
| keyVaultUri |
string |
Azure 金鑰保存庫的 URI,也稱為 DNS 名稱,其中包含要用來加密待用資料的金鑰。 範例 URI 可能是 |
SemanticConfiguration
定義要在語意功能內容中使用的特定組態。
| 名稱 | 類型 | Description |
|---|---|---|
| name |
string |
語意組態的名稱。 |
| prioritizedFields |
描述要用於語意排名、標題、重點和答案的標題、內容和關鍵字欄位。 至少需要設定三個子屬性(titleField、prioritizedKeywordsFields 和 prioritizedContentFields)中的一個。 |
|
| rankingOrder |
指定要用於搜尋結果排序順序的分數類型。 |
SemanticField
用作語意配置一部分的欄位。
| 名稱 | 類型 | Description |
|---|---|---|
| fieldName |
string |
SemanticSettings
定義影響語意功能的搜尋索引參數。
| 名稱 | 類型 | Description |
|---|---|---|
| configurations |
索引的語意組態。 |
|
| defaultConfiguration |
string |
可讓您在索引中設定預設語意組態的名稱,讓每次都能選擇性地將其作為查詢參數傳遞。 |
ShingleTokenFilter
將權杖組合建立為單一權杖。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| filterToken |
string |
_ |
要針對沒有權杖的每個位置插入的字串。 預設值為底線 (“_”)。 |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
最大木瓦尺寸。 預設值和最小值為 2。 |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
最小木瓦尺寸。 預設值和最小值為 2。 必須小於 maxShingleSize 的值。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| outputUnigrams |
boolean |
True |
指出輸出資料流程是否包含輸入記號 (unigram) 以及 shingles 的值。 預設值是「true」。 |
| outputUnigramsIfNoShingles |
boolean |
False |
一個值,指示是否在沒有帶狀皰疹可用時輸出 unigram。 當 outputUnigrams 設定為 false 時,此屬性優先。 預設值為 false。 |
| tokenSeparator |
string |
連接相鄰標記以形成木瓦時要使用的字符串。 預設值為單一空格 (“ ”)。 |
SnowballTokenFilter
使用 Snowball 產生的詞幹分析器對單字進行字幹的篩選器。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
| language |
要使用的語言。 |
|
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
SnowballTokenFilterLanguage
要用於 Snowball 權杖篩選器的語言。
| 值 | Description |
|---|---|
| armenian |
選取亞美尼亞語的 Lucene Snowball 詞幹標記器。 |
| basque |
選取巴斯克語的 Lucene Snowball 詞幹標記器。 |
| catalan |
選取加泰隆尼亞語的 Lucene Snowball 詞幹標記器。 |
| danish |
選取丹麥文的 Lucene Snowball 詞幹標記器。 |
| dutch |
選取 Dutch 的 Lucene Snowball 詞幹標記器。 |
| english |
選取英文的 Lucene Snowball 詞幹標記器。 |
| finnish |
選取芬蘭文的 Lucene Snowball 詞幹標記器。 |
| french |
選取法文的 Lucene Snowball 詞幹標記器。 |
| german |
選取德文的 Lucene Snowball 詞幹標記器。 |
| german2 |
選取使用德語變體演算法的 Lucene Snowball 詞幹記號器。 |
| hungarian |
選取匈牙利文的 Lucene Snowball 詞幹標記器。 |
| italian |
選取義大利文的 Lucene Snowball 詞幹標記器。 |
| kp |
選取使用 Kraaij-Pohlmann 詞幹分析演算法的荷蘭語的 Lucene Snowball 詞幹記詞器。 |
| lovins |
選取使用 Lovins 詞幹提取演算法的英文 Lucene Snowball 詞幹記詞器。 |
| norwegian |
選取挪威文的 Lucene Snowball 詞幹記號器。 |
| porter |
選取使用 Porter 詞幹提取演算法的英文 Lucene Snowball 詞幹記詞器。 |
| portuguese |
選取葡萄牙文的 Lucene Snowball 詞幹標記器。 |
| romanian |
選取羅馬尼亞文的 Lucene Snowball 詞幹標記器。 |
| russian |
選取俄語的 Lucene Snowball 詞幹標記器。 |
| spanish |
選取西班牙文的 Lucene Snowball 詞幹標記器。 |
| swedish |
選取瑞典文的 Lucene Snowball 詞幹標記器。 |
| turkish |
選取土耳其文的 Lucene Snowball 詞幹標記器。 |
StemmerOverrideTokenFilter
提供使用自訂字典型詞幹取代其他詞幹篩選器的功能。 任何字典詞幹詞都將被標記為關鍵字,這樣它們就不會被鏈條下游的詞幹詞幹。 必須放置在任何詞幹過濾器之前。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
| rules |
string[] |
下列格式的詞幹刪除規則清單:「word => stem」,例如:「ran => run」。 |
StemmerTokenFilter
特定語言詞幹篩選器。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
| language |
要使用的語言。 |
|
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
StemmerTokenFilterLanguage
用於詞幹計算器權杖篩選器的語言。
| 值 | Description |
|---|---|
| arabic |
選取阿拉伯文的 Lucene 詞幹標記器。 |
| armenian |
選取亞美尼亞文的 Lucene 詞幹標記器。 |
| basque |
選取巴斯克語的 Lucene 詞幹標記器。 |
| brazilian |
選取葡萄牙文 (巴西) 的 Lucene 詞幹標記器。 |
| bulgarian |
選取保加利亞文的 Lucene 詞幹標記器。 |
| catalan |
選取加泰隆尼亞語的 Lucene 詞幹標記器。 |
| czech |
選取捷克文的 Lucene 詞幹記號器。 |
| danish |
選取丹麥文的 Lucene 詞幹標記器。 |
| dutch |
選取荷蘭語的 Lucene 詞幹記號器。 |
| dutchKp |
選取使用 Kraaij-Pohlmann 詞幹分析演算法的荷蘭語的 Lucene 詞幹記號化記號器。 |
| english |
選取英文的 Lucene 詞幹標記器。 |
| lightEnglish |
選取執行淺色詞幹的英文 Lucene 詞幹標記器。 |
| minimalEnglish |
選取執行最小詞幹處理的英文 Lucene 詞幹記詞器。 |
| possessiveEnglish |
選取英文的 Lucene 詞幹標記器,以移除單字中的尾端所有格。 |
| porter2 |
選取使用 Porter2 詞幹轉換演算法的英文 Lucene 詞幹標記器。 |
| lovins |
選取使用 Lovins 詞幹提取演算法的英文 Lucene 詞幹標記器。 |
| finnish |
選取芬蘭文的 Lucene 詞幹標記器。 |
| lightFinnish |
選取執行輕詞幹的芬蘭文的 Lucene 詞幹記號器。 |
| french |
選取法文的 Lucene 詞幹標記器。 |
| lightFrench |
選取執行輕型詞幹的法語的 Lucene 詞幹標記器。 |
| minimalFrench |
選取法文的 Lucene 詞幹記詞器,以執行最小的詞幹處理。 |
| galician |
選取 Galician 的 Lucene 詞幹標記器。 |
| minimalGalician |
為加利西亞語選擇執行最小詞幹的 Lucene 詞幹標記器。 |
| german |
選取德文的 Lucene 詞幹記號器。 |
| german2 |
選取使用德文變體演算法的 Lucene 詞幹記號化記號器。 |
| lightGerman |
為執行輕型詞幹提取的德文選取 Lucene 詞幹標記器。 |
| minimalGerman |
為德文選取執行最小詞幹處理的 Lucene 詞幹標記器。 |
| greek |
選取希臘文的 Lucene 詞幹標記器。 |
| hindi |
選取印地文的 Lucene 詞幹標記器。 |
| hungarian |
選取匈牙利文的 Lucene 詞幹標記器。 |
| lightHungarian |
選取執行輕型詞幹的匈牙利文的 Lucene 詞幹標記器。 |
| indonesian |
選取印尼文的Lucene詞幹記號器。 |
| irish |
選取愛爾蘭文的 Lucene 詞幹記號器。 |
| italian |
選取義大利文的 Lucene 詞幹標記器。 |
| lightItalian |
選取義大利語的 Lucene 詞幹標記器,以執行輕型詞幹處理。 |
| sorani |
選取 Sorani 的 Lucene 詞幹標記器。 |
| latvian |
選取拉脫維亞文的 Lucene 詞幹標記器。 |
| norwegian |
選取挪威文 (Bokmål) 的 Lucene 詞幹記號器。 |
| lightNorwegian |
選取挪威文 (Bokmål) 的 Lucene 詞幹記號器,以執行輕量詞幹處理。 |
| minimalNorwegian |
選取挪威文 (Bokmål) 的 Lucene 詞幹記號化程式,以執行最少的詞幹處理。 |
| lightNynorsk |
選取挪威語 (Nynorsk) 的 Lucene 詞幹標記器,以執行光詞幹處理。 |
| minimalNynorsk |
選取挪威文 (Nynorsk) 的 Lucene 詞幹標記器,以執行最少的詞幹處理。 |
| portuguese |
選取葡萄牙文的 Lucene 詞幹標記器。 |
| lightPortuguese |
為葡萄牙語選擇執行輕型詞幹的 Lucene 詞幹記號器。 |
| minimalPortuguese |
為葡萄牙語選擇執行最小詞幹的 Lucene 詞幹標記器。 |
| portugueseRslp |
選取使用 RSLP 詞幹分析演算法的葡萄牙文的 Lucene 詞幹記號化詞器。 |
| romanian |
選取羅馬尼亞文的 Lucene 詞幹記號器。 |
| russian |
選取俄語的 Lucene 詞幹標記器。 |
| lightRussian |
選取俄語的 Lucene 詞幹標記器,以執行輕型詞幹處理。 |
| spanish |
選取西班牙文的 Lucene 詞幹標記器。 |
| lightSpanish |
選取西班牙文的 Lucene 詞幹標記器,以執行輕色詞幹處理。 |
| swedish |
選取瑞典文的 Lucene 詞幹標記器。 |
| lightSwedish |
選取瑞典文的 Lucene 詞幹標記器,以執行輕型詞幹。 |
| turkish |
選取土耳其文的 Lucene 詞幹標記器。 |
StopAnalyzer
將文字分割為非字母;套用小寫和停用字詞記號篩選器。 此分析器是使用 Apache Lucene 實作。
| 名稱 | 類型 | Description |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分析器類型的 URI 片段。 |
| name |
string |
分析器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
| stopwords |
string[] |
停用詞清單。 |
StopwordsList
識別語言特定停用字詞的預先定義清單。
| 值 | Description |
|---|---|
| arabic |
選取阿拉伯文的停用字詞清單。 |
| armenian |
選取亞美尼亞文的停用詞清單。 |
| basque |
選取巴斯克語的停用詞清單。 |
| brazilian |
選取葡萄牙文 (巴西) 的停用字詞清單。 |
| bulgarian |
選取保加利亞文的停用詞清單。 |
| catalan |
選取加泰隆尼亞語的停用詞清單。 |
| czech |
選取捷克文的停用字詞清單。 |
| danish |
選取丹麥文的停用詞清單。 |
| dutch |
選取荷蘭語的停用字詞清單。 |
| english |
選取英文的停用詞清單。 |
| finnish |
選取芬蘭文的停用詞清單。 |
| french |
選取法文的停用詞清單。 |
| galician |
選取 Galician 的停用字詞清單。 |
| german |
選取德文的停用字詞清單。 |
| greek |
選取希臘文的停用字詞清單。 |
| hindi |
選取印地文的停用詞清單。 |
| hungarian |
選取匈牙利文的停用詞清單。 |
| indonesian |
選取印尼文的停用詞清單。 |
| irish |
選取愛爾蘭語的停用詞清單。 |
| italian |
選取義大利文的停用字詞清單。 |
| latvian |
選取拉脫維亞文的停用詞清單。 |
| norwegian |
選取挪威文的停用詞清單。 |
| persian |
選取波斯文的停用字詞清單。 |
| portuguese |
選取葡萄牙文的停用詞清單。 |
| romanian |
選取羅馬尼亞文的停用字詞清單。 |
| russian |
選取俄語的停用字詞清單。 |
| sorani |
選取 Sorani 的停用詞清單。 |
| spanish |
選取西班牙文的停用字詞清單。 |
| swedish |
選取瑞典文的停用詞清單。 |
| thai |
選取泰文的停用詞清單。 |
| turkish |
選取土耳其語的停用字詞清單。 |
StopwordsTokenFilter
從權杖串流中移除停用字。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| ignoreCase |
boolean |
False |
指出是否忽略大小文字的值。 如果為true,則所有單字都會先轉換為小寫。 預設值為 false。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| removeTrailing |
boolean |
True |
一個值,指出如果最後一個搜尋字詞是停用字詞,是否要忽略它。 預設值是「true」。 |
| stopwords |
string[] |
停用詞列表。 無法同時設定此屬性和停用詞清單屬性。 |
|
| stopwordsList | english |
要使用的停用字詞的預先定義清單。 無法同時設定此屬性和停用詞屬性。 預設為英文。 |
Suggester
定義建議 API 應如何套用至索引中的一組欄位。
| 名稱 | 類型 | Description |
|---|---|---|
| name |
string |
建議者的名稱。 |
| searchMode |
指出建議者功能的值。 |
|
| sourceFields |
string[] |
建議器所套用的欄位名稱清單。 每個欄位都必須是可搜尋的。 |
SuggesterSearchMode
指出建議者功能的值。
| 值 | Description |
|---|---|
| analyzingInfixMatching |
比對欄位中連續的完整術語和字首。 例如,對於欄位 'The fastest brown fox',查詢 'fast' 和 'fastest brow' 都會相符。 |
SynonymTokenFilter
比對權杖串流中的單一或多字同義字。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| expand |
boolean |
True |
一個值,指出同義字清單中的所有單字(如果未使用 => 表示法)是否會彼此對應。 如果為 true,則同義字清單中的所有單字 (如果未使用 => 表示法) 都會彼此對應。 以下列表:不可思議、難以置信、精彩、驚人相當於:不可思議、難以置信、精彩、驚人 => 不可思議、難以置信、精彩、驚人。 如果為假,則以下列表:不可思議、難以置信、精彩、驚人將等同於:不可思議、難以置信、精彩、驚人 => 不可思議。 預設值是「true」。 |
| ignoreCase |
boolean |
False |
指出是否要大小寫折疊輸入以進行比對的值。 預設值為 false。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| synonyms |
string[] |
以下兩種格式之一的同義詞列表: 1. 不可思議、難以置信、神話般的 => 驚人 - => 符號左側的所有術語都將替換為其右側的所有術語;2. 不可思議、難以置信、神話般的、驚人的 - 逗號分隔的等效單詞列表。 設定展開選項以變更此清單的解譯方式。 |
TagScoringFunction
定義一個函數,用於提升字串值符合給定標籤清單的文件分數。
| 名稱 | 類型 | Description |
|---|---|---|
| boost |
number (double) |
原始分數的乘數。 必須是不等於 1.0 的正數。 |
| fieldName |
string |
用作評分函數輸入的欄位名稱。 |
| interpolation |
一個值,指出如何在文件分數之間插值提升;預設為「線性」。 |
|
| tag |
標籤評分函式的參數值。 |
|
| type |
string:
tag |
指出要使用的函數類型。 有效值包括大小、新鮮度、距離和標籤。 函數類型必須是小寫。 |
TagScoringParameters
提供參數值給標籤評分函數。
| 名稱 | 類型 | Description |
|---|---|---|
| tagsParameter |
string |
在搜尋查詢中傳遞的參數名稱,以指定要與目標欄位比較的標籤清單。 |
TextWeights
定義索引欄位的權重,其相符項目應提高搜尋查詢的評分。
| 名稱 | 類型 | Description |
|---|---|---|
| weights |
object |
每個欄位權重的字典,可提升文件評分。 索引鍵是欄位名稱,值是每個欄位的權重。 |
TokenCharacterKind
代表權杖過濾器可以操作的字元類別。
| 值 | Description |
|---|---|
| letter |
將字母保存在令牌中。 |
| digit |
在權杖中保留數字。 |
| whitespace |
在權杖中保留空格。 |
| punctuation |
在標記中保留標點符號。 |
| symbol |
將符號保留在令牌中。 |
TokenFilterName
定義搜尋引擎支援的所有權杖篩選器的名稱。
TruncateTokenFilter
將項截斷為特定長度。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| length |
integer (int32) maximum: 300 |
300 |
將截斷術語的長度。 預設值和最大值為 300。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
UaxUrlEmailTokenizer
將 URL 和電子郵件標記為一個標記。 此分詞器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定分詞器類型的 URI 片段。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 |
| name |
string |
標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
UniqueTokenFilter
篩選出與前一個權杖具有相同文字的權杖。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| onlyOnSamePosition |
boolean |
False |
指出是否只移除相同位置的重複項的值。 預設值為 false。 |
VectorEncodingFormat
解譯向量欄位內容的編碼格式。
| 值 | Description |
|---|---|
| packedBit |
編碼格式,代表封裝成更廣泛資料類型的位。 |
VectorSearch
包含與向量搜尋相關的組態選項。
| 名稱 | 類型 | Description |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
包含索引或查詢期間所使用演算法的特定組態選項。 |
| compressions | VectorSearchCompressionConfiguration[]: |
包含索引或查詢期間所使用的壓縮方法特定的組態選項。 |
| profiles |
定義要與向量搜尋搭配使用的組態組合。 |
|
| vectorizers | VectorSearchVectorizer[]: |
包含如何向量化文字向量查詢的組態選項。 |
VectorSearchAlgorithmKind
用於索引和查詢的演算法。
| 值 | Description |
|---|---|
| hnsw |
HNSW(Hierarchical Navigable Small World),一種近似最近鄰演算法。 |
| exhaustiveKnn |
詳盡的 KNN 演算法,將執行暴力搜尋。 |
VectorSearchAlgorithmMetric
用於向量比較的相似性指標。 建議選擇與內嵌模型訓練時相同的相似度指標。
| 值 | Description |
|---|---|
| cosine |
測量向量之間的角度以量化它們的相似性,而不考慮大小。 角度越小,相似度越近。 |
| euclidean |
計算多維空間中向量之間的直線距離。 距離越小,相似度越近。 |
| dotProduct |
計算元素乘積的總和,以測量對齊和大小相似性。 越大、越積極,相似度越接近。 |
| hamming |
僅適用於位元封裝的二進位資料類型。 透過計算二進位向量中的不同位置來判斷差異性。 差異越少,相似性越接近。 |
VectorSearchCompressionKind
用於索引和查詢的壓縮方法。
| 值 | Description |
|---|---|
| scalarQuantization |
標量量化,一種壓縮方法。 在純量量化中,原始向量值通過使用一組減少的量化值離散化和表示向量的每個組件,將原始向量值壓縮為更窄的類型,從而減小整體數據大小。 |
| binaryQuantization |
二進位量化,一種壓縮方法。 在二進位量化中,原始向量值透過使用二進位值離散化和表示向量的每個分量,將原始向量值壓縮為較窄的二進位類型,從而減小整體資料大小。 |
VectorSearchCompressionRescoreStorageMethod
用於重新評分和內部索引操作的原始全精度向量的儲存方法。
| 值 | Description |
|---|---|
| preserveOriginals |
此選項會保留原始的全精確度向量。 選擇此選項可獲得最大的靈活性和最高品質的壓縮搜尋結果。 這會消耗更多儲存空間,但允許重新評分和過度取樣。 |
| discardOriginals |
此選項會捨棄原始的全精確向量。 選擇此選項可最大程度地節省儲存空間。 由於此選項不允許重新評分和過度取樣,因此通常會導致品質略有下降。 |
VectorSearchCompressionTargetDataType
壓縮向量值的量化資料類型。
| 值 | Description |
|---|---|
| int8 |
VectorSearchProfile
定義要與向量搜尋搭配使用的組態組合。
| 名稱 | 類型 | Description |
|---|---|---|
| algorithm |
string |
指定演算法和選用參數的向量搜尋演算法組態名稱。 |
| compression |
string |
指定壓縮方法及選用參數的壓縮方法配置名稱。 |
| name |
string |
要與此特定向量搜尋設定檔相關聯的名稱。 |
| vectorizer |
string |
設定為與向量搜尋搭配使用的向量化名稱。 |
VectorSearchVectorizerKind
查詢期間要使用的向量化方法。
| 值 | Description |
|---|---|
| azureOpenAI |
在查詢時使用 Azure OpenAI 資源產生內嵌。 |
| customWebApi |
在查詢時使用自訂 Web 端點產生內嵌。 |
WebApiParameters
指定連接至使用者定義向量化程式的屬性。
| 名稱 | 類型 | Description |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引子更新時,如果未指定身分識別,則值會保持不變。 如果設定為 “none”,則會清除此屬性的值。 |
| authResourceId |
string |
適用於連線到 Azure 函式中外部程式碼的自訂端點,或提供轉換的其他應用程式。 此值應該是向 Azure Active Directory 註冊時針對函式或應用程式建立的應用程式識別碼。 指定時,向量化會使用搜尋服務的受控識別碼 (系統或使用者指派) 和函式或應用程式的存取權杖連線到函式或應用程式,並使用此值作為建立存取權杖範圍的資源識別碼。 |
| httpHeaders |
object |
提出 HTTP 要求所需的標頭。 |
| httpMethod |
string |
HTTP 要求的方法。 |
| timeout |
string (duration) |
要求所需的逾時。 預設值為 30 秒。 |
| uri |
string (uri) |
提供向量化器的 Web API 的 URI。 |
WebApiVectorizer
指定使用者定義的向量化器,以產生查詢字串的向量內嵌。 外部向量化器的整合是使用技能組的自訂 Web API 介面來達成。
| 名稱 | 類型 | Description |
|---|---|---|
| customWebApiParameters |
指定使用者定義向量化程式的屬性。 |
|
| kind |
string:
custom |
要設定為與向量搜尋搭配使用的向量化方法類型的名稱。 |
| name |
string |
要與此特定向量化方法相關聯的名稱。 |
WordDelimiterTokenFilter
將單字分割成子字,並對子單字群組執行可選的轉換。 此權杖篩選器是使用 Apache Lucene 實作的。
| 名稱 | 類型 | 預設值 | Description |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定權杖篩選類型的 URI 片段。 |
|
| catenateAll |
boolean |
False |
指出是否要串連所有子字部分的值。 例如,如果設定為 true,則 “Azure-Search-1” 會變成 “AzureSearch1”。 預設值為 false。 |
| catenateNumbers |
boolean |
False |
此值指出是否要串聯編號零件的最大執行次數。 例如,如果設定為 true,則 “1-2” 會變成 “12”。 預設值為 false。 |
| catenateWords |
boolean |
False |
指出是否要串聯的字組件執行次數上限的值。 例如,如果設定為 true,則 “Azure-Search” 會變成 “AzureSearch”。 預設值為 false。 |
| generateNumberParts |
boolean |
True |
指出是否產生數字子字的值。 預設值是「true」。 |
| generateWordParts |
boolean |
True |
指出是否要產生部分單字的值。 如果設定,則會產生部分單字;例如,“AzureSearch” 會變成 “Azure” “Search”。 預設值是「true」。 |
| name |
string |
權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 |
|
| preserveOriginal |
boolean |
False |
此值指出是否會保留原始單字並新增至子單字清單。 預設值為 false。 |
| protectedWords |
string[] |
要防止分隔的權杖清單。 |
|
| splitOnCaseChange |
boolean |
True |
指出是否要分割 caseChange 上的單字的值。 例如,如果設定為 true,則 “AzureSearch” 會變成 “Azure” “Search”。 預設值是「true」。 |
| splitOnNumerics |
boolean |
True |
指出是否要分割數字的值。 例如,如果將此設定為 true,則 “Azure1Search” 會變成 “Azure” “1” “Search”。 預設值是「true」。 |
| stemEnglishPossessive |
boolean |
True |
指出是否要移除每個子字的尾端 “'s” 的值。 預設值是「true」。 |