Indexes - Create Or Update
创建新的搜索索引或更新索引(如果已存在)。
PUT https:///indexes('{indexName}')?api-version=2025-11-01-preview
PUT https:///indexes('{indexName}')?api-version=2025-11-01-preview&allowIndexDowntime={allowIndexDowntime}
URI 参数
| 名称 | 在 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
index
|
path | True |
string |
索引的名称。 |
|
api-version
|
query | True |
string minLength: 1 |
要用于此操作的 API 版本。 |
|
allow
|
query |
boolean |
允许通过使索引脱机至少几秒钟,将新的分析器、分词器、令牌筛选器或字符筛选器添加到索引中。 这暂时会导致索引和查询请求失败。 索引的性能和写入可用性可能会在索引更新后几分钟内受到损害,或者对于非常大的索引,可能会受到更长时间的损害。 |
请求头
| 名称 | 必需 | 类型 | 说明 |
|---|---|---|---|
| Accept | True |
接受(Accept)首部。 |
|
| If-Match |
string |
定义 If-Match 条件。 仅当服务器上的 ETag 与此值匹配时,才会执行该作。 |
|
| If-None-Match |
string |
定义 If-None-Match 条件。 仅当服务器上的 ETag 与此值不匹配时,才会执行该作。 |
|
| Prefer | True |
对于 HTTP PUT 请求,指示服务在成功时返回创建/更新的资源。 |
|
| x-ms-client-request-id |
string (uuid) |
请求的不透明、全局唯一的客户端生成的字符串标识符。 |
请求正文
| 名称 | 必需 | 类型 | 说明 |
|---|---|---|---|
| fields | True |
索引的字段。 |
|
| name | True |
string |
索引的名称。 |
| @odata.etag |
string |
索引的 ETag。 |
|
| analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
|
| charFilters | CharFilter[]: |
索引的字符筛选器。 |
|
| corsOptions |
用于控制索引的跨域资源共享(CORS)的选项。 |
||
| defaultScoringProfile |
string |
如果在查询中未指定评分配置文件,则使用的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分(tf-idf)。 |
|
| description |
string |
索引的描述。 |
|
| encryptionKey |
描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。 |
||
| normalizers | LexicalNormalizer[]: |
索引的规范化器。 |
|
| permissionFilterOption |
指示是否为索引启用权限筛选的值。 |
||
| purviewEnabled |
boolean |
一个表示索引是否启用 Purview 的值。 |
|
| scoringProfiles |
索引的计分配置文件。 |
||
| semantic |
定义影响语义功能的搜索索引的参数。 |
||
| similarity | SimilarityAlgorithm: |
评分和排名与搜索查询匹配的文档时使用的相似性算法的类型。 相似性算法只能在索引创建时定义,不能在现有索引上修改。 如果为 null,则使用 ClassicSimilarity 算法。 |
|
| suggesters |
索引的建议器。 |
||
| tokenFilters |
TokenFilter[]:
|
标记筛选索引。 |
|
| tokenizers | LexicalTokenizer[]: |
索引的 tokenizer。 |
|
| vectorSearch |
包含与矢量搜索相关的配置选项。 |
响应
| 名称 | 类型 | 说明 |
|---|---|---|
| 200 OK |
请求已成功。 |
|
| 201 Created |
请求已成功,因此创建了一个新资源。 |
|
| Other Status Codes |
意外错误响应。 |
安全性
api-key
类型:
apiKey
在:
header
OAuth2Auth
类型:
oauth2
流向:
implicit
授权 URL:
https://login.microsoftonline.com/common/oauth2/v2.0/authorize
作用域
| 名称 | 说明 |
|---|---|
| https://search.azure.com/.default |
示例
SearchServiceCreateOrUpdateIndex
示例请求
PUT https:///indexes('temp-preview-test')?api-version=2025-11-01-preview&allowIndexDowntime=
{
"name": "temp-preview-test",
"description": "description",
"fields": [
{
"name": "id",
"type": "Edm.String",
"key": true,
"sortable": true
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 20,
"vectorSearchProfile": "config1"
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 5,
"vectorSearchProfile": "config3"
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 10,
"vectorSearchProfile": "config2"
},
{
"name": "vector4",
"type": "Collection(Edm.Single)",
"retrievable": true,
"searchable": true,
"dimensions": 32,
"vectorSearchProfile": "config4"
},
{
"name": "name",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "description",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "standard.lucene"
},
{
"name": "category",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "ownerId",
"type": "Edm.String",
"retrievable": true,
"searchable": true,
"filterable": true,
"sortable": true,
"facetable": true,
"analyzer": "en.lucene"
},
{
"name": "price",
"type": "Edm.Double",
"retrievable": true,
"filterable": true,
"sortable": true,
"facetable": true
},
{
"name": "permissionFilters",
"type": "Collection(Edm.String)",
"retrievable": true,
"filterable": true,
"sortable": false,
"facetable": true,
"permissionFilter": "userIds"
},
{
"name": "sensitivityLabels",
"type": "Collection(Edm.String)",
"retrievable": true,
"filterable": true,
"sortable": false,
"facetable": true,
"sensitivityLabel": true
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"tag": {
"tagsParameter": "categoryTag"
},
"type": "tag",
"fieldName": "category",
"boost": 2
}
]
}
],
"defaultScoringProfile": "stringFieldBoost",
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
],
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer"
}
],
"tokenizers": [
{
"maxTokenLength": 100,
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer"
}
],
"tokenFilters": [
{
"preserveOriginal": false,
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter"
}
],
"charFilters": [
{
"mappings": [
".=>,",
"_=>-"
],
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping"
}
],
"normalizers": [
{
"tokenFilters": [
"my_tokenFilter"
],
"charFilters": [
"my_mapping"
],
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "my_normalizer"
}
],
"similarity": {
"k1": 10,
"b": 0.1,
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
},
"rankingOrder": "BoostedRerankerScore",
"flightingOptIn": true
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
},
{
"name": "config4",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQWithoutOriginals"
}
],
"algorithms": [
{
"hnswParameters": {
"metric": "cosine"
},
"name": "cosine",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "euclidean"
},
"name": "euclidean",
"kind": "hnsw"
},
{
"hnswParameters": {
"metric": "dotProduct"
},
"name": "dotProduct",
"kind": "hnsw"
}
],
"vectorizers": [
{
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com/",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
},
"name": "openai",
"kind": "azureOpenAI"
},
{
"customWebApiParameters": {
"uri": "https://my-custom-endpoint.org/",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"httpMethod": "POST",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
},
"name": "custom-web-api",
"kind": "customWebApi"
},
{
"amlParameters": {
"uri": "https://my-custom-endpoint.org/",
"resourceId": "aml resource id",
"timeout": "PT1M",
"region": "aml region",
"modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
},
"name": "aml",
"kind": "aml"
},
{
"amlParameters": {
"uri": "https://my-custom-endpoint.org/",
"resourceId": "aml resource id",
"timeout": "PT1M",
"region": "aml region",
"modelName": "Cohere-embed-v4"
},
"name": "aml-cohere",
"kind": "aml"
}
],
"compressions": [
{
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"name": "mySQ8",
"kind": "scalarQuantization",
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
},
"truncationDimension": 2
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
},
"truncationDimension": 2
},
{
"name": "myBQWithoutOriginals",
"kind": "binaryQuantization",
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "discardOriginals"
},
"truncationDimension": 2
}
]
},
"permissionFilterOption": "enabled",
"purviewEnabled": true,
"@odata.etag": "0x1234568AE7E58A1"
}
示例响应
{
"name": "temp-preview-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"permissionFilterOption": "enabled",
"purviewEnabled": true,
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector4",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 32,
"vectorSearchProfile": "config4",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "price",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"synonymMaps": []
},
{
"name": "permissionFilters",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": true,
"key": false,
"permissionFilter": "userIds",
"synonymMaps": []
},
{
"name": "sensitivityLabels",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": true,
"key": false,
"sensitivityLabel": true,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "my_normalizer",
"tokenFilters": [
"my_tokenFilter"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"flightingOptIn": true,
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
},
{
"name": "config4",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQWithoutOriginals"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
},
{
"name": "aml",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
}
},
{
"name": "aml-cohere",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "Cohere-embed-v4"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQWithoutOriginals",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "discardOriginals"
}
}
]
}
}
{
"name": "temp-preview-test",
"description": "description",
"defaultScoringProfile": "stringFieldBoost",
"permissionFilterOption": "enabled",
"purviewEnabled": true,
"fields": [
{
"name": "id",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": true,
"synonymMaps": []
},
{
"name": "vector1",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 20,
"vectorSearchProfile": "config1",
"synonymMaps": []
},
{
"name": "vector1b",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector2",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector3",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 5,
"vectorSearchProfile": "config3",
"synonymMaps": []
},
{
"name": "vector22",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 10,
"vectorSearchProfile": "config2",
"synonymMaps": []
},
{
"name": "vector4",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": false,
"key": false,
"dimensions": 32,
"vectorSearchProfile": "config4",
"synonymMaps": []
},
{
"name": "name",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "standard.lucene",
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "ownerId",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"analyzer": "en.lucene",
"synonymMaps": []
},
{
"name": "price",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": true,
"facetable": true,
"key": false,
"synonymMaps": []
},
{
"name": "permissionFilters",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": true,
"key": false,
"permissionFilter": "userIds",
"synonymMaps": []
},
{
"name": "sensitivityLabels",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"stored": true,
"sortable": false,
"facetable": true,
"key": false,
"sensitivityLabel": true,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "stringFieldBoost",
"functionAggregation": "sum",
"text": {
"weights": {
"name": 3,
"description": 1,
"category": 2,
"ownerId": 1
}
},
"functions": [
{
"fieldName": "category",
"interpolation": "linear",
"type": "tag",
"boost": 2,
"tag": {
"tagsParameter": "categoryTag"
}
}
]
}
],
"corsOptions": {
"allowedOrigins": [
"https://www.example.com/foo"
],
"maxAgeInSeconds": 10
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"category",
"ownerId"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [
"common_grams"
],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
"name": "my_normalizer",
"tokenFilters": [
"my_tokenFilter"
],
"charFilters": [
"my_mapping"
]
}
],
"tokenizers": [
{
"@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
"name": "my_tokenizer",
"maxTokenLength": 100
}
],
"tokenFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
"name": "my_tokenFilter",
"preserveOriginal": false
}
],
"charFilters": [
{
"@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
"name": "my_mapping",
"mappings": [
".=>,",
"_=>-"
]
}
],
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": 10,
"b": 0.1
},
"semantic": {
"defaultConfiguration": "testconfig",
"configurations": [
{
"name": "testconfig",
"flightingOptIn": true,
"rankingOrder": "BoostedRerankerScore",
"prioritizedFields": {
"titleField": {
"fieldName": "category"
},
"prioritizedContentFields": [
{
"fieldName": "description"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "ownerId"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "cosine",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "euclidean",
"kind": "hnsw",
"hnswParameters": {
"metric": "euclidean",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "dotProduct",
"kind": "hnsw",
"hnswParameters": {
"metric": "dotProduct",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
}
],
"profiles": [
{
"name": "config1",
"algorithm": "cosine",
"vectorizer": "openai",
"compression": "mySQ8"
},
{
"name": "config2",
"algorithm": "euclidean",
"vectorizer": "custom-web-api",
"compression": "mySQ8"
},
{
"name": "config3",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQC"
},
{
"name": "config4",
"algorithm": "dotProduct",
"vectorizer": "custom-web-api",
"compression": "myBQWithoutOriginals"
}
],
"vectorizers": [
{
"name": "openai",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://test-sample.openai.azure.com",
"deploymentId": "model",
"apiKey": "api-key",
"modelName": "text-embedding-3-large"
}
},
{
"name": "custom-web-api",
"kind": "customWebApi",
"customWebApiParameters": {
"httpMethod": "POST",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
"httpHeaders": {
"header1": "value1",
"header2": "value2"
},
"authIdentity": {
"@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
}
}
},
{
"name": "aml",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
}
},
{
"name": "aml-cohere",
"kind": "aml",
"amlParameters": {
"resourceId": "aml resource id",
"region": "aml region",
"uri": "https://my-custom-endpoint.org/",
"timeout": "PT1M",
"modelName": "Cohere-embed-v4"
}
}
],
"compressions": [
{
"name": "mySQ8",
"kind": "scalarQuantization",
"truncationDimension": 2,
"scalarQuantizationParameters": {
"quantizedDataType": "int8"
},
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQC",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "preserveOriginals"
}
},
{
"name": "myBQWithoutOriginals",
"kind": "binaryQuantization",
"truncationDimension": 2,
"rescoringOptions": {
"enableRescoring": true,
"defaultOversampling": 10,
"rescoreStorageMethod": "discardOriginals"
}
}
]
}
}
定义
| 名称 | 说明 |
|---|---|
| Accept |
接受(Accept)首部。 |
|
AIFoundry |
将调用的 Azure AI Foundry 目录中的嵌入模型的名称。 |
|
AIServices |
指定用于向量查询图像或文本的 AI Services 视觉参数。 |
|
AIServices |
清除数据源的标识属性。 |
| AMLParameters |
指定连接到 AML 向量器的属性。 |
| AMLVectorizer |
指定通过 Azure AI Foundry 模型目录部署的 Azure 机器学习终结点,用于生成查询字符串的矢量嵌入。 |
|
Ascii |
如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Azure |
将调用的 Azure Open AI 模型名称。 |
|
Azure |
指定用于矢量化查询字符串的 Azure OpenAI 资源。 |
|
Azure |
指定用于连接到 Azure OpenAI 资源的参数。 |
|
Binary |
包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。 |
|
BM25Similarity |
基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF-IDF 的算法,包括长度规范化(由“b”参数控制)以及术语频率饱和(由“k1”参数控制)。 |
|
Char |
定义搜索引擎支持的所有字符过滤器的名称。 |
|
Cjk |
形成从标准标记器生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Cjk |
CjkBigramTokenFilter 可以忽略的脚本。 |
|
Classic |
使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的旧相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。 |
|
Classic |
适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Common |
为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Cors |
定义用于控制索引的跨域资源共享(CORS)的选项。 |
|
Custom |
允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。 |
|
Custom |
允许为可筛选、可排序和可分面字段配置规范化,默认情况下,这些字段使用严格的匹配操作。 这是一个用户定义的配置,由至少一个或多个筛选器组成,用于修改存储的令牌。 |
|
Dictionary |
分解许多德语语言中发现的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Distance |
定义基于地理位置距离提升分数的函数。 |
|
Distance |
向距离评分函数提供参数值。 |
|
Edge |
从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Edge |
指定应从输入的哪一侧生成 n-gram。 |
|
Edge |
从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Edge |
将输入从边缘标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Elision |
删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Error |
资源管理错误附加信息。 |
|
Error |
错误详细信息。 |
|
Error |
所有 Azure 资源管理器 API 的常见错误响应,以返回失败操作的错误详细信息。 (这也遵循 OData 错误响应格式)。 |
|
Exhaustive |
包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个矢量索引中执行暴力搜索。 |
|
Exhaustive |
包含特定于详尽 KNN 算法的参数。 |
|
Freshness |
定义一个函数,该函数根据日期时间字段的值提升分数。 |
|
Freshness |
为新鲜度评分函数提供参数值。 |
|
Hnsw |
包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。 |
|
Hnsw |
包含特定于 HNSW 算法的参数。 |
|
Keep |
一个标记筛选器,它只保留包含指定字词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Keyword |
将术语标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Keyword |
以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Keyword |
以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Length |
删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Lexical |
定义搜索引擎支持的所有文本分析器的名称。 |
|
Lexical |
定义搜索引擎支持的所有文本规范化器的名称。 |
|
Lexical |
定义搜索引擎支持的所有分词器的名称。 |
|
Limit |
在编制索引时限制令牌数。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Lucene |
标准 Apache Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。 |
|
Lucene |
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Lucene |
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Magnitude |
定义一个函数,该函数根据数值字段的大小提升分数。 |
|
Magnitude |
向数量级评分函数提供参数值。 |
|
Mapping |
一个字符筛选器,它应用使用映射选项定义的映射。 匹配是贪婪(给定点获胜时最长的模式匹配)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。 |
|
Microsoft |
使用特定于语言的规则划分文本,并将单词减少到其基形式。 |
|
Microsoft |
使用特定于语言的规则划分文本。 |
|
Microsoft |
列出 Microsoft 语言词干提取器支持的语言。 |
|
Microsoft |
列出 Microsoft 语言分词器支持的语言。 |
|
NGram |
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
NGram |
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
NGram |
将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Path |
类似路径层次结构的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Pattern |
灵活将文本通过正则表达式模式分隔为字词。 此分析器是使用 Apache Lucene 实现的。 |
|
Pattern |
使用 Java 正则表达式发出多个令牌 - 一个标记用于一个或多个模式中的每个捕获组。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Pattern |
替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。 |
|
Pattern |
替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Pattern |
使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Permission |
指示是否应将该字段用作权限筛选器的值。 |
|
Phonetic |
标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。 |
|
Phonetic |
为拼音匹配创建令牌。 此令牌筛选器是使用 Apache Lucene 实现的。 |
| Prefer |
对于 HTTP PUT 请求,指示服务在成功时返回创建/更新的资源。 |
|
Ranking |
表示用于文档排序顺序的分数。 |
|
Rescoring |
包含用于重新记录的选项。 |
|
Scalar |
包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。 |
|
Scalar |
包含特定于标量量化的参数。 |
|
Scoring |
定义用于组合评分配置文件中所有评分函数的结果的聚合函数。 |
|
Scoring |
定义用于在一系列文档中插值分数提升的函数。 |
|
Scoring |
定义影响搜索查询中评分的搜索索引的参数。 |
|
Search |
表示索引定义中的字段,该定义描述字段的名称、数据类型和搜索行为。 |
|
Search |
定义搜索索引中字段的数据类型。 |
|
Search |
表示搜索索引定义,该定义描述索引的字段和搜索行为。 |
|
Search |
清除数据源的标识属性。 |
|
Search |
指定要使用的数据源的标识。 |
|
Search |
指示是否为索引启用权限筛选的值。 |
|
Search |
Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。 |
|
Search |
定义建议 API 应如何应用于索引中的一组字段。 |
|
Semantic |
定义要在语义功能的上下文中使用的特定配置。 |
|
Semantic |
用作语义配置的一部分的字段。 |
|
Semantic |
描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 |
|
Semantic |
定义影响语义功能的搜索索引的参数。 |
|
Shingle |
将令牌的组合创建为单个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Snowball |
使用 Snowball 生成的词干分析器词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Snowball |
用于 Snowball 令牌筛选器的语言。 |
|
Stemmer |
提供使用基于自定义字典的词干分析替代其他词干筛选器的功能。 任何字典词干术语都将标记为关键字,以便它们不会在链中以词干分析器进行词干。 必须放置在任何词干筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/StemmerOverrideFilter.html |
|
Stemmer |
特定于语言的词干筛选。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters |
|
Stemmer |
用于词干分析器标记筛选器的语言。 |
|
Stop |
以非字母分隔文本;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。 |
|
Stopwords |
标识特定于语言的停用词的预定义列表。 |
|
Stopwords |
从令牌流中删除停止字词。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html |
|
Synonym |
匹配令牌流中的单个或多单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Tag |
定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档的分数。 |
|
Tag |
向标记评分函数提供参数值。 |
|
Text |
定义匹配项应在搜索查询中提升评分的索引字段的权重。 |
|
Token |
表示令牌筛选器可以作的字符类。 |
|
Token |
定义搜索引擎支持的所有令牌过滤器的名称。 |
|
Truncate |
将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Uax |
将 URL 和电子邮件作为一个令牌进行标记化。 此 tokenizer 是使用 Apache Lucene 实现的。 |
|
Unique |
筛选出与上一个标记相同的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。 |
|
Vector |
用于解释向量字段内容的编码格式。 |
|
Vector |
包含与矢量搜索相关的配置选项。 |
|
Vector |
用于索引和查询的算法。 |
|
Vector |
用于向量比较的相似度指标。 建议选择与训练嵌入模型相同的相似性指标。 |
|
Vector |
用于索引和查询的压缩方法。 |
|
Vector |
压缩向量值的量化数据类型。 |
|
Vector |
定义要与矢量搜索一起使用的配置的组合。 |
|
Vector |
查询时要使用的矢量化方法。 |
|
Web |
指定用于生成查询字符串嵌入的矢量的用户定义的向量器。 使用技能集的自定义 Web API 接口实现外部向量器的集成。 |
|
Web |
指定用于连接到用户定义的向量器的属性。 |
|
Word |
将单词拆分为子词,对子词组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Accept
接受(Accept)首部。
| 值 | 说明 |
|---|---|
| application/json;odata.metadata=minimal |
AIFoundryModelCatalogName
将调用的 Azure AI Foundry 目录中的嵌入模型的名称。
| 值 | 说明 |
|---|---|
| OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32 |
OpenAI-CLIP-图像-文本-嵌入-vit-base-patch32 |
| OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336 |
OpenAI-CLIP-图像-文本-嵌入-ViT-大-补丁14-336 |
| Facebook-DinoV2-Image-Embeddings-ViT-Base |
Facebook-DinoV2-Image-Embeddings-ViT-Base |
| Facebook-DinoV2-Image-Embeddings-ViT-Giant |
Facebook-DinoV2-Image-Embeddings-ViT-Giant |
| Cohere-embed-v3-english |
Cohere-embed-v3-english |
| Cohere-embed-v3-multilingual |
Cohere-embed-v3-multilingual |
| Cohere-embed-v4 |
Cohere embed v4 模型,用于从文本和图像生成嵌入。 |
AIServicesVisionParameters
指定用于向量查询图像或文本的 AI Services 视觉参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| apiKey |
string |
指定 AI 服务资源的 API 密钥。 |
| authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 如果未指定 authResourceId,则使用系统分配的托管标识。 在更新索引时,如果未指定标识,则该值保持不变。 如果设置为“none”,则清除此属性的值。 |
| modelVersion |
string |
调用 AI 服务视觉服务时要使用的模型版本。 如果未指定,它将默认为最新可用。 |
| resourceUri |
string (uri) |
AI 服务资源的资源 URI。 |
AIServicesVisionVectorizer
清除数据源的标识属性。
| 名称 | 类型 | 说明 |
|---|---|---|
| aiServicesVisionParameters |
包含特定于 AI 服务视觉嵌入矢量化的参数。 |
|
| kind |
string:
ai |
VectorSearchVectorizer 的类型。 |
| name |
string |
要与此特定向量化方法关联的名称。 |
AMLParameters
指定连接到 AML 向量器的属性。
| 名称 | 类型 | 说明 |
|---|---|---|
| key |
string |
(密钥身份验证必需)AML 服务的密钥。 |
| modelName |
部署在提供的终结点的 Azure AI Foundry 目录中的嵌入模型的名称。 |
|
| region |
string |
(可选)用于令牌身份验证。 AML 服务部署到的区域。 |
| resourceId |
string |
(令牌身份验证所必需的)。 AML 服务的 Azure 资源管理器资源 ID。 它的格式应为 subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}。 |
| timeout |
string (duration) |
(可选)如果指定,表明执行 API 调用的 http 客户端的超时值。 |
| uri |
string (uri) |
(无需身份验证或密钥身份验证)要向其发送 JSON 有效负载的 AML 服务的评分 URI。 仅允许 https URI 方案。 |
AMLVectorizer
指定通过 Azure AI Foundry 模型目录部署的 Azure 机器学习终结点,用于生成查询字符串的矢量嵌入。
| 名称 | 类型 | 说明 |
|---|---|---|
| amlParameters |
指定 AML 向量器的属性。 |
|
| kind |
string:
aml |
VectorSearchVectorizer 的类型。 |
| name |
string |
要与此特定向量化方法关联的名称。 |
AsciiFoldingTokenFilter
如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| preserveOriginal |
boolean |
False |
一个值,该值指示是否保留原始令牌。 默认值为 false。 |
AzureOpenAIModelName
将调用的 Azure Open AI 模型名称。
| 值 | 说明 |
|---|---|
| text-embedding-ada-002 |
TextEmbeddingAda002 模型。 |
| text-embedding-3-large |
TextEmbedding3大型模型。 |
| text-embedding-3-small |
TextEmbedding3小型模型。 |
| gpt-4o |
GPT4o模型。 |
| gpt-4o-mini |
GPT4oMini型号。 |
| gpt-4.1 |
GPT41型号。 |
| gpt-4.1-mini |
GPT41Mini型号。 |
| gpt-4.1-nano |
Gpt41Nano模型。 |
| gpt-5 |
GPT5型号。 |
| gpt-5-mini |
Gpt5Mini型号。 |
| gpt-5-nano |
Gpt5Nano模型。 |
AzureOpenAIVectorizer
指定用于矢量化查询字符串的 Azure OpenAI 资源。
| 名称 | 类型 | 说明 |
|---|---|---|
| azureOpenAIParameters |
包含特定于 Azure OpenAI 嵌入矢量化的参数。 |
|
| kind |
string:
azure |
VectorSearchVectorizer 的类型。 |
| name |
string |
要与此特定向量化方法关联的名称。 |
AzureOpenAIVectorizerParameters
指定用于连接到 Azure OpenAI 资源的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| apiKey |
string |
指定的 Azure OpenAI 资源的 API 密钥。 |
| authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 |
| deploymentId |
string |
指定资源上的 Azure OpenAI 模型部署的 ID。 |
| modelName |
在提供的 deploymentId 路径中部署的嵌入模型的名称。 |
|
| resourceUri |
string (uri) |
Azure OpenAI 资源的资源 URI。 |
BinaryQuantizationCompression
包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。
| 名称 | 类型 | 说明 |
|---|---|---|
| kind |
string:
binary |
向量搜索压缩的类型。 |
| name |
string |
要与此特定配置关联的名称。 |
| rescoringOptions |
包含用于重新记录的选项。 |
|
| truncationDimension |
integer (int32) |
要截断向量到的维度数。 截断向量可减少向量的大小,以及搜索期间需要传输的数据量。 这可以节省存储成本,并降低搜索性能,以牺牲召回率。 它只应用于使用 Matryoshka 表示法学习(MRL)训练的嵌入,例如 OpenAI 文本嵌入-3-large(小型)。 默认值为 null,表示不截断。 |
BM25SimilarityAlgorithm
基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF-IDF 的算法,包括长度规范化(由“b”参数控制)以及术语频率饱和(由“k1”参数控制)。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| b |
number (double) |
此属性控制文档长度如何影响相关性分数。 默认情况下,使用值 0.75。 值 0.0 表示不应用长度规范化,而值 1.0 表示分数按文档长度完全规范化。 |
| k1 |
number (double) |
此属性控制每个匹配术语的术语频率与文档查询对的最终相关性分数之间的缩放函数。 默认情况下,使用值 1.2。 值 0.0 表示分数不会随着术语频率的增加而缩放。 |
CharFilterName
定义搜索引擎支持的所有字符过滤器的名称。
| 值 | 说明 |
|---|---|
| html_strip |
尝试剥离 HTML 构造的字符过滤器。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
形成从标准标记器生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| ignoreScripts |
要忽略的脚本。 |
||
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| outputUnigrams |
boolean |
False |
一个值,该值指示是输出 unigram 和 bigrams(如果为 true),还是只输出 bigrams(如果为 false)。 默认值为 false。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter 可以忽略的脚本。
| 值 | 说明 |
|---|---|
| han |
在形成中日韩术语的二元组时忽略汉文字。 |
| hiragana |
在形成 CJK 术语的二元组时忽略平假名脚本。 |
| katakana |
在形成 CJK 术语的二元组时忽略片假名脚本。 |
| hangul |
在形成 CJK 术语的二元组时忽略韩文脚本。 |
ClassicSimilarityAlgorithm
使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的旧相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
ClassicTokenizer
适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
CommonGramTokenFilter
为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| commonWords |
string[] |
常用单词集。 |
|
| ignoreCase |
boolean |
False |
一个值,该值指示常见字词匹配是否不区分大小写。 默认值为 false。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| queryMode |
boolean |
False |
一个值,该值指示令牌筛选器是否处于查询模式。 在查询模式下,令牌筛选器会生成 bigrams,然后删除常用字词和单个字词,后跟一个常用词。 默认值为 false。 |
CorsOptions
定义用于控制索引的跨域资源共享(CORS)的选项。
| 名称 | 类型 | 说明 |
|---|---|---|
| allowedOrigins |
string[] |
JavaScript 代码将被授予对索引访问权限的来源列表。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式的主机列表,或单个“*”以允许所有源(不推荐)。 |
| maxAgeInSeconds |
integer (int64) |
浏览器应缓存 CORS 预检响应的持续时间。 默认为 5 分钟。 |
CustomAnalyzer
允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| charFilters |
用于在分词器处理输入文本之前准备输入文本的字符过滤器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出的顺序运行。 |
|
| name |
string |
分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| tokenFilters |
用于过滤掉或修改分词器生成的令牌的令牌过滤器列表。 例如,您可以指定一个小写过滤器,将所有字符转换为小写。 筛选器按列出的顺序运行。 |
|
| tokenizer |
用于将连续文本划分为一系列标记的标记器的名称,例如将句子分解为单词。 |
CustomNormalizer
允许为可筛选、可排序和可分面字段配置规范化,默认情况下,这些字段使用严格的匹配操作。 这是一个用户定义的配置,由至少一个或多个筛选器组成,用于修改存储的令牌。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| charFilters |
用于在处理输入文本之前准备输入文本的字符过滤器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出的顺序运行。 |
|
| name |
string |
字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| tokenFilters |
用于过滤或修改输入令牌的令牌筛选器列表。 例如,您可以指定一个小写过滤器,将所有字符转换为小写。 筛选器按列出的顺序运行。 |
DictionaryDecompounderTokenFilter
分解许多德语语言中发现的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxSubwordSize |
integer (int32) maximum: 300 |
15 |
最大子字大小。 仅输出比此短的子词。 默认值为 15。 最大值为 300。 |
| minSubwordSize |
integer (int32) maximum: 300 |
2 |
最小子字大小。 输出的子词长度仅超过此长度。 默认值为 2。 最大值为 300。 |
| minWordSize |
integer (int32) maximum: 300 |
5 |
最小字大小。 仅处理超过此长度的单词。 默认值为 5。 最大值为 300。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| onlyLongestMatch |
boolean |
False |
一个值,该值指示是否仅向输出添加最长匹配的子词。 默认值为 false。 |
| wordList |
string[] |
要与之匹配的字词列表。 |
DistanceScoringFunction
定义基于地理位置距离提升分数的函数。
| 名称 | 类型 | 说明 |
|---|---|---|
| boost |
number (double) |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
| distance |
距离评分函数的参数值。 |
|
| fieldName |
string |
用作评分函数输入的字段的名称。 |
| interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。 |
|
| type |
string:
distance |
评分函数类型。 |
DistanceScoringParameters
向距离评分函数提供参数值。
| 名称 | 类型 | 说明 |
|---|---|---|
| boostingDistance |
number (double) |
距提升范围结束的参考位置的距离(以公里为单位)。 |
| referencePointParameter |
string |
在搜索查询中传递的用于指定引用位置的参数的名称。 |
EdgeNGramTokenFilter
从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxGram |
integer (int32) |
2 |
最大 n 元语法长度。 默认值为 2。 |
| minGram |
integer (int32) |
1 |
最小 n 元语法长度。 默认为 1。 必须小于 maxGram 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| side | front |
指定应从输入的哪一侧生成 n-gram。 默认值为“front”。 |
EdgeNGramTokenFilterSide
指定应从输入的哪一侧生成 n-gram。
| 值 | 说明 |
|---|---|
| front |
指定应从输入的前面生成 n-gram。 |
| back |
指定应从输入的背面生成 n-gram。 |
EdgeNGramTokenFilterV2
从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n 元语法长度。 默认为 1。 最大值为 300。 必须小于 maxGram 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| side | front |
指定应从输入的哪一侧生成 n-gram。 默认值为“front”。 |
EdgeNGramTokenizer
将输入从边缘标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n 元语法长度。 默认为 1。 最大值为 300。 必须小于 maxGram 的值。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| tokenChars |
要保留在令牌中的字符类。 |
ElisionTokenFilter
删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| articles |
string[] |
要删除的项目集。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
ErrorAdditionalInfo
资源管理错误附加信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| info |
附加信息。 |
|
| type |
string |
附加信息类型。 |
ErrorDetail
错误详细信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| additionalInfo |
错误附加信息。 |
|
| code |
string |
错误代码。 |
| details |
错误详细信息。 |
|
| message |
string |
错误消息。 |
| target |
string |
错误目标。 |
ErrorResponse
所有 Azure 资源管理器 API 的常见错误响应,以返回失败操作的错误详细信息。 (这也遵循 OData 错误响应格式)。
| 名称 | 类型 | 说明 |
|---|---|---|
| error |
错误对象。 |
ExhaustiveKnnAlgorithmConfiguration
包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个矢量索引中执行暴力搜索。
| 名称 | 类型 | 说明 |
|---|---|---|
| exhaustiveKnnParameters |
包含特定于详尽 KNN 算法的参数。 |
|
| kind |
string:
exhaustive |
向量搜索算法配置类型。 |
| name |
string |
要与此特定配置关联的名称。 |
ExhaustiveKnnParameters
包含特定于详尽 KNN 算法的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| metric |
用于向量比较的相似度指标。 |
FreshnessScoringFunction
定义一个函数,该函数根据日期时间字段的值提升分数。
| 名称 | 类型 | 说明 |
|---|---|---|
| boost |
number (double) |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
| fieldName |
string |
用作评分函数输入的字段的名称。 |
| freshness |
新鲜度评分函数的参数值。 |
|
| interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。 |
|
| type |
string:
freshness |
评分函数类型。 |
FreshnessScoringParameters
为新鲜度评分函数提供参数值。
| 名称 | 类型 | 说明 |
|---|---|---|
| boostingDuration |
string (duration) |
特定文档的加速将停止的到期期限。 |
HnswAlgorithmConfiguration
包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。
| 名称 | 类型 | 说明 |
|---|---|---|
| hnswParameters |
包含特定于 HNSW 算法的参数。 |
|
| kind |
string:
hnsw |
向量搜索算法配置类型。 |
| name |
string |
要与此特定配置关联的名称。 |
HnswParameters
包含特定于 HNSW 算法的参数。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| efConstruction |
integer (int32) minimum: 100maximum: 1000 |
400 |
包含最近邻的动态列表的大小,在索引时使用。 增加此参数可能会提高索引质量,但代价是索引时间增加。 在某个时候,增加该参数会导致收益递减。 |
| efSearch |
integer (int32) minimum: 100maximum: 1000 |
500 |
包含最近邻的动态列表的大小,在搜索时使用。 增加此参数可能会改善搜索结果,但代价是搜索速度变慢。 在某个时候,增加该参数会导致收益递减。 |
| m |
integer (int32) minimum: 4maximum: 10 |
4 |
在构造期间为每个新元素创建的双向链接数。 增加此参数值可能会提高召回率并减少具有高内在维数的数据集的检索时间,但代价是内存消耗增加和索引时间延长。 |
| metric |
用于向量比较的相似度指标。 |
KeepTokenFilter
一个标记筛选器,它只保留包含指定字词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| keepWords |
string[] |
要保留的字词列表。 |
|
| keepWordsCase |
boolean |
False |
一个值,指示是否先小写所有单词。 默认值为 false。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordMarkerTokenFilter
将术语标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| ignoreCase |
boolean |
False |
一个值,指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。 |
| keywords |
string[] |
要标记为关键字的字词列表。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordTokenizer
以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| bufferSize |
integer (int32) |
256 |
读取缓冲区大小(以字节为单位)。 默认值为 256。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
KeywordTokenizerV2
以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
256 |
最大令牌长度。 默认值为 256。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LengthTokenFilter
删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| max |
integer (int32) maximum: 300 |
300 |
最大长度(以字符为单位)。 默认值和最大值为 300。 |
| min |
integer (int32) maximum: 300 |
0 |
字符的最小长度。 默认为 0。 最大值为 300。 必须小于最大值的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LexicalAnalyzerName
定义搜索引擎支持的所有文本分析器的名称。
| 值 | 说明 |
|---|---|
| ar.microsoft |
Microsoft 阿拉伯语分析器。 |
| ar.lucene |
阿拉伯语 Lucene 分析仪。 |
| hy.lucene |
亚美尼亚语的 Lucene 分析仪。 |
| bn.microsoft |
适用于孟加拉语的 Microsoft 分析器。 |
| eu.lucene |
用于巴斯克语的 Lucene 分析仪。 |
| bg.microsoft |
保加利亚语的 Microsoft 分析器。 |
| bg.lucene |
保加利亚语的 Lucene 分析仪。 |
| ca.microsoft |
适用于加泰罗尼亚语的 Microsoft 分析器。 |
| ca.lucene |
用于加泰罗尼亚语的 Lucene 分析仪。 |
| zh-Hans.microsoft |
Microsoft 中文分析器(简体)。 |
| zh-Hans.lucene |
Lucene 中文分析仪(简体)。 |
| zh-Hant.microsoft |
Microsoft 中文分析器(繁体)。 |
| zh-Hant.lucene |
Lucene 中文分析仪(繁体)。 |
| hr.microsoft |
克罗地亚语的 Microsoft 分析器。 |
| cs.microsoft |
捷克语的 Microsoft 分析器。 |
| cs.lucene |
捷克的 Lucene 分析仪。 |
| da.microsoft |
丹麦语的 Microsoft 分析器。 |
| da.lucene |
丹麦语 Lucene 分析仪。 |
| nl.microsoft |
适用于荷兰语的 Microsoft 分析器。 |
| nl.lucene |
荷兰语的 Lucene 分析仪。 |
| en.microsoft |
Microsoft Analyzer for English。 |
| en.lucene |
Lucene 分析仪,用于英语。 |
| et.microsoft |
爱沙尼亚语的 Microsoft 分析器。 |
| fi.microsoft |
芬兰语的 Microsoft 分析器。 |
| fi.lucene |
芬兰语的 Lucene 分析仪。 |
| fr.microsoft |
法语的 Microsoft 分析器。 |
| fr.lucene |
法语 Lucene 分析仪。 |
| gl.lucene |
用于加利西亚语的 Lucene 分析仪。 |
| de.microsoft |
德语的 Microsoft 分析器。 |
| de.lucene |
德语 Lucene 分析仪。 |
| el.microsoft |
希腊语的 Microsoft 分析器。 |
| el.lucene |
希腊语 Lucene 分析仪。 |
| gu.microsoft |
古吉拉特语的 Microsoft 分析器。 |
| he.microsoft |
希伯来语的 Microsoft 分析器。 |
| hi.microsoft |
印地语的 Microsoft 分析器。 |
| hi.lucene |
印地语 Lucene 分析仪。 |
| hu.microsoft |
匈牙利语的 Microsoft 分析器。 |
| hu.lucene |
匈牙利语的 Lucene 分析仪。 |
| is.microsoft |
冰岛语的 Microsoft 分析器。 |
| id.microsoft |
Microsoft 印度尼西亚语分析器 (印尼语)。 |
| id.lucene |
印度尼西亚语的 Lucene 分析仪。 |
| ga.lucene |
爱尔兰语 Lucene 分析仪。 |
| it.microsoft |
意大利语的 Microsoft 分析器。 |
| it.lucene |
意大利语 Lucene 分析仪。 |
| ja.microsoft |
日语的 Microsoft 分析器。 |
| ja.lucene |
日语 Lucene 分析仪。 |
| kn.microsoft |
适用于卡纳达语的 Microsoft 分析器。 |
| ko.microsoft |
韩语的 Microsoft 分析器。 |
| ko.lucene |
韩语Lucene分析仪。 |
| lv.microsoft |
Microsoft Analyzer for Latvian。 |
| lv.lucene |
拉脱维亚的 Lucene 分析仪。 |
| lt.microsoft |
立陶宛语的 Microsoft 分析器。 |
| ml.microsoft |
适用于马拉雅拉姆语的 Microsoft 分析器。 |
| ms.microsoft |
Microsoft 马来语分析器(拉丁语)。 |
| mr.microsoft |
Microsoft 马拉地语分析器。 |
| nb.microsoft |
Microsoft analyzer for Norwegian (Bokmål). |
| no.lucene |
挪威的 Lucene 分析仪。 |
| fa.lucene |
用于波斯语的 Lucene 分析仪。 |
| pl.microsoft |
适用于波兰语的 Microsoft 分析器。 |
| pl.lucene |
用于波兰语的 Lucene 分析仪。 |
| pt-BR.microsoft |
葡萄牙语(巴西)的 Microsoft 分析器。 |
| pt-BR.lucene |
葡萄牙语(巴西)的 Lucene 分析仪。 |
| pt-PT.microsoft |
Microsoft Analyzer for Portuguese (葡萄牙) 。 |
| pt-PT.lucene |
葡萄牙语(葡萄牙)的 Lucene 分析仪。 |
| pa.microsoft |
旁遮普语的 Microsoft 分析器。 |
| ro.microsoft |
罗马尼亚语的 Microsoft 分析器。 |
| ro.lucene |
罗马尼亚语的 Lucene 分析仪。 |
| ru.microsoft |
俄语的 Microsoft 分析器。 |
| ru.lucene |
俄语 Lucene 分析仪。 |
| sr-cyrillic.microsoft |
塞尔维亚语(西里尔文)的 Microsoft 分析器。 |
| sr-latin.microsoft |
Microsoft 塞尔维亚语分析器(拉丁语)。 |
| sk.microsoft |
Microsoft Analyzer for Slovak。 |
| sl.microsoft |
Microsoft 分析器 for Slovenian。 |
| es.microsoft |
西班牙语的 Microsoft 分析器。 |
| es.lucene |
西班牙语的 Lucene 分析仪。 |
| sv.microsoft |
瑞典语的 Microsoft 分析器。 |
| sv.lucene |
瑞典语 Lucene 分析仪。 |
| ta.microsoft |
泰米尔语的 Microsoft 分析器。 |
| te.microsoft |
泰卢固语的 Microsoft 分析器。 |
| th.microsoft |
适用于泰语的 Microsoft 分析器。 |
| th.lucene |
泰式 Lucene 分析仪。 |
| tr.microsoft |
土耳其语的 Microsoft 分析器。 |
| tr.lucene |
土耳其语 Lucene 分析仪。 |
| uk.microsoft |
乌克兰语的 Microsoft 分析器。 |
| ur.microsoft |
乌尔都语的 Microsoft 分析器。 |
| vi.microsoft |
Microsoft 越南语分析器。 |
| standard.lucene |
标准 Lucene 分析仪。 |
| standardasciifolding.lucene |
标准 ASCII 折叠 Lucene 分析仪。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
| keyword |
将字段的全部内容视为单个标记。 这对于邮政编码、ID 和某些产品名称等数据非常有用。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
| pattern |
灵活将文本通过正则表达式模式分隔为字词。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
| simple |
将非字母的文本除以小写形式,并将其转换为小写。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
| stop |
以非字母分隔文本;应用小写和非索引字标记筛选器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
| whitespace |
使用空格 tokenizer 的分析器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
LexicalNormalizerName
定义搜索引擎支持的所有文本规范化器的名称。
| 值 | 说明 |
|---|---|
| asciifolding |
如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
| elision |
删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
| lowercase |
将标记文本规范化为小写。 请参阅 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
| standard |
标准归一化器,由小写和 asciifolding 组成。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
| uppercase |
将标记文本规范化为大写。 请参阅 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
定义搜索引擎支持的所有分词器的名称。
LimitTokenFilter
在编制索引时限制令牌数。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| consumeAllTokens |
boolean |
False |
一个值,该值指示是否必须使用输入中的所有令牌,即使达到 maxTokenCount 也是如此。 默认值为 false。 |
| maxTokenCount |
integer (int32) |
1 |
要生成的令牌的最大数目。 默认为 1。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LuceneStandardAnalyzer
标准 Apache Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| stopwords |
string[] |
非索引字列表。 |
LuceneStandardTokenizer
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxTokenLength |
integer (int32) |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
LuceneStandardTokenizerV2
中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MagnitudeScoringFunction
定义一个函数,该函数根据数值字段的大小提升分数。
| 名称 | 类型 | 说明 |
|---|---|---|
| boost |
number (double) |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
| fieldName |
string |
用作评分函数输入的字段的名称。 |
| interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。 |
|
| magnitude |
数量级评分函数的参数值。 |
|
| type |
string:
magnitude |
评分函数类型。 |
MagnitudeScoringParameters
向数量级评分函数提供参数值。
| 名称 | 类型 | 说明 |
|---|---|---|
| boostingRangeEnd |
number (double) |
提升结束的字段值。 |
| boostingRangeStart |
number (double) |
开始提升的字段值。 |
| constantBoostBeyondRange |
boolean |
指示是否对超出范围结束值的字段值应用恒定提升的值;默认值为 false。 |
MappingCharFilter
一个字符筛选器,它应用使用映射选项定义的映射。 匹配是贪婪(给定点获胜时最长的模式匹配)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| mappings |
string[] |
以下格式的映射列表:“a=>b”(字符“a”的所有匹配项都将替换为字符“b”)。 |
| name |
string |
字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftLanguageStemmingTokenizer
使用特定于语言的规则划分文本,并将单词减少到其基形式。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| isSearchTokenizer |
boolean |
False |
一个值,指示如何使用 tokenizer。 如果用作搜索标记器,则设置为 true,如果用作索引标记器,则设置为 false。 默认值为 false。 |
| language |
要使用的语言。 默认值为英语。 |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftLanguageTokenizer
使用特定于语言的规则划分文本。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| isSearchTokenizer |
boolean |
False |
一个值,指示如何使用 tokenizer。 如果用作搜索标记器,则设置为 true,如果用作索引标记器,则设置为 false。 默认值为 false。 |
| language |
要使用的语言。 默认值为英语。 |
||
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
MicrosoftStemmingTokenizerLanguage
列出 Microsoft 语言词干提取器支持的语言。
| 值 | 说明 |
|---|---|
| arabic |
选择阿拉伯语的 Microsoft 词干提取器。 |
| bangla |
选择孟加拉语的 Microsoft 词干提取器。 |
| bulgarian |
选择保加利亚语的 Microsoft 词干提取器。 |
| catalan |
选择加泰罗尼亚语的 Microsoft 词干提取器。 |
| croatian |
选择克罗地亚语的 Microsoft 词干提取器。 |
| czech |
选择捷克语的 Microsoft 词干提取器。 |
| danish |
选择丹麦语的 Microsoft 词干提取器。 |
| dutch |
选择荷兰语的 Microsoft 词干提取器。 |
| english |
选择英语的 Microsoft 词干标记器。 |
| estonian |
选择爱沙尼亚语的 Microsoft 词干标记器。 |
| finnish |
选择芬兰语的 Microsoft 词干提取器。 |
| french |
选择法语的 Microsoft 词干提取器。 |
| german |
选择德语的 Microsoft 词干提取分词器。 |
| greek |
选择希腊语的 Microsoft 词干提取器。 |
| gujarati |
选择古吉拉特语的 Microsoft 词干提取标记器。 |
| hebrew |
选择希伯来语的 Microsoft 词干提取器。 |
| hindi |
选择印地语的 Microsoft 词干标记器。 |
| hungarian |
选择匈牙利语的 Microsoft 词干提取器。 |
| icelandic |
选择冰岛语的 Microsoft 词干提取分词器。 |
| indonesian |
选择印度尼西亚语的 Microsoft 词干提取器。 |
| italian |
选择意大利语的 Microsoft 词干提取器。 |
| kannada |
选择卡纳达语的 Microsoft 词干提取器。 |
| latvian |
选择拉脱维亚语的 Microsoft 词干提取标记器。 |
| lithuanian |
选择立陶宛语的 Microsoft 词干标记器。 |
| malay |
选择马来语的 Microsoft 词干提取分词器。 |
| malayalam |
选择马拉雅拉姆语的 Microsoft 词干提取器。 |
| marathi |
选择马拉地语的 Microsoft 词干提取器。 |
| norwegianBokmaal |
Selects the Microsoft stemming tokenizer for Norwegian (BokmÃll). |
| polish |
选择波兰语的 Microsoft 词干提取分词器。 |
| portuguese |
选择葡萄牙语的 Microsoft 词干提取分词器。 |
| portugueseBrazilian |
选择葡萄牙语(巴西)的 Microsoft 词干提取器。 |
| punjabi |
选择旁遮普语的 Microsoft 词干提取器。 |
| romanian |
选择罗马尼亚语的 Microsoft 词干提取分词器。 |
| russian |
选择俄语的 Microsoft 词干标记器。 |
| serbianCyrillic |
选择塞尔维亚语(西里尔文)的 Microsoft 词干提取器。 |
| serbianLatin |
选择塞尔维亚语(拉丁语)的 Microsoft 词干提取分词器。 |
| slovak |
选择斯洛伐克语的 Microsoft 词干提取器。 |
| slovenian |
选择斯洛文尼亚语的 Microsoft 词干提取器。 |
| spanish |
选择西班牙语的 Microsoft 词干标记器。 |
| swedish |
选择瑞典语的 Microsoft 词干提取分词器。 |
| tamil |
选择泰米尔语的 Microsoft 词干提取器。 |
| telugu |
选择泰卢固语的 Microsoft 词干提取器。 |
| turkish |
选择土耳其语的 Microsoft 词干提取器。 |
| ukrainian |
选择乌克兰语的 Microsoft 词干提取器。 |
| urdu |
选择乌尔都语的 Microsoft 词干提取器。 |
MicrosoftTokenizerLanguage
列出 Microsoft 语言分词器支持的语言。
| 值 | 说明 |
|---|---|
| bangla |
选择孟加拉语的 Microsoft 分词器。 |
| bulgarian |
选择保加利亚语的 Microsoft 分词器。 |
| catalan |
选择加泰罗尼亚语的 Microsoft 分词器。 |
| chineseSimplified |
选择中文的 Microsoft 分词器(简体)。 |
| chineseTraditional |
选择中文(繁体)的 Microsoft 分词器。 |
| croatian |
选择克罗地亚语的 Microsoft 分词器。 |
| czech |
选择捷克语的 Microsoft 分词器。 |
| danish |
选择丹麦语的 Microsoft 分词器。 |
| dutch |
选择荷兰语的 Microsoft 分词器。 |
| english |
选择英语的 Microsoft 分词器。 |
| french |
选择法语的 Microsoft 分词器。 |
| german |
选择德语的 Microsoft 分词器。 |
| greek |
选择希腊语的 Microsoft 分词器。 |
| gujarati |
选择古吉拉特语的 Microsoft 分词器。 |
| hindi |
选择印地语的 Microsoft 分词器。 |
| icelandic |
选择冰岛语的 Microsoft 分词器。 |
| indonesian |
选择印度尼西亚语的 Microsoft 分词器。 |
| italian |
选择意大利语的 Microsoft 分词器。 |
| japanese |
选择日语的 Microsoft 分词器。 |
| kannada |
选择卡纳达语的 Microsoft 分词器。 |
| korean |
选择韩语的 Microsoft 分词器。 |
| malay |
选择马来语的 Microsoft 分词器。 |
| malayalam |
选择马拉雅拉姆语的 Microsoft 分词器。 |
| marathi |
选择马拉地语的 Microsoft 分词器。 |
| norwegianBokmaal |
Selects the Microsoft tokenizer for Norwegian (Bokmål). |
| polish |
选择波兰语的 Microsoft 分词器。 |
| portuguese |
选择葡萄牙语的 Microsoft 分词器。 |
| portugueseBrazilian |
选择葡萄牙语(巴西)的 Microsoft 分词器。 |
| punjabi |
选择旁遮普语的 Microsoft 分词器。 |
| romanian |
选择罗马尼亚语的 Microsoft 分词器。 |
| russian |
选择俄语的 Microsoft 分词器。 |
| serbianCyrillic |
选择塞尔维亚语(西里尔文)的 Microsoft 分词器。 |
| serbianLatin |
选择塞尔维亚语(拉丁语)的 Microsoft 分词器。 |
| slovenian |
选择斯洛文尼亚语的 Microsoft 分词器。 |
| spanish |
选择西班牙语的 Microsoft 分词器。 |
| swedish |
选择瑞典语的 Microsoft 分词器。 |
| tamil |
选择泰米尔语的 Microsoft 分词器。 |
| telugu |
选择泰卢固语的 Microsoft 分词器。 |
| thai |
选择泰语的 Microsoft 分词器。 |
| ukrainian |
选择乌克兰语的 Microsoft 分词器。 |
| urdu |
选择乌尔都语的 Microsoft 分词器。 |
| vietnamese |
选择越南语的 Microsoft 分词器。 |
NGramTokenFilter
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxGram |
integer (int32) |
2 |
最大 n 元语法长度。 默认值为 2。 |
| minGram |
integer (int32) |
1 |
最小 n 元语法长度。 默认为 1。 必须小于 maxGram 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
NGramTokenFilterV2
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n 元语法长度。 默认为 1。 最大值为 300。 必须小于 maxGram 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
NGramTokenizer
将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxGram |
integer (int32) maximum: 300 |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
| minGram |
integer (int32) maximum: 300 |
1 |
最小 n 元语法长度。 默认为 1。 最大值为 300。 必须小于 maxGram 的值。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| tokenChars |
要保留在令牌中的字符类。 |
PathHierarchyTokenizerV2
类似路径层次结构的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| delimiter |
string maxLength: 1 |
/ |
要使用的分隔符字符。 默认值为“/”。 |
| maxTokenLength |
integer (int32) maximum: 300 |
300 |
最大令牌长度。 默认值和最大值为 300。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| replacement |
string maxLength: 1 |
/ |
一个值,如果设置,则替换分隔符字符。 默认值为“/”。 |
| reverse |
boolean |
False |
一个值,该值指示是否按反向顺序生成令牌。 默认值为 false。 |
| skip |
integer (int32) |
0 |
要跳过的初始令牌数。 默认为 0。 |
PatternAnalyzer
灵活将文本通过正则表达式模式分隔为字词。 此分析器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| flags |
string |
正则表达式标志,指定为 RegexFlags 值的 '|' 分隔字符串。 |
|
| lowercase |
boolean |
True |
指示术语是否应小写的值。 默认值为 true。 |
| name |
string |
分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| pattern |
string |
\W+ |
用于匹配标记分隔符的正则表达式模式。 默认是匹配一个或多个非单词字符的表达式。 |
| stopwords |
string[] |
非索引字列表。 |
PatternCaptureTokenFilter
使用 Java 正则表达式发出多个令牌 - 一个标记用于一个或多个模式中的每个捕获组。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| patterns |
string[] |
要与每个令牌匹配的模式列表。 |
|
| preserveOriginal |
boolean |
True |
一个值,该值指示是否返回原始令牌,即使其中一个模式匹配。 默认值为 true。 |
PatternReplaceCharFilter
替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| name |
string |
字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| pattern |
string |
正则表达式模式。 |
| replacement |
string |
替换文字。 |
PatternReplaceTokenFilter
替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| pattern |
string |
正则表达式模式。 |
| replacement |
string |
替换文字。 |
PatternTokenizer
使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| flags |
string |
正则表达式标志,指定为 RegexFlags 值的 '|' 分隔字符串。 |
|
| group |
integer (int32) |
-1 |
正则表达式模式中匹配组的从零开始的序号,要提取到标记中。 如果要使用整个模式将输入拆分为标记,则使用 -1,而不考虑匹配的组。 默认值为 -1。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| pattern |
string |
\W+ |
用于匹配标记分隔符的正则表达式模式。 默认是匹配一个或多个非单词字符的表达式。 |
PermissionFilter
指示是否应将该字段用作权限筛选器的值。
| 值 | 说明 |
|---|---|
| userIds |
字段表示应用于过滤查询文档访问权限的用户 ID。 |
| groupIds |
字段表示组 ID,应用于筛选查询上的文档访问权限。 |
| rbacScope |
字段表示一个 RBAC 范围,应用于筛选查询上的文档访问权限。 |
PhoneticEncoder
标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。
| 值 | 说明 |
|---|---|
| metaphone |
将令牌编码为 Metaphone 值。 |
| doubleMetaphone |
将标记编码为双元音值。 |
| soundex |
将标记编码为 Soundex 值。 |
| refinedSoundex |
将标记编码为精炼的 Soundex 值。 |
| caverphone1 |
将标记编码为 Caverphone 1.0 值。 |
| caverphone2 |
将标记编码为 Caverphone 2.0 值。 |
| cologne |
将标记编码为科隆语音值。 |
| nysiis |
将代币编码为 NYSIIS 值。 |
| koelnerPhonetik |
使用 Kölner Phonetik 算法对令牌进行编码。 |
| haasePhonetik |
使用 Kölner Phonetik 算法的 Haase 细化对标记进行编码。 |
| beiderMorse |
将令牌编码为 Beider-Morse 值。 |
PhoneticTokenFilter
为拼音匹配创建令牌。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| encoder | metaphone |
要使用的拼音编码器。 默认值为“metaphone”。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| replace |
boolean |
True |
一个值,该值指示编码的令牌是否应替换原始令牌。 如果为 false,则编码的令牌将添加为同义词。 默认值为 true。 |
Prefer
对于 HTTP PUT 请求,指示服务在成功时返回创建/更新的资源。
| 值 | 说明 |
|---|---|
| return=representation |
RankingOrder
表示用于文档排序顺序的分数。
| 值 | 说明 |
|---|---|
| BoostedRerankerScore |
将排序顺序设置为 BoostedRerankerScore |
| RerankerScore |
将排序顺序设置为 ReRankerScore |
RescoringOptions
包含用于重新记录的选项。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| defaultOversampling |
number (double) |
默认过度采样因子。 过采样检索更多的潜在文档集,以抵消由于量化而造成的分辨率损失。 这增加了将在全精度向量上重新评分的结果集。 最小值为 1,这意味着没有过度采样(1x)。 只有当 'enableRescoring' 为 true 时,才能设置此参数。 较高的值会以牺牲延迟为代价提高召回率。 |
|
| enableRescoring |
boolean |
True |
如果设置为 true,则在对压缩向量进行初始搜索后,将使用全精度向量重新计算相似性分数。 这将提高召回率,代价是延迟。 |
| rescoreStorageMethod |
enum:
|
preserveOriginals |
控制原始矢量的存储方法。 此设置是不可变的。 |
ScalarQuantizationCompression
包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。
| 名称 | 类型 | 说明 |
|---|---|---|
| kind |
string:
scalar |
向量搜索压缩的类型。 |
| name |
string |
要与此特定配置关联的名称。 |
| rescoringOptions |
包含用于重新记录的选项。 |
|
| scalarQuantizationParameters |
包含特定于标量量化的参数。 |
|
| truncationDimension |
integer (int32) |
要截断向量到的维度数。 截断向量可减少向量的大小,以及搜索期间需要传输的数据量。 这可以节省存储成本,并降低搜索性能,以牺牲召回率。 它只应用于使用 Matryoshka 表示法学习(MRL)训练的嵌入,例如 OpenAI 文本嵌入-3-large(小型)。 默认值为 null,表示不截断。 |
ScalarQuantizationParameters
包含特定于标量量化的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| quantizedDataType |
压缩向量值的量化数据类型。 |
ScoringFunctionAggregation
定义用于组合评分配置文件中所有评分函数的结果的聚合函数。
| 值 | 说明 |
|---|---|
| sum |
通过所有评分函数结果的总和来提升分数。 |
| average |
通过所有评分函数结果的平均值来提升分数。 |
| minimum |
提高所有评分函数结果的最小值。 |
| maximum |
将分数提高到所有评分函数结果的最大值。 |
| firstMatching |
使用评分配置文件中的第一个适用评分函数提高分数。 |
| product |
通过所有评分函数结果的乘积来提高分数。 |
ScoringFunctionInterpolation
定义用于在一系列文档中插值分数提升的函数。
| 值 | 说明 |
|---|---|
| linear |
以线性递减的量提高分数。 这是评分函数的默认插值。 |
| constant |
通过恒定系数提高分数。 |
| quadratic |
将分数提高二次方递减的量。 分数越高,提升会缓慢下降,随着分数的下降,提升会越快。 标签评分函数不允许使用此插值选项。 |
| logarithmic |
将分数提高对数递减的量。 分数越高,提升会迅速减少,而随着分数的降低,提升会越慢。 标签评分函数不允许使用此插值选项。 |
ScoringProfile
定义影响搜索查询中评分的搜索索引的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| functionAggregation |
指示如何组合各个评分函数的结果的值。 默认为“Sum”。 如果没有评分函数,则忽略。 |
|
| functions | ScoringFunction[]: |
影响文档评分的函数集合。 |
| name |
string |
评分配置文件的名称。 |
| text |
根据某些索引字段中的文本匹配提高评分的参数。 |
SearchField
表示索引定义中的字段,该定义描述字段的名称、数据类型和搜索行为。
| 名称 | 类型 | 说明 |
|---|---|---|
| analyzer |
要用于字段的分析器的名称。 此选项只能与可搜索字段一起使用,不能与 searchAnalyzer 或 indexAnalyzer 一起设置。 选择分析器后,无法更改该字段。 对于复杂字段,必须为 null。 |
|
| dimensions |
integer (int32) minimum: 2maximum: 4096 |
矢量字段的维度。 |
| facetable |
boolean |
一个值,该值指示是否允许在分面查询中引用字段。 通常在按类别包含命中次数的搜索结果展示中使用(例如,搜索数码相机并按品牌、像素、价格等查看命中)。 对于复杂字段,此属性必须为 null。 无法分面 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint)类型的字段。 对于所有其他简单字段,默认值为 true。 |
| fields |
如果子字段是类型为 Edm.ComplexType 或 Collection(Edm.ComplexType) 的字段,则为子字段列表。 对于简单字段,必须为 null 或空。 |
|
| filterable |
boolean |
一个值,该值指示是否允许在$filter查询中引用字段。 filterable 不同于可搜索的字符串的处理方式。 可筛选的 Edm.String 或 Collection(Edm.String)类型的字段不会进行断字,因此比较仅适用于完全匹配项。 例如,如果将此类字段 f 设置为“sunny day”,则 $filter=f eq 'sunny' 将找不到匹配项,但 $filter=f eq 'sunny day' 将。 对于复杂字段,此属性必须为 null。 对于简单字段,默认值为 true,对于复杂字段,默认值为 null。 |
| indexAnalyzer |
在索引时为字段使用的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 searchAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 选择分析器后,无法更改该字段。 对于复杂字段,必须为 null。 |
|
| key |
boolean |
一个值,该值指示字段是否唯一标识索引中的文档。 每个索引中的一个顶级字段必须选择为键字段,并且必须的类型为 Edm.String。 键字段可用于直接查找文档并更新或删除特定文档。 对于简单字段,默认值为 false,对于复杂字段,默认值为 null。 |
| name |
string |
字段的名称,在索引或父字段的字段集合中必须唯一。 |
| normalizer |
要用于字段的规范化器的名称。 此选项只能用于启用了可过滤、可排序或可分面的字段。 选择归一化器后,无法为字段更改它。 对于复杂字段,必须为 null。 |
|
| permissionFilter |
指示是否应将该字段用作权限筛选器的值。 |
|
| retrievable |
boolean |
一个值,该值指示是否可以在搜索结果中返回字段。 如果要使用字段(例如边距)作为筛选器、排序或评分机制,但不希望字段对最终用户可见,则可以禁用此选项。 对于键字段,此属性必须为 true,对于复杂字段,此属性必须为 null。 可以在现有字段上更改此属性。 启用此属性不会导致索引存储要求增加。 对于简单字段,默认值为 true,对于向量字段为 false,对于复杂字段,默认值为 null。 |
| searchAnalyzer |
在搜索时用于字段的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 indexAnalyzer 一起设置,不能与 analyzer 选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 可以在现有字段中更新此分析器。 对于复杂字段,必须为 null。 |
|
| searchable |
boolean |
一个值,该值指示字段是否可全文搜索。 这意味着它将在编制索引期间进行断字分析。 如果将可搜索字段设置为“sunny day”等值,则内部会将其拆分为单个标记“sunny”和“day”。 这实现了对这些词的全文搜素。 默认情况下,可搜索类型为 Edm.String 或 Collection(Edm.String)的字段。 对于其他非字符串数据类型的简单字段,此属性必须为 false,对于复杂字段,此属性必须为 null。 注意:可搜索字段在索引中使用额外的空间,以适应用于全文搜索的字段值的其他标记化版本。 如果要在索引中节省空间,并且不需要在搜索中包含字段,请将可搜索设置为 false。 |
| sensitivityLabel |
boolean |
一个表示字段是否包含敏感标签信息的值。 |
| sortable |
boolean |
一个值,该值指示是否启用要在$orderby表达式中引用的字段。 默认情况下,搜索引擎按分数对结果进行排序,但在很多体验中,用户希望按文档中的字段进行排序。 仅当简单字段是单值(它在父文档的作用域中具有单个值)时,才能进行排序。 简单集合字段不可排序,因为它们是多值。 复杂集合的简单子字段也是多值,因此无法排序。 无论是直接父字段还是上级字段,都是如此,这就是复杂的集合。 复杂字段不能进行排序,并且此类字段的 sortable 属性必须为 null。 对于单值简单字段,sortable 的默认值为 true,对于多值简单字段为 false,对于复杂字段为 null。 |
| stored |
boolean |
一个不可变值,该值指示字段是否将单独保存在要在搜索结果中返回的磁盘上。 如果不打算在搜索响应中返回字段内容以节省存储开销,则可以禁用此选项。 这只能在创建索引期间设置,并且只能为向量字段设置。 对于现有字段,不能更改此属性,也不能为新字段设置为 false。 如果此属性设置为 false,则属性“retrievable”也必须设置为 false。 对于键字段、新字段和非向量字段,此属性必须为 true 或未设置,并且对于复杂字段必须为 null。 禁用此属性可以减少索引存储要求。 矢量字段的默认值为 true。 |
| synonymMaps |
string[] |
要与此字段关联的同义词映射的名称列表。 此选项只能与可搜索字段一起使用。 目前每个字段仅支持一个同义词映射。 将同义词映射分配给字段可确保使用同义词映射中的规则在查询时扩展针对该字段的查询词。 可以在现有字段上更改此属性。 对于复杂字段,必须为 null 或空集合。 |
| type |
字段的数据类型。 |
|
| vectorEncoding |
用于解释字段内容的编码格式。 |
|
| vectorSearchProfile |
string |
矢量搜索配置文件的名称,该配置文件指定要在搜索向量字段时使用的算法和向量器。 |
SearchFieldDataType
定义搜索索引中字段的数据类型。
| 值 | 说明 |
|---|---|
| Edm.String |
指示字段包含字符串。 |
| Edm.Int32 |
指示字段包含 32 位有符号整数。 |
| Edm.Int64 |
指示字段包含 64 位有符号整数。 |
| Edm.Double |
指示字段包含 IEEE 双精度浮点数。 |
| Edm.Boolean |
指示字段包含布尔值(true 或 false)。 |
| Edm.DateTimeOffset |
指示字段包含日期/时间值,包括时区信息。 |
| Edm.GeographyPoint |
指示字段包含经度和纬度方面的地理位置。 |
| Edm.ComplexType |
指示字段包含一个或多个复杂对象,而这些对象又具有其他类型的子字段。 |
| Edm.Single |
指示字段包含单精度浮点数。 这仅在与 Collection(Edm.Single) 一起使用时有效。 |
| Edm.Half |
指示字段包含半精度浮点数。 这仅在与 Collection(Edm.Half) 一起使用时有效。 |
| Edm.Int16 |
指示字段包含 16 位有符号整数。 这仅在与 Collection(Edm.Int16) 一起使用时有效。 |
| Edm.SByte |
指示字段包含 8 位有符号整数。 这仅在与 Collection(Edm.SByte) 一起使用时有效。 |
| Edm.Byte |
指示字段包含 8 位无符号整数。 这仅在与 Collection(Edm.Byte) 一起使用时有效。 |
SearchIndex
表示搜索索引定义,该定义描述索引的字段和搜索行为。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.etag |
string |
索引的 ETag。 |
| analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
| charFilters | CharFilter[]: |
索引的字符筛选器。 |
| corsOptions |
用于控制索引的跨域资源共享(CORS)的选项。 |
|
| defaultScoringProfile |
string |
如果在查询中未指定评分配置文件,则使用的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分(tf-idf)。 |
| description |
string |
索引的描述。 |
| encryptionKey |
描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。 |
|
| fields |
索引的字段。 |
|
| name |
string |
索引的名称。 |
| normalizers | LexicalNormalizer[]: |
索引的规范化器。 |
| permissionFilterOption |
指示是否为索引启用权限筛选的值。 |
|
| purviewEnabled |
boolean |
一个表示索引是否启用 Purview 的值。 |
| scoringProfiles |
索引的计分配置文件。 |
|
| semantic |
定义影响语义功能的搜索索引的参数。 |
|
| similarity | SimilarityAlgorithm: |
评分和排名与搜索查询匹配的文档时使用的相似性算法的类型。 相似性算法只能在索引创建时定义,不能在现有索引上修改。 如果为 null,则使用 ClassicSimilarity 算法。 |
| suggesters |
索引的建议器。 |
|
| tokenFilters |
TokenFilter[]:
|
标记筛选索引。 |
| tokenizers | LexicalTokenizer[]: |
索引的 tokenizer。 |
| vectorSearch |
包含与矢量搜索相关的配置选项。 |
SearchIndexerDataNoneIdentity
清除数据源的标识属性。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定身份类型的 URI 片段。 |
SearchIndexerDataUserAssignedIdentity
指定要使用的数据源的标识。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
指定身份类型的 URI 片段。 |
| userAssignedIdentity |
string |
用户分配的托管标识的完全限定的 Azure 资源 ID,通常采用“/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”的形式,应分配给搜索服务。 |
SearchIndexPermissionFilterOption
指示是否为索引启用权限筛选的值。
| 值 | 说明 |
|---|---|
| enabled |
启用。 |
| disabled |
禁用。 |
SearchResourceEncryptionKey
Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。
| 名称 | 类型 | 说明 |
|---|---|---|
| accessCredentials.applicationId |
string |
向 AAD 应用程序 ID 授予对静态数据加密时要使用的 Azure Key Vault 所需的访问权限。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。 |
| accessCredentials.applicationSecret |
string |
指定的 AAD 应用程序的身份验证密钥。 |
| identity | SearchIndexerDataIdentity: |
用于此加密密钥的显式托管标识。 如果未指定并且访问凭据属性为 null,则使用系统分配的托管标识。 更新资源时,如果未指定显式标识,则保持不变。 如果指定了“none”,则清除此属性的值。 |
| keyVaultKeyName |
string |
用于加密静态数据的 Azure Key Vault 密钥的名称。 |
| keyVaultKeyVersion |
string |
用于加密静态数据的 Azure Key Vault 密钥的版本。 |
| keyVaultUri |
string |
Azure Key Vault 的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 示例 URI 可能是 |
SearchSuggester
定义建议 API 应如何应用于索引中的一组字段。
| 名称 | 类型 | 说明 |
|---|---|---|
| name |
string |
建议者的名称。 |
| searchMode |
enum:
analyzing |
指示建议器功能的值。 |
| sourceFields |
string[] |
建议器适用的字段名称列表。 每个字段都必须是可搜索的。 |
SemanticConfiguration
定义要在语义功能的上下文中使用的特定配置。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| flightingOptIn |
boolean |
False |
确定在模型外部测试/升级期间要使用的语义或查询重写模型。 |
| name |
string |
语义配置的名称。 |
|
| prioritizedFields |
描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 至少需要设置三个子属性(titleField、优先级为KeywordsFields 和优先级的ContentFields)中的一个。 |
||
| rankingOrder |
指定用于搜索结果排序顺序的分数类型。 |
SemanticField
用作语义配置的一部分的字段。
| 名称 | 类型 | 说明 |
|---|---|---|
| fieldName |
string |
文件名 |
SemanticPrioritizedFields
描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。
| 名称 | 类型 | 说明 |
|---|---|---|
| prioritizedContentFields |
定义要用于语义排名、标题、突出显示和答案的内容字段。 为获得最佳结果,所选字段应包含自然语言形式的文本。 数组中字段的顺序表示它们的优先级。 如果内容很长,优先级较低的字段可能会被截断。 |
|
| prioritizedKeywordsFields |
定义要用于语义排名、标题、突出显示和答案的关键字字段。 为了获得最佳结果,所选字段应包含关键字列表。 数组中字段的顺序表示它们的优先级。 如果内容很长,优先级较低的字段可能会被截断。 |
|
| titleField |
定义要用于语义排名、标题、突出显示和答案的标题字段。 如果索引中没有标题字段,请将其留空。 |
SemanticSearch
定义影响语义功能的搜索索引的参数。
| 名称 | 类型 | 说明 |
|---|---|---|
| configurations |
索引的语义配置。 |
|
| defaultConfiguration |
string |
允许您在索引中设置默认语义配置的名称,以便每次都将其作为查询参数传递是可选的。 |
ShingleTokenFilter
将令牌的组合创建为单个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| filterToken |
string |
_ |
要为没有标记的每个位置插入的字符串。 默认值为下划线(“_” ) |
| maxShingleSize |
integer (int32) minimum: 2 |
2 |
最大闪亮大小。 默认值和最小值为 2。 |
| minShingleSize |
integer (int32) minimum: 2 |
2 |
最小闪闪大小。 默认值和最小值为 2。 必须小于 maxShingleSize 的值。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| outputUnigrams |
boolean |
True |
一个值,该值指示输出流是否包含输入标记(unigrams)以及分片。 默认值为 true。 |
| outputUnigramsIfNoShingles |
boolean |
False |
一个值,该值指示是否为这些时间输出单元语法(当没有带带线时)。 当 outputUnigrams 设置为 false 时,此属性优先。 默认值为 false。 |
| tokenSeparator |
string |
联接相邻标记以形成 shingle 时要使用的字符串。 默认值为单个空格(“ ” )。 |
SnowballTokenFilter
使用 Snowball 生成的词干分析器词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| language |
要使用的语言。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
SnowballTokenFilterLanguage
用于 Snowball 令牌筛选器的语言。
| 值 | 说明 |
|---|---|
| armenian |
为亚美尼亚语选择 Lucene Snowball 词干标记器。 |
| basque |
选择巴斯克语的 Lucene Snowball 词干标记器。 |
| catalan |
选择加泰罗尼亚语的 Lucene Snowball 词干标记器。 |
| danish |
为丹麦语选择 Lucene Snowball 词干标记器。 |
| dutch |
选择 Dutch 的 Lucene Snowball 词干标记器。 |
| english |
为英语选择 Lucene Snowball 词干标记器。 |
| finnish |
为芬兰语选择 Lucene Snowball 词干标记器。 |
| french |
为法语选择 Lucene Snowball 词干标记器。 |
| german |
选择德语的 Lucene Snowball 词干标记器。 |
| german2 |
选择使用德语变体算法的 Lucene Snowball 词干提取器。 |
| hungarian |
为匈牙利语选择 Lucene Snowball 词干标记器。 |
| italian |
为意大利语选择 Lucene Snowball 词干标记器。 |
| kp |
选择使用 dutch 的 Lucene Snowball 词干提取器,该分词器使用 Kraaij-Pohlmann 词干提取算法。 |
| lovins |
为使用 Lovins 词干提取算法的英语选择 Lucene Snowball 词干提取器。 |
| norwegian |
为挪威语选择 Lucene Snowball 词干标记器。 |
| porter |
选择使用 Porter 词干提取算法的英语的 Lucene Snowball 词干标记器。 |
| portuguese |
为葡萄牙语选择 Lucene Snowball 词干标记器。 |
| romanian |
为罗马尼亚语选择 Lucene Snowball 词干标记器。 |
| russian |
为俄语选择 Lucene Snowball 词干标记器。 |
| spanish |
为西班牙语选择 Lucene Snowball 词干标记器。 |
| swedish |
为瑞典语选择 Lucene Snowball 词干标记器。 |
| turkish |
为土耳其语选择 Lucene Snowball 词干标记器。 |
StemmerOverrideTokenFilter
提供使用基于自定义字典的词干分析替代其他词干筛选器的功能。 任何字典词干术语都将标记为关键字,以便它们不会在链中以词干分析器进行词干。 必须放置在任何词干筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/StemmerOverrideFilter.html
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| rules |
string[] |
采用以下格式的词干规则列表:“word => stem”,例如:“ran => run”。 |
StemmerTokenFilter
特定于语言的词干筛选。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| language |
要使用的语言。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
StemmerTokenFilterLanguage
用于词干分析器标记筛选器的语言。
| 值 | 说明 |
|---|---|
| arabic |
为阿拉伯语选择 Lucene 词干标记器。 |
| armenian |
选择亚美尼亚语的 Lucene 词干标记器。 |
| basque |
选择巴斯克语的 Lucene 词干标记器。 |
| brazilian |
为葡萄牙语(巴西)选择 Lucene 词干标记器。 |
| bulgarian |
选择保加利亚语的 Lucene 词干标记器。 |
| catalan |
选择加泰罗尼亚语的 Lucene 词干标记器。 |
| czech |
选择捷克语的 Lucene 词干提取器。 |
| danish |
为丹麦语选择 Lucene 词干标记器。 |
| dutch |
选择荷兰语的 Lucene 词干标记器。 |
| dutchKp |
为使用 Kraaij-Pohlmann 词干提取算法的 Dutch 选择 Lucene 词干提取器。 |
| english |
选择英语的 Lucene 词干标记器。 |
| lightEnglish |
为执行轻词干提取的英语选择 Lucene 词干标记器。 |
| minimalEnglish |
为英语选择执行最小词干提取的 Lucene 词干提取器。 |
| possessiveEnglish |
选择英语的 Lucene 词干标记器,该标记器从单词中删除尾随所有格。 |
| porter2 |
选择使用 Porter2 词干提取算法的英语的 Lucene 词干提取器。 |
| lovins |
选择使用 Lovins 词干提取算法的英语的 Lucene 词干提取器。 |
| finnish |
为芬兰语选择 Lucene 词干标记器。 |
| lightFinnish |
为芬兰语选择执行轻词干提取的 Lucene 词干标记器。 |
| french |
选择法语的 Lucene 词干标记器。 |
| lightFrench |
为法语选择执行轻词干提取的 Lucene 词干标记器。 |
| minimalFrench |
为法语选择执行最小词干提取的 Lucene 词干标记器。 |
| galician |
选择 Galician 的 Lucene 词干标记器。 |
| minimalGalician |
为加利西亚语选择执行最小词干提取的 Lucene 词干标记器。 |
| german |
选择德语的 Lucene 词干标记器。 |
| german2 |
选择使用德语变体算法的 Lucene 词干标记器。 |
| lightGerman |
为执行轻词干提取的德语选择 Lucene 词干标记器。 |
| minimalGerman |
为德语选择执行最小词干提取的 Lucene 词干标记器。 |
| greek |
选择希腊语的 Lucene 词干标记器。 |
| hindi |
选择印地语的 Lucene 词干提取器。 |
| hungarian |
选择匈牙利语的 Lucene 词干标记器。 |
| lightHungarian |
为匈牙利语选择执行轻词干提取的 Lucene 词干标记器。 |
| indonesian |
选择印度尼西亚语的 Lucene 词干提取器。 |
| irish |
选择爱尔兰语的 Lucene 词干标记器。 |
| italian |
选择意大利语的 Lucene 词干标记器。 |
| lightItalian |
为意大利语选择执行轻词干提取的 Lucene 词干标记器。 |
| sorani |
选择 Sorani 的 Lucene 词干提取器。 |
| latvian |
选择拉脱维亚语的 Lucene 词干标记器。 |
| norwegian |
选择挪威语(Bokmıl)的Lucene词干分词器。 |
| lightNorwegian |
选择了为挪威语(Bokmıl)做轻度词干处理的Lucene词根标记器。 |
| minimalNorwegian |
选择Lucene词干标记器,适用于挪威语(Bokmıl),该词干最小化。 |
| lightNynorsk |
为挪威语(尼诺斯克)选择执行轻词干提取的 Lucene 词干标记器。 |
| minimalNynorsk |
为挪威语(尼诺斯克)选择执行最小词干提取的 Lucene 词干提取器。 |
| portuguese |
选择葡萄牙语的 Lucene 词干标记器。 |
| lightPortuguese |
为葡萄牙语选择执行轻词干提取的 Lucene 词干标记器。 |
| minimalPortuguese |
为葡萄牙语选择执行最小词干提取的 Lucene 词干标记器。 |
| portugueseRslp |
选择使用 RSLP 词干提取算法的葡萄牙语的 Lucene 词干提取器。 |
| romanian |
为罗马尼亚语选择 Lucene 词干标记器。 |
| russian |
为俄语选择 Lucene 词干标记器。 |
| lightRussian |
为俄语选择执行轻词干提取的 Lucene 词干标记器。 |
| spanish |
选择西班牙语的 Lucene 词干标记器。 |
| lightSpanish |
为西班牙语选择执行轻词干提取的 Lucene 词干标记器。 |
| swedish |
选择瑞典语的 Lucene 词干标记器。 |
| lightSwedish |
为瑞典语选择执行轻词干提取的 Lucene 词干标记器。 |
| turkish |
为土耳其语选择 Lucene 词干标记器。 |
StopAnalyzer
以非字母分隔文本;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 说明 |
|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
| name |
string |
分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
| stopwords |
string[] |
非索引字列表。 |
StopwordsList
标识特定于语言的停用词的预定义列表。
| 值 | 说明 |
|---|---|
| arabic |
选择阿拉伯语的停用词列表。 |
| armenian |
选择亚美尼亚语的停用词列表。 |
| basque |
选择巴斯克语的停用词列表。 |
| brazilian |
选择葡萄牙语(巴西)的停用词列表。 |
| bulgarian |
选择保加利亚语的停用词列表。 |
| catalan |
选择加泰罗尼亚语的停用词列表。 |
| czech |
选择捷克语的停用词列表。 |
| danish |
选择丹麦语的停用词列表。 |
| dutch |
选择荷兰语的停用词列表。 |
| english |
选择英语的停用词列表。 |
| finnish |
选择芬兰语的停用词列表。 |
| french |
选择法语的停用词列表。 |
| galician |
选择加利西亚语的停用词列表。 |
| german |
选择德语的停用词列表。 |
| greek |
选择希腊语的停用词列表。 |
| hindi |
选择印地语的停用词列表。 |
| hungarian |
选择匈牙利语的停用词列表。 |
| indonesian |
选择印度尼西亚语的停用词列表。 |
| irish |
选择爱尔兰语的停用词列表。 |
| italian |
选择意大利语的停用词列表。 |
| latvian |
选择拉脱维亚语的停用词列表。 |
| norwegian |
选择挪威语的停用词列表。 |
| persian |
选择波斯语的停用词列表。 |
| portuguese |
选择葡萄牙语的停用词列表。 |
| romanian |
选择罗马尼亚语的停用词列表。 |
| russian |
选择俄语的停用词列表。 |
| sorani |
选择 Sorani 的停用词列表。 |
| spanish |
选择西班牙语的停用词列表。 |
| swedish |
选择瑞典语的停用词列表。 |
| thai |
选择泰语的停用词列表。 |
| turkish |
选择土耳其语的停用词列表。 |
StopwordsTokenFilter
从令牌流中删除停止字词。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| ignoreCase |
boolean |
False |
一个值,指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| removeTrailing |
boolean |
True |
一个值,该值指示是否忽略最后一个搜索词(如果它是非索引字)。 默认值为 true。 |
| stopwords |
string[] |
非索引字列表。 不能同时设置此属性和非索引字列表属性。 |
|
| stopwordsList | english |
要使用的非索引字的预定义列表。 不能同时设置此属性和 stopwords 属性。 默认值为英语。 |
SynonymTokenFilter
匹配令牌流中的单个或多单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| expand |
boolean |
True |
一个值,该值指示同义词列表中的所有单词(如果未使用 => 表示法),是否将相互映射。 如果为 true,同义词列表中的所有单词(如果未使用 => 表示法),则相互映射。 以下列表:令人难以置信的,令人难以置信的,神话般的,惊人的相当于:令人难以置信的,令人难以置信的,令人难以置信的,神话,惊人的 => 令人难以置信的,令人难以置信的,神话,惊人的。 如果为 false,以下列表:令人难以置信的,令人难以置信的,神话般的,惊人的将相当于:令人难以置信的,令人难以置信的,令人难以置信的,神话,惊人的 => 令人难以置信的。 默认值为 true。 |
| ignoreCase |
boolean |
False |
一个值,该值指示是否将大小写输入用于匹配。 默认值为 false。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| synonyms |
string[] |
以下两种格式之一的同义词列表:1。 令人难以置信的,令人难以置信的,令人难以置信的,神话般的 => 惊人的 - 所有术语在 => 符号的左侧将被替换为其右侧的所有术语;2. 令人难以置信的,令人难以置信的,神话般的,惊人的 - 逗号分隔的等效单词列表。 设置展开选项以更改此列表的解释方式。 |
TagScoringFunction
定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档的分数。
| 名称 | 类型 | 说明 |
|---|---|---|
| boost |
number (double) |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
| fieldName |
string |
用作评分函数输入的字段的名称。 |
| interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。 |
|
| tag |
标记评分函数的参数值。 |
|
| type |
string:
tag |
评分函数类型。 |
TagScoringParameters
向标记评分函数提供参数值。
| 名称 | 类型 | 说明 |
|---|---|---|
| tagsParameter |
string |
在搜索查询中传递的参数的名称,用于指定要与目标字段进行比较的标记列表。 |
TextWeights
定义匹配项应在搜索查询中提升评分的索引字段的权重。
| 名称 | 类型 | 说明 |
|---|---|---|
| weights |
object |
用于提高文档评分的每个字段权重的字典。 键是字段名称,值是每个字段的权重。 |
TokenCharacterKind
表示令牌筛选器可以作的字符类。
| 值 | 说明 |
|---|---|
| letter |
将字母保存在标记中。 |
| digit |
在标记中保留数字。 |
| whitespace |
在标记中保留空格。 |
| punctuation |
在标记中保留标点符号。 |
| symbol |
将符号保留在标记中。 |
TokenFilterName
定义搜索引擎支持的所有令牌过滤器的名称。
TruncateTokenFilter
将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| length |
integer (int32) maximum: 300 |
300 |
将截断术语的长度。 默认值和最大值为 300。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
UaxUrlEmailTokenizer
将 URL 和电子邮件作为一个令牌进行标记化。 此 tokenizer 是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| maxTokenLength |
integer (int32) maximum: 300 |
255 |
最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 |
| name |
string |
tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
UniqueTokenFilter
筛选出与上一个标记相同的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| onlyOnSamePosition |
boolean |
False |
一个值,该值指示是否仅在同一位置删除重复项。 默认值为 false。 |
VectorEncodingFormat
用于解释向量字段内容的编码格式。
| 值 | 说明 |
|---|---|
| packedBit |
编码格式表示打包到更宽数据类型的位。 |
VectorSearch
包含与矢量搜索相关的配置选项。
| 名称 | 类型 | 说明 |
|---|---|---|
| algorithms | VectorSearchAlgorithmConfiguration[]: |
包含特定于索引或查询期间使用的算法的配置选项。 |
| compressions | VectorSearchCompression[]: |
包含特定于索引或查询期间使用的压缩方法的配置选项。 |
| profiles |
定义要与矢量搜索一起使用的配置组合。 |
|
| vectorizers | VectorSearchVectorizer[]: |
包含有关如何向量化文本矢量查询的配置选项。 |
VectorSearchAlgorithmKind
用于索引和查询的算法。
| 值 | 说明 |
|---|---|
| hnsw |
HNSW(Hierarchical Navigable Small World),一种近似最近邻算法。 |
| exhaustiveKnn |
详尽的 KNN 算法,将执行暴力搜索。 |
VectorSearchAlgorithmMetric
用于向量比较的相似度指标。 建议选择与训练嵌入模型相同的相似性指标。
| 值 | 说明 |
|---|---|
| cosine |
测量向量之间的角度以量化它们的相似性,而不考虑大小。 角度越小,相似度越近。 |
| euclidean |
计算多维空间中向量之间的直线距离。 距离越小,相似度越近。 |
| dotProduct |
计算元素乘积的总和,以衡量对齐和大小相似性。 越大、越积极,相似度越接近。 |
| hamming |
仅适用于位打包的二进制数据类型。 通过计算二进制向量中的不同位置来确定差异性。 差异越少,相似性越接近。 |
VectorSearchCompressionKind
用于索引和查询的压缩方法。
| 值 | 说明 |
|---|---|
| scalarQuantization |
标量量化,一种压缩方法。 在标量量子化中,原始向量值通过离散化和表示矢量的每个分量(使用一组量化值)压缩为较窄的类型,从而减少整体数据大小。 |
| binaryQuantization |
二进制量化,一种压缩方法。 在二进制量化中,原始向量值通过离散化和表示使用二进制值表示矢量的每个组件来压缩为更窄的二进制类型,从而减少整体数据大小。 |
VectorSearchCompressionTarget
压缩向量值的量化数据类型。
| 值 | 说明 |
|---|---|
| int8 |
8 位有符号整数。 |
VectorSearchProfile
定义要与矢量搜索一起使用的配置的组合。
| 名称 | 类型 | 说明 |
|---|---|---|
| algorithm |
string |
指定算法和可选参数的矢量搜索算法配置的名称。 |
| compression |
string |
指定压缩方法和可选参数的压缩方法配置的名称。 |
| name |
string |
要与此特定向量搜索配置文件关联的名称。 |
| vectorizer |
string |
配置为用于矢量搜索的矢量化的名称。 |
VectorSearchVectorizerKind
查询时要使用的矢量化方法。
| 值 | 说明 |
|---|---|
| azureOpenAI |
在查询时使用 Azure OpenAI 资源生成嵌入。 |
| customWebApi |
在查询时使用自定义 Web 终结点生成嵌入。 |
| aiServicesVision |
使用 Azure AI 服务视觉矢量化 API 在查询时为图像或文本输入生成嵌入。 |
| aml |
在查询时使用通过 Azure AI Foundry 模型目录部署的 Azure 机器学习终结点生成嵌入。 |
WebApiVectorizer
指定用于生成查询字符串嵌入的矢量的用户定义的向量器。 使用技能集的自定义 Web API 接口实现外部向量器的集成。
| 名称 | 类型 | 说明 |
|---|---|---|
| customWebApiParameters |
指定用户定义矢量化器的属性。 |
|
| kind |
string:
custom |
VectorSearchVectorizer 的类型。 |
| name |
string |
要与此特定向量化方法关联的名称。 |
WebApiVectorizerParameters
指定用于连接到用户定义的向量器的属性。
| 名称 | 类型 | 说明 |
|---|---|---|
| authIdentity | SearchIndexerDataIdentity: |
用于出站连接的用户分配的托管标识。 如果未指定 authResourceId,则使用系统分配的托管标识。 对索引器的更新(如果未指定标识)时,该值保持不变。 如果设置为“none”,则清除此属性的值。 |
| authResourceId |
string |
适用于连接到 Azure 函数中的外部代码或提供转换的其他应用程序中的自定义终结点。 此值应该是在向 Azure Active Directory 注册函数或应用时为该函数或应用创建的应用程序 ID。 指定后,矢量化使用搜索服务的托管 ID(系统或用户分配)和函数或应用的访问令牌连接到函数或应用,并将此值用作创建访问令牌范围的资源 ID。 |
| httpHeaders |
object |
发出 HTTP 请求所需的标头。 |
| httpMethod |
string |
HTTP 请求的方法。 |
| timeout |
string (duration) |
请求的所需超时。 默认值为 30 秒。 |
| uri |
string (uri) |
提供矢量化器的 Web API 的 URI。 |
WordDelimiterTokenFilter
将单词拆分为子词,对子词组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| @odata.type |
string:
#Microsoft. |
派生类型的歧视性。 |
|
| catenateAll |
boolean |
False |
一个值,该值指示是否将所有子词部分都加猫化。 例如,如果设置为 true,“Azure-Search-1”将变为“AzureSearch1”。 默认值为 false。 |
| catenateNumbers |
boolean |
False |
一个值,该值指示是否将延长数目部分的最大运行次数。 例如,如果设置为 true,则“1-2”变为“12”。 默认值为 false。 |
| catenateWords |
boolean |
False |
一个值,该值指示是否将延长单词部分的最大运行次数。 例如,如果设置为 true,“Azure-Search”将变为“AzureSearch”。 默认值为 false。 |
| generateNumberParts |
boolean |
True |
一个值,该值指示是否生成数字子词。 默认值为 true。 |
| generateWordParts |
boolean |
True |
一个值,该值指示是否生成部分词。 如果设置,会导致生成部分单词;例如,“AzureSearch”变为“Azure”“搜索”。 默认值为 true。 |
| name |
string |
令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。 |
|
| preserveOriginal |
boolean |
False |
一个值,该值指示是否保留原始单词并将其添加到子词列表中。 默认值为 false。 |
| protectedWords |
string[] |
要防止分隔的令牌列表。 |
|
| splitOnCaseChange |
boolean |
True |
一个值,该值指示是否拆分 caseChange 上的单词。 例如,如果设置为 true,“AzureSearch”将变为“Azure”“搜索”。 默认值为 true。 |
| splitOnNumerics |
boolean |
True |
一个值,该值指示是否对数字进行拆分。 例如,如果设置为 true,则“Azure1Search”变为“Azure”“1”搜索”。 默认值为 true。 |
| stemEnglishPossessive |
boolean |
True |
一个值,该值指示是否删除每个子词的尾随“'s”。 默认值为 true。 |