你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Indexes - Create Or Update

创建新的搜索索引或更新索引(如果已存在)。

PUT https:///indexes('{indexName}')?api-version=2025-11-01-preview
PUT https:///indexes('{indexName}')?api-version=2025-11-01-preview&allowIndexDowntime={allowIndexDowntime}

URI 参数

名称 必需 类型 说明
indexName
path True

string

索引的名称。

api-version
query True

string

minLength: 1

要用于此操作的 API 版本。

allowIndexDowntime
query

boolean

允许通过使索引脱机至少几秒钟,将新的分析器、分词器、令牌筛选器或字符筛选器添加到索引中。 这暂时会导致索引和查询请求失败。 索引的性能和写入可用性可能会在索引更新后几分钟内受到损害,或者对于非常大的索引,可能会受到更长时间的损害。

请求头

名称 必需 类型 说明
Accept True

Accept

接受(Accept)首部。

If-Match

string

定义 If-Match 条件。 仅当服务器上的 ETag 与此值匹配时,才会执行该作。

If-None-Match

string

定义 If-None-Match 条件。 仅当服务器上的 ETag 与此值不匹配时,才会执行该作。

Prefer True

Prefer

对于 HTTP PUT 请求,指示服务在成功时返回创建/更新的资源。

x-ms-client-request-id

string (uuid)

请求的不透明、全局唯一的客户端生成的字符串标识符。

请求正文

名称 必需 类型 说明
fields True

SearchField[]

索引的字段。

name True

string

索引的名称。

@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字符筛选器。

corsOptions

CorsOptions

用于控制索引的跨域资源共享(CORS)的选项。

defaultScoringProfile

string

如果在查询中未指定评分配置文件,则使用的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分(tf-idf)。

description

string

索引的描述。

encryptionKey

SearchResourceEncryptionKey

描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的规范化器。

permissionFilterOption

SearchIndexPermissionFilterOption

指示是否为索引启用权限筛选的值。

purviewEnabled

boolean

一个表示索引是否启用 Purview 的值。

scoringProfiles

ScoringProfile[]

索引的计分配置文件。

semantic

SemanticSearch

定义影响语义功能的搜索索引的参数。

similarity SimilarityAlgorithm:

评分和排名与搜索查询匹配的文档时使用的相似性算法的类型。 相似性算法只能在索引创建时定义,不能在现有索引上修改。 如果为 null,则使用 ClassicSimilarity 算法。

suggesters

SearchSuggester[]

索引的建议器。

tokenFilters TokenFilter[]:

标记筛选索引。

tokenizers LexicalTokenizer[]:

索引的 tokenizer。

vectorSearch

VectorSearch

包含与矢量搜索相关的配置选项。

响应

名称 类型 说明
200 OK

SearchIndex

请求已成功。

201 Created

SearchIndex

请求已成功,因此创建了一个新资源。

Other Status Codes

ErrorResponse

意外错误响应。

安全性

api-key

类型: apiKey
在: header

OAuth2Auth

类型: oauth2
流向: implicit
授权 URL: https://login.microsoftonline.com/common/oauth2/v2.0/authorize

作用域

名称 说明
https://search.azure.com/.default

示例

SearchServiceCreateOrUpdateIndex

示例请求

PUT https:///indexes('temp-preview-test')?api-version=2025-11-01-preview&allowIndexDowntime=





{
  "name": "temp-preview-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector4",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 32,
      "vectorSearchProfile": "config4"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "price",
      "type": "Edm.Double",
      "retrievable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true
    },
    {
      "name": "permissionFilters",
      "type": "Collection(Edm.String)",
      "retrievable": true,
      "filterable": true,
      "sortable": false,
      "facetable": true,
      "permissionFilter": "userIds"
    },
    {
      "name": "sensitivityLabels",
      "type": "Collection(Edm.String)",
      "retrievable": true,
      "filterable": true,
      "sortable": false,
      "facetable": true,
      "sensitivityLabel": true
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "my_tokenFilter"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "my_normalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore",
        "flightingOptIn": true
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      },
      {
        "name": "config4",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQWithoutOriginals"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      },
      {
        "amlParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "resourceId": "aml resource id",
          "timeout": "PT1M",
          "region": "aml region",
          "modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
        },
        "name": "aml",
        "kind": "aml"
      },
      {
        "amlParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "resourceId": "aml resource id",
          "timeout": "PT1M",
          "region": "aml region",
          "modelName": "Cohere-embed-v4"
        },
        "name": "aml-cohere",
        "kind": "aml"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        },
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        },
        "truncationDimension": 2
      },
      {
        "name": "myBQWithoutOriginals",
        "kind": "binaryQuantization",
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "discardOriginals"
        },
        "truncationDimension": 2
      }
    ]
  },
  "permissionFilterOption": "enabled",
  "purviewEnabled": true,
  "@odata.etag": "0x1234568AE7E58A1"
}

示例响应

{
  "name": "temp-preview-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "permissionFilterOption": "enabled",
  "purviewEnabled": true,
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector4",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 32,
      "vectorSearchProfile": "config4",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "price",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "synonymMaps": []
    },
    {
      "name": "permissionFilters",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "permissionFilter": "userIds",
      "synonymMaps": []
    },
    {
      "name": "sensitivityLabels",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "sensitivityLabel": true,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "my_normalizer",
      "tokenFilters": [
        "my_tokenFilter"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "flightingOptIn": true,
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      },
      {
        "name": "config4",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQWithoutOriginals"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      },
      {
        "name": "aml",
        "kind": "aml",
        "amlParameters": {
          "resourceId": "aml resource id",
          "region": "aml region",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
        }
      },
      {
        "name": "aml-cohere",
        "kind": "aml",
        "amlParameters": {
          "resourceId": "aml resource id",
          "region": "aml region",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "modelName": "Cohere-embed-v4"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQWithoutOriginals",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "discardOriginals"
        }
      }
    ]
  }
}
{
  "name": "temp-preview-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "permissionFilterOption": "enabled",
  "purviewEnabled": true,
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector4",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 32,
      "vectorSearchProfile": "config4",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "price",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "synonymMaps": []
    },
    {
      "name": "permissionFilters",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "permissionFilter": "userIds",
      "synonymMaps": []
    },
    {
      "name": "sensitivityLabels",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "sensitivityLabel": true,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "my_normalizer",
      "tokenFilters": [
        "my_tokenFilter"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "flightingOptIn": true,
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      },
      {
        "name": "config4",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQWithoutOriginals"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      },
      {
        "name": "aml",
        "kind": "aml",
        "amlParameters": {
          "resourceId": "aml resource id",
          "region": "aml region",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "modelName": "OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32"
        }
      },
      {
        "name": "aml-cohere",
        "kind": "aml",
        "amlParameters": {
          "resourceId": "aml resource id",
          "region": "aml region",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "modelName": "Cohere-embed-v4"
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQWithoutOriginals",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 10,
          "rescoreStorageMethod": "discardOriginals"
        }
      }
    ]
  }
}

定义

名称 说明
Accept

接受(Accept)首部。

AIFoundryModelCatalogName

将调用的 Azure AI Foundry 目录中的嵌入模型的名称。

AIServicesVisionParameters

指定用于向量查询图像或文本的 AI Services 视觉参数。

AIServicesVisionVectorizer

清除数据源的标识属性。

AMLParameters

指定连接到 AML 向量器的属性。

AMLVectorizer

指定通过 Azure AI Foundry 模型目录部署的 Azure 机器学习终结点,用于生成查询字符串的矢量嵌入。

AsciiFoldingTokenFilter

如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 此令牌筛选器是使用 Apache Lucene 实现的。

AzureOpenAIModelName

将调用的 Azure Open AI 模型名称。

AzureOpenAIVectorizer

指定用于矢量化查询字符串的 Azure OpenAI 资源。

AzureOpenAIVectorizerParameters

指定用于连接到 Azure OpenAI 资源的参数。

BinaryQuantizationCompression

包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。

BM25SimilarityAlgorithm

基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF-IDF 的算法,包括长度规范化(由“b”参数控制)以及术语频率饱和(由“k1”参数控制)。

CharFilterName

定义搜索引擎支持的所有字符过滤器的名称。

CjkBigramTokenFilter

形成从标准标记器生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的脚本。

ClassicSimilarityAlgorithm

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的旧相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。

ClassicTokenizer

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

CommonGramTokenFilter

为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 此令牌筛选器是使用 Apache Lucene 实现的。

CorsOptions

定义用于控制索引的跨域资源共享(CORS)的选项。

CustomAnalyzer

允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。

CustomNormalizer

允许为可筛选、可排序和可分面字段配置规范化,默认情况下,这些字段使用严格的匹配操作。 这是一个用户定义的配置,由至少一个或多个筛选器组成,用于修改存储的令牌。

DictionaryDecompounderTokenFilter

分解许多德语语言中发现的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。

DistanceScoringFunction

定义基于地理位置距离提升分数的函数。

DistanceScoringParameters

向距离评分函数提供参数值。

EdgeNGramTokenFilter

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

EdgeNGramTokenFilterSide

指定应从输入的哪一侧生成 n-gram。

EdgeNGramTokenFilterV2

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

EdgeNGramTokenizer

将输入从边缘标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

ElisionTokenFilter

删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 此令牌筛选器是使用 Apache Lucene 实现的。

ErrorAdditionalInfo

资源管理错误附加信息。

ErrorDetail

错误详细信息。

ErrorResponse

所有 Azure 资源管理器 API 的常见错误响应,以返回失败操作的错误详细信息。 (这也遵循 OData 错误响应格式)。

ExhaustiveKnnAlgorithmConfiguration

包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个矢量索引中执行暴力搜索。

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

FreshnessScoringFunction

定义一个函数,该函数根据日期时间字段的值提升分数。

FreshnessScoringParameters

为新鲜度评分函数提供参数值。

HnswAlgorithmConfiguration

包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。

HnswParameters

包含特定于 HNSW 算法的参数。

KeepTokenFilter

一个标记筛选器,它只保留包含指定字词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

KeywordMarkerTokenFilter

将术语标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。

KeywordTokenizer

以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。

KeywordTokenizerV2

以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。

LengthTokenFilter

删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

LexicalNormalizerName

定义搜索引擎支持的所有文本规范化器的名称。

LexicalTokenizerName

定义搜索引擎支持的所有分词器的名称。

LimitTokenFilter

在编制索引时限制令牌数。 此令牌筛选器是使用 Apache Lucene 实现的。

LuceneStandardAnalyzer

标准 Apache Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。

LuceneStandardTokenizer

中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。

LuceneStandardTokenizerV2

中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。

MagnitudeScoringFunction

定义一个函数,该函数根据数值字段的大小提升分数。

MagnitudeScoringParameters

向数量级评分函数提供参数值。

MappingCharFilter

一个字符筛选器,它应用使用映射选项定义的映射。 匹配是贪婪(给定点获胜时最长的模式匹配)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将单词减少到其基形式。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

MicrosoftStemmingTokenizerLanguage

列出 Microsoft 语言词干提取器支持的语言。

MicrosoftTokenizerLanguage

列出 Microsoft 语言分词器支持的语言。

NGramTokenFilter

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

NGramTokenFilterV2

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

NGramTokenizer

将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

PathHierarchyTokenizerV2

类似路径层次结构的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

PatternAnalyzer

灵活将文本通过正则表达式模式分隔为字词。 此分析器是使用 Apache Lucene 实现的。

PatternCaptureTokenFilter

使用 Java 正则表达式发出多个令牌 - 一个标记用于一个或多个模式中的每个捕获组。 此令牌筛选器是使用 Apache Lucene 实现的。

PatternReplaceCharFilter

替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。

PatternReplaceTokenFilter

替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。

PatternTokenizer

使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

PermissionFilter

指示是否应将该字段用作权限筛选器的值。

PhoneticEncoder

标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。

PhoneticTokenFilter

为拼音匹配创建令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

Prefer

对于 HTTP PUT 请求,指示服务在成功时返回创建/更新的资源。

RankingOrder

表示用于文档排序顺序的分数。

RescoringOptions

包含用于重新记录的选项。

ScalarQuantizationCompression

包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。

ScalarQuantizationParameters

包含特定于标量量化的参数。

ScoringFunctionAggregation

定义用于组合评分配置文件中所有评分函数的结果的聚合函数。

ScoringFunctionInterpolation

定义用于在一系列文档中插值分数提升的函数。

ScoringProfile

定义影响搜索查询中评分的搜索索引的参数。

SearchField

表示索引定义中的字段,该定义描述字段的名称、数据类型和搜索行为。

SearchFieldDataType

定义搜索索引中字段的数据类型。

SearchIndex

表示搜索索引定义,该定义描述索引的字段和搜索行为。

SearchIndexerDataNoneIdentity

清除数据源的标识属性。

SearchIndexerDataUserAssignedIdentity

指定要使用的数据源的标识。

SearchIndexPermissionFilterOption

指示是否为索引启用权限筛选的值。

SearchResourceEncryptionKey

Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。

SearchSuggester

定义建议 API 应如何应用于索引中的一组字段。

SemanticConfiguration

定义要在语义功能的上下文中使用的特定配置。

SemanticField

用作语义配置的一部分的字段。

SemanticPrioritizedFields

描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

SemanticSearch

定义影响语义功能的搜索索引的参数。

ShingleTokenFilter

将令牌的组合创建为单个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

SnowballTokenFilter

使用 Snowball 生成的词干分析器词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。

SnowballTokenFilterLanguage

用于 Snowball 令牌筛选器的语言。

StemmerOverrideTokenFilter

提供使用基于自定义字典的词干分析替代其他词干筛选器的功能。 任何字典词干术语都将标记为关键字,以便它们不会在链中以词干分析器进行词干。 必须放置在任何词干筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/StemmerOverrideFilter.html

StemmerTokenFilter

特定于语言的词干筛选。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

StemmerTokenFilterLanguage

用于词干分析器标记筛选器的语言。

StopAnalyzer

以非字母分隔文本;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。

StopwordsList

标识特定于语言的停用词的预定义列表。

StopwordsTokenFilter

从令牌流中删除停止字词。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

SynonymTokenFilter

匹配令牌流中的单个或多单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。

TagScoringFunction

定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档的分数。

TagScoringParameters

向标记评分函数提供参数值。

TextWeights

定义匹配项应在搜索查询中提升评分的索引字段的权重。

TokenCharacterKind

表示令牌筛选器可以作的字符类。

TokenFilterName

定义搜索引擎支持的所有令牌过滤器的名称。

TruncateTokenFilter

将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。

UaxUrlEmailTokenizer

将 URL 和电子邮件作为一个令牌进行标记化。 此 tokenizer 是使用 Apache Lucene 实现的。

UniqueTokenFilter

筛选出与上一个标记相同的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

VectorEncodingFormat

用于解释向量字段内容的编码格式。

VectorSearch

包含与矢量搜索相关的配置选项。

VectorSearchAlgorithmKind

用于索引和查询的算法。

VectorSearchAlgorithmMetric

用于向量比较的相似度指标。 建议选择与训练嵌入模型相同的相似性指标。

VectorSearchCompressionKind

用于索引和查询的压缩方法。

VectorSearchCompressionTarget

压缩向量值的量化数据类型。

VectorSearchProfile

定义要与矢量搜索一起使用的配置的组合。

VectorSearchVectorizerKind

查询时要使用的矢量化方法。

WebApiVectorizer

指定用于生成查询字符串嵌入的矢量的用户定义的向量器。 使用技能集的自定义 Web API 接口实现外部向量器的集成。

WebApiVectorizerParameters

指定用于连接到用户定义的向量器的属性。

WordDelimiterTokenFilter

将单词拆分为子词,对子词组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。

Accept

接受(Accept)首部。

说明
application/json;odata.metadata=minimal

AIFoundryModelCatalogName

将调用的 Azure AI Foundry 目录中的嵌入模型的名称。

说明
OpenAI-CLIP-Image-Text-Embeddings-vit-base-patch32

OpenAI-CLIP-图像-文本-嵌入-vit-base-patch32

OpenAI-CLIP-Image-Text-Embeddings-ViT-Large-Patch14-336

OpenAI-CLIP-图像-文本-嵌入-ViT-大-补丁14-336

Facebook-DinoV2-Image-Embeddings-ViT-Base

Facebook-DinoV2-Image-Embeddings-ViT-Base

Facebook-DinoV2-Image-Embeddings-ViT-Giant

Facebook-DinoV2-Image-Embeddings-ViT-Giant

Cohere-embed-v3-english

Cohere-embed-v3-english

Cohere-embed-v3-multilingual

Cohere-embed-v3-multilingual

Cohere-embed-v4

Cohere embed v4 模型,用于从文本和图像生成嵌入。

AIServicesVisionParameters

指定用于向量查询图像或文本的 AI Services 视觉参数。

名称 类型 说明
apiKey

string

指定 AI 服务资源的 API 密钥。

authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。 如果未指定 authResourceId,则使用系统分配的托管标识。 在更新索引时,如果未指定标识,则该值保持不变。 如果设置为“none”,则清除此属性的值。

modelVersion

string

调用 AI 服务视觉服务时要使用的模型版本。 如果未指定,它将默认为最新可用。

resourceUri

string (uri)

AI 服务资源的资源 URI。

AIServicesVisionVectorizer

清除数据源的标识属性。

名称 类型 说明
aiServicesVisionParameters

AIServicesVisionParameters

包含特定于 AI 服务视觉嵌入矢量化的参数。

kind string:

aiServicesVision

VectorSearchVectorizer 的类型。

name

string

要与此特定向量化方法关联的名称。

AMLParameters

指定连接到 AML 向量器的属性。

名称 类型 说明
key

string

(密钥身份验证必需)AML 服务的密钥。

modelName

AIFoundryModelCatalogName

部署在提供的终结点的 Azure AI Foundry 目录中的嵌入模型的名称。

region

string

(可选)用于令牌身份验证。 AML 服务部署到的区域。

resourceId

string

(令牌身份验证所必需的)。 AML 服务的 Azure 资源管理器资源 ID。 它的格式应为 subscriptions/{guid}/resourceGroups/{resource-group-name}/Microsoft.MachineLearningServices/workspaces/{workspace-name}/services/{service_name}。

timeout

string (duration)

(可选)如果指定,表明执行 API 调用的 http 客户端的超时值。

uri

string (uri)

(无需身份验证或密钥身份验证)要向其发送 JSON 有效负载的 AML 服务的评分 URI。 仅允许 https URI 方案。

AMLVectorizer

指定通过 Azure AI Foundry 模型目录部署的 Azure 机器学习终结点,用于生成查询字符串的矢量嵌入。

名称 类型 说明
amlParameters

AMLParameters

指定 AML 向量器的属性。

kind string:

aml

VectorSearchVectorizer 的类型。

name

string

要与此特定向量化方法关联的名称。

AsciiFoldingTokenFilter

如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

派生类型的歧视性。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

preserveOriginal

boolean

False

一个值,该值指示是否保留原始令牌。 默认值为 false。

AzureOpenAIModelName

将调用的 Azure Open AI 模型名称。

说明
text-embedding-ada-002

TextEmbeddingAda002 模型。

text-embedding-3-large

TextEmbedding3大型模型。

text-embedding-3-small

TextEmbedding3小型模型。

gpt-4o

GPT4o模型。

gpt-4o-mini

GPT4oMini型号。

gpt-4.1

GPT41型号。

gpt-4.1-mini

GPT41Mini型号。

gpt-4.1-nano

Gpt41Nano模型。

gpt-5

GPT5型号。

gpt-5-mini

Gpt5Mini型号。

gpt-5-nano

Gpt5Nano模型。

AzureOpenAIVectorizer

指定用于矢量化查询字符串的 Azure OpenAI 资源。

名称 类型 说明
azureOpenAIParameters

AzureOpenAIVectorizerParameters

包含特定于 Azure OpenAI 嵌入矢量化的参数。

kind string:

azureOpenAI

VectorSearchVectorizer 的类型。

name

string

要与此特定向量化方法关联的名称。

AzureOpenAIVectorizerParameters

指定用于连接到 Azure OpenAI 资源的参数。

名称 类型 说明
apiKey

string

指定的 Azure OpenAI 资源的 API 密钥。

authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。

deploymentId

string

指定资源上的 Azure OpenAI 模型部署的 ID。

modelName

AzureOpenAIModelName

在提供的 deploymentId 路径中部署的嵌入模型的名称。

resourceUri

string (uri)

Azure OpenAI 资源的资源 URI。

BinaryQuantizationCompression

包含特定于索引和查询期间使用的二进制量化压缩方法的配置选项。

名称 类型 说明
kind string:

binaryQuantization

向量搜索压缩的类型。

name

string

要与此特定配置关联的名称。

rescoringOptions

RescoringOptions

包含用于重新记录的选项。

truncationDimension

integer (int32)

要截断向量到的维度数。 截断向量可减少向量的大小,以及搜索期间需要传输的数据量。 这可以节省存储成本,并降低搜索性能,以牺牲召回率。 它只应用于使用 Matryoshka 表示法学习(MRL)训练的嵌入,例如 OpenAI 文本嵌入-3-large(小型)。 默认值为 null,表示不截断。

BM25SimilarityAlgorithm

基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF-IDF 的算法,包括长度规范化(由“b”参数控制)以及术语频率饱和(由“k1”参数控制)。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

派生类型的歧视性。

b

number (double)

此属性控制文档长度如何影响相关性分数。 默认情况下,使用值 0.75。 值 0.0 表示不应用长度规范化,而值 1.0 表示分数按文档长度完全规范化。

k1

number (double)

此属性控制每个匹配术语的术语频率与文档查询对的最终相关性分数之间的缩放函数。 默认情况下,使用值 1.2。 值 0.0 表示分数不会随着术语频率的增加而缩放。

CharFilterName

定义搜索引擎支持的所有字符过滤器的名称。

说明
html_strip

尝试剥离 HTML 构造的字符过滤器。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

形成从标准标记器生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

派生类型的歧视性。

ignoreScripts

CjkBigramTokenFilterScripts[]

要忽略的脚本。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

outputUnigrams

boolean

False

一个值,该值指示是输出 unigram 和 bigrams(如果为 true),还是只输出 bigrams(如果为 false)。 默认值为 false。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的脚本。

说明
han

在形成中日韩术语的二元组时忽略汉文字。

hiragana

在形成 CJK 术语的二元组时忽略平假名脚本。

katakana

在形成 CJK 术语的二元组时忽略片假名脚本。

hangul

在形成 CJK 术语的二元组时忽略韩文脚本。

ClassicSimilarityAlgorithm

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的旧相似性算法。 这种 TF-IDF 变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

派生类型的歧视性。

ClassicTokenizer

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

派生类型的歧视性。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

CommonGramTokenFilter

为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

派生类型的歧视性。

commonWords

string[]

常用单词集。

ignoreCase

boolean

False

一个值,该值指示常见字词匹配是否不区分大小写。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

queryMode

boolean

False

一个值,该值指示令牌筛选器是否处于查询模式。 在查询模式下,令牌筛选器会生成 bigrams,然后删除常用字词和单个字词,后跟一个常用词。 默认值为 false。

CorsOptions

定义用于控制索引的跨域资源共享(CORS)的选项。

名称 类型 说明
allowedOrigins

string[]

JavaScript 代码将被授予对索引访问权限的来源列表。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式的主机列表,或单个“*”以允许所有源(不推荐)。

maxAgeInSeconds

integer (int64)

浏览器应缓存 CORS 预检响应的持续时间。 默认为 5 分钟。

CustomAnalyzer

允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

派生类型的歧视性。

charFilters

CharFilterName[]

用于在分词器处理输入文本之前准备输入文本的字符过滤器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出的顺序运行。

name

string

分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenFilters

TokenFilterName[]

用于过滤掉或修改分词器生成的令牌的令牌过滤器列表。 例如,您可以指定一个小写过滤器,将所有字符转换为小写。 筛选器按列出的顺序运行。

tokenizer

LexicalTokenizerName

用于将连续文本划分为一系列标记的标记器的名称,例如将句子分解为单词。

CustomNormalizer

允许为可筛选、可排序和可分面字段配置规范化,默认情况下,这些字段使用严格的匹配操作。 这是一个用户定义的配置,由至少一个或多个筛选器组成,用于修改存储的令牌。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

派生类型的歧视性。

charFilters

CharFilterName[]

用于在处理输入文本之前准备输入文本的字符过滤器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出的顺序运行。

name

string

字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenFilters

TokenFilterName[]

用于过滤或修改输入令牌的令牌筛选器列表。 例如,您可以指定一个小写过滤器,将所有字符转换为小写。 筛选器按列出的顺序运行。

DictionaryDecompounderTokenFilter

分解许多德语语言中发现的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

派生类型的歧视性。

maxSubwordSize

integer (int32)

maximum: 300
15

最大子字大小。 仅输出比此短的子词。 默认值为 15。 最大值为 300。

minSubwordSize

integer (int32)

maximum: 300
2

最小子字大小。 输出的子词长度仅超过此长度。 默认值为 2。 最大值为 300。

minWordSize

integer (int32)

maximum: 300
5

最小字大小。 仅处理超过此长度的单词。 默认值为 5。 最大值为 300。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

onlyLongestMatch

boolean

False

一个值,该值指示是否仅向输出添加最长匹配的子词。 默认值为 false。

wordList

string[]

要与之匹配的字词列表。

DistanceScoringFunction

定义基于地理位置距离提升分数的函数。

名称 类型 说明
boost

number (double)

原始分数的乘数。 必须是不等于 1.0 的正数。

distance

DistanceScoringParameters

距离评分函数的参数值。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。

type string:

distance

评分函数类型。

DistanceScoringParameters

向距离评分函数提供参数值。

名称 类型 说明
boostingDistance

number (double)

距提升范围结束的参考位置的距离(以公里为单位)。

referencePointParameter

string

在搜索查询中传递的用于指定引用位置的参数的名称。

EdgeNGramTokenFilter

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

派生类型的歧视性。

maxGram

integer (int32)

2

最大 n 元语法长度。 默认值为 2。

minGram

integer (int32)

1

最小 n 元语法长度。 默认为 1。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

side

EdgeNGramTokenFilterSide

front

指定应从输入的哪一侧生成 n-gram。 默认值为“front”。

EdgeNGramTokenFilterSide

指定应从输入的哪一侧生成 n-gram。

说明
front

指定应从输入的前面生成 n-gram。

back

指定应从输入的背面生成 n-gram。

EdgeNGramTokenFilterV2

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

派生类型的歧视性。

maxGram

integer (int32)

maximum: 300
2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer (int32)

maximum: 300
1

最小 n 元语法长度。 默认为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

side

EdgeNGramTokenFilterSide

front

指定应从输入的哪一侧生成 n-gram。 默认值为“front”。

EdgeNGramTokenizer

将输入从边缘标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

派生类型的歧视性。

maxGram

integer (int32)

maximum: 300
2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer (int32)

maximum: 300
1

最小 n 元语法长度。 默认为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字符类。

ElisionTokenFilter

删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

派生类型的歧视性。

articles

string[]

要删除的项目集。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

ErrorAdditionalInfo

资源管理错误附加信息。

名称 类型 说明
info

附加信息。

type

string

附加信息类型。

ErrorDetail

错误详细信息。

名称 类型 说明
additionalInfo

ErrorAdditionalInfo[]

错误附加信息。

code

string

错误代码。

details

ErrorDetail[]

错误详细信息。

message

string

错误消息。

target

string

错误目标。

ErrorResponse

所有 Azure 资源管理器 API 的常见错误响应,以返回失败操作的错误详细信息。 (这也遵循 OData 错误响应格式)。

名称 类型 说明
error

ErrorDetail

错误对象。

ExhaustiveKnnAlgorithmConfiguration

包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个矢量索引中执行暴力搜索。

名称 类型 说明
exhaustiveKnnParameters

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

kind string:

exhaustiveKnn

向量搜索算法配置类型。

name

string

要与此特定配置关联的名称。

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

名称 类型 说明
metric

VectorSearchAlgorithmMetric

用于向量比较的相似度指标。

FreshnessScoringFunction

定义一个函数,该函数根据日期时间字段的值提升分数。

名称 类型 说明
boost

number (double)

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

freshness

FreshnessScoringParameters

新鲜度评分函数的参数值。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。

type string:

freshness

评分函数类型。

FreshnessScoringParameters

为新鲜度评分函数提供参数值。

名称 类型 说明
boostingDuration

string (duration)

特定文档的加速将停止的到期期限。

HnswAlgorithmConfiguration

包含特定于索引编制和查询期间使用的 HNSW 近似最近邻算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供了可调的权衡。

名称 类型 说明
hnswParameters

HnswParameters

包含特定于 HNSW 算法的参数。

kind string:

hnsw

向量搜索算法配置类型。

name

string

要与此特定配置关联的名称。

HnswParameters

包含特定于 HNSW 算法的参数。

名称 类型 默认值 说明
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

包含最近邻的动态列表的大小,在索引时使用。 增加此参数可能会提高索引质量,但代价是索引时间增加。 在某个时候,增加该参数会导致收益递减。

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

包含最近邻的动态列表的大小,在搜索时使用。 增加此参数可能会改善搜索结果,但代价是搜索速度变慢。 在某个时候,增加该参数会导致收益递减。

m

integer (int32)

minimum: 4
maximum: 10
4

在构造期间为每个新元素创建的双向链接数。 增加此参数值可能会提高召回率并减少具有高内在维数的数据集的检索时间,但代价是内存消耗增加和索引时间延长。

metric

VectorSearchAlgorithmMetric

用于向量比较的相似度指标。

KeepTokenFilter

一个标记筛选器,它只保留包含指定字词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

派生类型的歧视性。

keepWords

string[]

要保留的字词列表。

keepWordsCase

boolean

False

一个值,指示是否先小写所有单词。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordMarkerTokenFilter

将术语标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

派生类型的歧视性。

ignoreCase

boolean

False

一个值,指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。

keywords

string[]

要标记为关键字的字词列表。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordTokenizer

以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

派生类型的歧视性。

bufferSize

integer (int32)

256

读取缓冲区大小(以字节为单位)。 默认值为 256。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

KeywordTokenizerV2

以单个标记的形式发出整个输入。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

派生类型的歧视性。

maxTokenLength

integer (int32)

maximum: 300
256

最大令牌长度。 默认值为 256。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LengthTokenFilter

删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

派生类型的歧视性。

max

integer (int32)

maximum: 300
300

最大长度(以字符为单位)。 默认值和最大值为 300。

min

integer (int32)

maximum: 300
0

字符的最小长度。 默认为 0。 最大值为 300。 必须小于最大值的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

说明
ar.microsoft

Microsoft 阿拉伯语分析器。

ar.lucene

阿拉伯语 Lucene 分析仪。

hy.lucene

亚美尼亚语的 Lucene 分析仪。

bn.microsoft

适用于孟加拉语的 Microsoft 分析器。

eu.lucene

用于巴斯克语的 Lucene 分析仪。

bg.microsoft

保加利亚语的 Microsoft 分析器。

bg.lucene

保加利亚语的 Lucene 分析仪。

ca.microsoft

适用于加泰罗尼亚语的 Microsoft 分析器。

ca.lucene

用于加泰罗尼亚语的 Lucene 分析仪。

zh-Hans.microsoft

Microsoft 中文分析器(简体)。

zh-Hans.lucene

Lucene 中文分析仪(简体)。

zh-Hant.microsoft

Microsoft 中文分析器(繁体)。

zh-Hant.lucene

Lucene 中文分析仪(繁体)。

hr.microsoft

克罗地亚语的 Microsoft 分析器。

cs.microsoft

捷克语的 Microsoft 分析器。

cs.lucene

捷克的 Lucene 分析仪。

da.microsoft

丹麦语的 Microsoft 分析器。

da.lucene

丹麦语 Lucene 分析仪。

nl.microsoft

适用于荷兰语的 Microsoft 分析器。

nl.lucene

荷兰语的 Lucene 分析仪。

en.microsoft

Microsoft Analyzer for English。

en.lucene

Lucene 分析仪,用于英语。

et.microsoft

爱沙尼亚语的 Microsoft 分析器。

fi.microsoft

芬兰语的 Microsoft 分析器。

fi.lucene

芬兰语的 Lucene 分析仪。

fr.microsoft

法语的 Microsoft 分析器。

fr.lucene

法语 Lucene 分析仪。

gl.lucene

用于加利西亚语的 Lucene 分析仪。

de.microsoft

德语的 Microsoft 分析器。

de.lucene

德语 Lucene 分析仪。

el.microsoft

希腊语的 Microsoft 分析器。

el.lucene

希腊语 Lucene 分析仪。

gu.microsoft

古吉拉特语的 Microsoft 分析器。

he.microsoft

希伯来语的 Microsoft 分析器。

hi.microsoft

印地语的 Microsoft 分析器。

hi.lucene

印地语 Lucene 分析仪。

hu.microsoft

匈牙利语的 Microsoft 分析器。

hu.lucene

匈牙利语的 Lucene 分析仪。

is.microsoft

冰岛语的 Microsoft 分析器。

id.microsoft

Microsoft 印度尼西亚语分析器 (印尼语)。

id.lucene

印度尼西亚语的 Lucene 分析仪。

ga.lucene

爱尔兰语 Lucene 分析仪。

it.microsoft

意大利语的 Microsoft 分析器。

it.lucene

意大利语 Lucene 分析仪。

ja.microsoft

日语的 Microsoft 分析器。

ja.lucene

日语 Lucene 分析仪。

kn.microsoft

适用于卡纳达语的 Microsoft 分析器。

ko.microsoft

韩语的 Microsoft 分析器。

ko.lucene

韩语Lucene分析仪。

lv.microsoft

Microsoft Analyzer for Latvian。

lv.lucene

拉脱维亚的 Lucene 分析仪。

lt.microsoft

立陶宛语的 Microsoft 分析器。

ml.microsoft

适用于马拉雅拉姆语的 Microsoft 分析器。

ms.microsoft

Microsoft 马来语分析器(拉丁语)。

mr.microsoft

Microsoft 马拉地语分析器。

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

挪威的 Lucene 分析仪。

fa.lucene

用于波斯语的 Lucene 分析仪。

pl.microsoft

适用于波兰语的 Microsoft 分析器。

pl.lucene

用于波兰语的 Lucene 分析仪。

pt-BR.microsoft

葡萄牙语(巴西)的 Microsoft 分析器。

pt-BR.lucene

葡萄牙语(巴西)的 Lucene 分析仪。

pt-PT.microsoft

Microsoft Analyzer for Portuguese (葡萄牙) 。

pt-PT.lucene

葡萄牙语(葡萄牙)的 Lucene 分析仪。

pa.microsoft

旁遮普语的 Microsoft 分析器。

ro.microsoft

罗马尼亚语的 Microsoft 分析器。

ro.lucene

罗马尼亚语的 Lucene 分析仪。

ru.microsoft

俄语的 Microsoft 分析器。

ru.lucene

俄语 Lucene 分析仪。

sr-cyrillic.microsoft

塞尔维亚语(西里尔文)的 Microsoft 分析器。

sr-latin.microsoft

Microsoft 塞尔维亚语分析器(拉丁语)。

sk.microsoft

Microsoft Analyzer for Slovak。

sl.microsoft

Microsoft 分析器 for Slovenian。

es.microsoft

西班牙语的 Microsoft 分析器。

es.lucene

西班牙语的 Lucene 分析仪。

sv.microsoft

瑞典语的 Microsoft 分析器。

sv.lucene

瑞典语 Lucene 分析仪。

ta.microsoft

泰米尔语的 Microsoft 分析器。

te.microsoft

泰卢固语的 Microsoft 分析器。

th.microsoft

适用于泰语的 Microsoft 分析器。

th.lucene

泰式 Lucene 分析仪。

tr.microsoft

土耳其语的 Microsoft 分析器。

tr.lucene

土耳其语 Lucene 分析仪。

uk.microsoft

乌克兰语的 Microsoft 分析器。

ur.microsoft

乌尔都语的 Microsoft 分析器。

vi.microsoft

Microsoft 越南语分析器。

standard.lucene

标准 Lucene 分析仪。

standardasciifolding.lucene

标准 ASCII 折叠 Lucene 分析仪。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

将字段的全部内容视为单个标记。 这对于邮政编码、ID 和某些产品名称等数据非常有用。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

灵活将文本通过正则表达式模式分隔为字词。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

将非字母的文本除以小写形式,并将其转换为小写。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

以非字母分隔文本;应用小写和非索引字标记筛选器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

使用空格 tokenizer 的分析器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

定义搜索引擎支持的所有文本规范化器的名称。

说明
asciifolding

如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

将标记文本规范化为小写。 请参阅 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

标准归一化器,由小写和 asciifolding 组成。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

将标记文本规范化为大写。 请参阅 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

定义搜索引擎支持的所有分词器的名称。

说明
classic

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

将输入从边缘标记为给定大小的 n 元语法。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

以单个标记的形式发出整个输入。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

在非字母处划分文本。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

将非字母的文本除以小写形式,并将其转换为小写。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

使用特定于语言的规则划分文本。

microsoft_language_stemming_tokenizer

使用特定于语言的规则划分文本,并将单词减少到其基形式。

nGram

将输入标记为给定大小的 n 元语法。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

类似路径层次结构的 Tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

使用正则表达式模式匹配构造不同令牌的 Tokenizer。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

标准Lucene分析仪;由标准分词器、小写过滤器和停止过滤器组成。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

将 URL 和电子邮件作为一个令牌进行标记化。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

在空格处划分文本。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

在编制索引时限制令牌数。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

派生类型的歧视性。

consumeAllTokens

boolean

False

一个值,该值指示是否必须使用输入中的所有令牌,即使达到 maxTokenCount 也是如此。 默认值为 false。

maxTokenCount

integer (int32)

1

要生成的令牌的最大数目。 默认为 1。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LuceneStandardAnalyzer

标准 Apache Lucene 分析器;由标准 tokenizer、小写筛选器和停止筛选器组成。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

派生类型的歧视性。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

stopwords

string[]

非索引字列表。

LuceneStandardTokenizer

中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

派生类型的歧视性。

maxTokenLength

integer (int32)

255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

LuceneStandardTokenizerV2

中断 Unicode 文本分段规则后面的文本。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

派生类型的歧视性。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MagnitudeScoringFunction

定义一个函数,该函数根据数值字段的大小提升分数。

名称 类型 说明
boost

number (double)

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。

magnitude

MagnitudeScoringParameters

数量级评分函数的参数值。

type string:

magnitude

评分函数类型。

MagnitudeScoringParameters

向数量级评分函数提供参数值。

名称 类型 说明
boostingRangeEnd

number (double)

提升结束的字段值。

boostingRangeStart

number (double)

开始提升的字段值。

constantBoostBeyondRange

boolean

指示是否对超出范围结束值的字段值应用恒定提升的值;默认值为 false。

MappingCharFilter

一个字符筛选器,它应用使用映射选项定义的映射。 匹配是贪婪(给定点获胜时最长的模式匹配)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

派生类型的歧视性。

mappings

string[]

以下格式的映射列表:“a=>b”(字符“a”的所有匹配项都将替换为字符“b”)。

name

string

字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将单词减少到其基形式。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

派生类型的歧视性。

isSearchTokenizer

boolean

False

一个值,指示如何使用 tokenizer。 如果用作搜索标记器,则设置为 true,如果用作索引标记器,则设置为 false。 默认值为 false。

language

MicrosoftStemmingTokenizerLanguage

要使用的语言。 默认值为英语。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

派生类型的歧视性。

isSearchTokenizer

boolean

False

一个值,指示如何使用 tokenizer。 如果用作搜索标记器,则设置为 true,如果用作索引标记器,则设置为 false。 默认值为 false。

language

MicrosoftTokenizerLanguage

要使用的语言。 默认值为英语。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

MicrosoftStemmingTokenizerLanguage

列出 Microsoft 语言词干提取器支持的语言。

说明
arabic

选择阿拉伯语的 Microsoft 词干提取器。

bangla

选择孟加拉语的 Microsoft 词干提取器。

bulgarian

选择保加利亚语的 Microsoft 词干提取器。

catalan

选择加泰罗尼亚语的 Microsoft 词干提取器。

croatian

选择克罗地亚语的 Microsoft 词干提取器。

czech

选择捷克语的 Microsoft 词干提取器。

danish

选择丹麦语的 Microsoft 词干提取器。

dutch

选择荷兰语的 Microsoft 词干提取器。

english

选择英语的 Microsoft 词干标记器。

estonian

选择爱沙尼亚语的 Microsoft 词干标记器。

finnish

选择芬兰语的 Microsoft 词干提取器。

french

选择法语的 Microsoft 词干提取器。

german

选择德语的 Microsoft 词干提取分词器。

greek

选择希腊语的 Microsoft 词干提取器。

gujarati

选择古吉拉特语的 Microsoft 词干提取标记器。

hebrew

选择希伯来语的 Microsoft 词干提取器。

hindi

选择印地语的 Microsoft 词干标记器。

hungarian

选择匈牙利语的 Microsoft 词干提取器。

icelandic

选择冰岛语的 Microsoft 词干提取分词器。

indonesian

选择印度尼西亚语的 Microsoft 词干提取器。

italian

选择意大利语的 Microsoft 词干提取器。

kannada

选择卡纳达语的 Microsoft 词干提取器。

latvian

选择拉脱维亚语的 Microsoft 词干提取标记器。

lithuanian

选择立陶宛语的 Microsoft 词干标记器。

malay

选择马来语的 Microsoft 词干提取分词器。

malayalam

选择马拉雅拉姆语的 Microsoft 词干提取器。

marathi

选择马拉地语的 Microsoft 词干提取器。

norwegianBokmaal

Selects the Microsoft stemming tokenizer for Norwegian (BokmÃll).

polish

选择波兰语的 Microsoft 词干提取分词器。

portuguese

选择葡萄牙语的 Microsoft 词干提取分词器。

portugueseBrazilian

选择葡萄牙语(巴西)的 Microsoft 词干提取器。

punjabi

选择旁遮普语的 Microsoft 词干提取器。

romanian

选择罗马尼亚语的 Microsoft 词干提取分词器。

russian

选择俄语的 Microsoft 词干标记器。

serbianCyrillic

选择塞尔维亚语(西里尔文)的 Microsoft 词干提取器。

serbianLatin

选择塞尔维亚语(拉丁语)的 Microsoft 词干提取分词器。

slovak

选择斯洛伐克语的 Microsoft 词干提取器。

slovenian

选择斯洛文尼亚语的 Microsoft 词干提取器。

spanish

选择西班牙语的 Microsoft 词干标记器。

swedish

选择瑞典语的 Microsoft 词干提取分词器。

tamil

选择泰米尔语的 Microsoft 词干提取器。

telugu

选择泰卢固语的 Microsoft 词干提取器。

turkish

选择土耳其语的 Microsoft 词干提取器。

ukrainian

选择乌克兰语的 Microsoft 词干提取器。

urdu

选择乌尔都语的 Microsoft 词干提取器。

MicrosoftTokenizerLanguage

列出 Microsoft 语言分词器支持的语言。

说明
bangla

选择孟加拉语的 Microsoft 分词器。

bulgarian

选择保加利亚语的 Microsoft 分词器。

catalan

选择加泰罗尼亚语的 Microsoft 分词器。

chineseSimplified

选择中文的 Microsoft 分词器(简体)。

chineseTraditional

选择中文(繁体)的 Microsoft 分词器。

croatian

选择克罗地亚语的 Microsoft 分词器。

czech

选择捷克语的 Microsoft 分词器。

danish

选择丹麦语的 Microsoft 分词器。

dutch

选择荷兰语的 Microsoft 分词器。

english

选择英语的 Microsoft 分词器。

french

选择法语的 Microsoft 分词器。

german

选择德语的 Microsoft 分词器。

greek

选择希腊语的 Microsoft 分词器。

gujarati

选择古吉拉特语的 Microsoft 分词器。

hindi

选择印地语的 Microsoft 分词器。

icelandic

选择冰岛语的 Microsoft 分词器。

indonesian

选择印度尼西亚语的 Microsoft 分词器。

italian

选择意大利语的 Microsoft 分词器。

japanese

选择日语的 Microsoft 分词器。

kannada

选择卡纳达语的 Microsoft 分词器。

korean

选择韩语的 Microsoft 分词器。

malay

选择马来语的 Microsoft 分词器。

malayalam

选择马拉雅拉姆语的 Microsoft 分词器。

marathi

选择马拉地语的 Microsoft 分词器。

norwegianBokmaal

Selects the Microsoft tokenizer for Norwegian (Bokmål).

polish

选择波兰语的 Microsoft 分词器。

portuguese

选择葡萄牙语的 Microsoft 分词器。

portugueseBrazilian

选择葡萄牙语(巴西)的 Microsoft 分词器。

punjabi

选择旁遮普语的 Microsoft 分词器。

romanian

选择罗马尼亚语的 Microsoft 分词器。

russian

选择俄语的 Microsoft 分词器。

serbianCyrillic

选择塞尔维亚语(西里尔文)的 Microsoft 分词器。

serbianLatin

选择塞尔维亚语(拉丁语)的 Microsoft 分词器。

slovenian

选择斯洛文尼亚语的 Microsoft 分词器。

spanish

选择西班牙语的 Microsoft 分词器。

swedish

选择瑞典语的 Microsoft 分词器。

tamil

选择泰米尔语的 Microsoft 分词器。

telugu

选择泰卢固语的 Microsoft 分词器。

thai

选择泰语的 Microsoft 分词器。

ukrainian

选择乌克兰语的 Microsoft 分词器。

urdu

选择乌尔都语的 Microsoft 分词器。

vietnamese

选择越南语的 Microsoft 分词器。

NGramTokenFilter

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

派生类型的歧视性。

maxGram

integer (int32)

2

最大 n 元语法长度。 默认值为 2。

minGram

integer (int32)

1

最小 n 元语法长度。 默认为 1。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

NGramTokenFilterV2

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

派生类型的歧视性。

maxGram

integer (int32)

maximum: 300
2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer (int32)

maximum: 300
1

最小 n 元语法长度。 默认为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

NGramTokenizer

将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

派生类型的歧视性。

maxGram

integer (int32)

maximum: 300
2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer (int32)

maximum: 300
1

最小 n 元语法长度。 默认为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字符类。

PathHierarchyTokenizerV2

类似路径层次结构的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

派生类型的歧视性。

delimiter

string

maxLength: 1
/

要使用的分隔符字符。 默认值为“/”。

maxTokenLength

integer (int32)

maximum: 300
300

最大令牌长度。 默认值和最大值为 300。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

replacement

string

maxLength: 1
/

一个值,如果设置,则替换分隔符字符。 默认值为“/”。

reverse

boolean

False

一个值,该值指示是否按反向顺序生成令牌。 默认值为 false。

skip

integer (int32)

0

要跳过的初始令牌数。 默认为 0。

PatternAnalyzer

灵活将文本通过正则表达式模式分隔为字词。 此分析器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

派生类型的歧视性。

flags

string

正则表达式标志,指定为 RegexFlags 值的 '|' 分隔字符串。

lowercase

boolean

True

指示术语是否应小写的值。 默认值为 true。

name

string

分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

\W+

用于匹配标记分隔符的正则表达式模式。 默认是匹配一个或多个非单词字符的表达式。

stopwords

string[]

非索引字列表。

PatternCaptureTokenFilter

使用 Java 正则表达式发出多个令牌 - 一个标记用于一个或多个模式中的每个捕获组。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

派生类型的歧视性。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

patterns

string[]

要与每个令牌匹配的模式列表。

preserveOriginal

boolean

True

一个值,该值指示是否返回原始令牌,即使其中一个模式匹配。 默认值为 true。

PatternReplaceCharFilter

替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

派生类型的歧视性。

name

string

字符筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

正则表达式模式。

replacement

string

替换文字。

PatternReplaceTokenFilter

替换输入字符串中的字符的字符筛选器。 它使用正则表达式来标识要保留的字符序列和替换模式来标识要替换的字符。 例如,假设输入文本“aa bb aa bb”,模式“(aa)\s+(bb)”,并替换“$1#$2”,结果将为“aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

派生类型的歧视性。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

正则表达式模式。

replacement

string

替换文字。

PatternTokenizer

使用正则表达式模式匹配构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

派生类型的歧视性。

flags

string

正则表达式标志,指定为 RegexFlags 值的 '|' 分隔字符串。

group

integer (int32)

-1

正则表达式模式中匹配组的从零开始的序号,要提取到标记中。 如果要使用整个模式将输入拆分为标记,则使用 -1,而不考虑匹配的组。 默认值为 -1。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

pattern

string

\W+

用于匹配标记分隔符的正则表达式模式。 默认是匹配一个或多个非单词字符的表达式。

PermissionFilter

指示是否应将该字段用作权限筛选器的值。

说明
userIds

字段表示应用于过滤查询文档访问权限的用户 ID。

groupIds

字段表示组 ID,应用于筛选查询上的文档访问权限。

rbacScope

字段表示一个 RBAC 范围,应用于筛选查询上的文档访问权限。

PhoneticEncoder

标识要与 PhoneticTokenFilter 一起使用的语音编码器类型。

说明
metaphone

将令牌编码为 Metaphone 值。

doubleMetaphone

将标记编码为双元音值。

soundex

将标记编码为 Soundex 值。

refinedSoundex

将标记编码为精炼的 Soundex 值。

caverphone1

将标记编码为 Caverphone 1.0 值。

caverphone2

将标记编码为 Caverphone 2.0 值。

cologne

将标记编码为科隆语音值。

nysiis

将代币编码为 NYSIIS 值。

koelnerPhonetik

使用 Kölner Phonetik 算法对令牌进行编码。

haasePhonetik

使用 Kölner Phonetik 算法的 Haase 细化对标记进行编码。

beiderMorse

将令牌编码为 Beider-Morse 值。

PhoneticTokenFilter

为拼音匹配创建令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

派生类型的歧视性。

encoder

PhoneticEncoder

metaphone

要使用的拼音编码器。 默认值为“metaphone”。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

replace

boolean

True

一个值,该值指示编码的令牌是否应替换原始令牌。 如果为 false,则编码的令牌将添加为同义词。 默认值为 true。

Prefer

对于 HTTP PUT 请求,指示服务在成功时返回创建/更新的资源。

说明
return=representation

RankingOrder

表示用于文档排序顺序的分数。

说明
BoostedRerankerScore

将排序顺序设置为 BoostedRerankerScore

RerankerScore

将排序顺序设置为 ReRankerScore

RescoringOptions

包含用于重新记录的选项。

名称 类型 默认值 说明
defaultOversampling

number (double)

默认过度采样因子。 过采样检索更多的潜在文档集,以抵消由于量化而造成的分辨率损失。 这增加了将在全精度向量上重新评分的结果集。 最小值为 1,这意味着没有过度采样(1x)。 只有当 'enableRescoring' 为 true 时,才能设置此参数。 较高的值会以牺牲延迟为代价提高召回率。

enableRescoring

boolean

True

如果设置为 true,则在对压缩向量进行初始搜索后,将使用全精度向量重新计算相似性分数。 这将提高召回率,代价是延迟。

rescoreStorageMethod enum:
  • discardOriginals
  • preserveOriginals
preserveOriginals

控制原始矢量的存储方法。 此设置是不可变的。

ScalarQuantizationCompression

包含特定于索引和查询期间使用的标量量化压缩方法的配置选项。

名称 类型 说明
kind string:

scalarQuantization

向量搜索压缩的类型。

name

string

要与此特定配置关联的名称。

rescoringOptions

RescoringOptions

包含用于重新记录的选项。

scalarQuantizationParameters

ScalarQuantizationParameters

包含特定于标量量化的参数。

truncationDimension

integer (int32)

要截断向量到的维度数。 截断向量可减少向量的大小,以及搜索期间需要传输的数据量。 这可以节省存储成本,并降低搜索性能,以牺牲召回率。 它只应用于使用 Matryoshka 表示法学习(MRL)训练的嵌入,例如 OpenAI 文本嵌入-3-large(小型)。 默认值为 null,表示不截断。

ScalarQuantizationParameters

包含特定于标量量化的参数。

名称 类型 说明
quantizedDataType

VectorSearchCompressionTarget

压缩向量值的量化数据类型。

ScoringFunctionAggregation

定义用于组合评分配置文件中所有评分函数的结果的聚合函数。

说明
sum

通过所有评分函数结果的总和来提升分数。

average

通过所有评分函数结果的平均值来提升分数。

minimum

提高所有评分函数结果的最小值。

maximum

将分数提高到所有评分函数结果的最大值。

firstMatching

使用评分配置文件中的第一个适用评分函数提高分数。

product

通过所有评分函数结果的乘积来提高分数。

ScoringFunctionInterpolation

定义用于在一系列文档中插值分数提升的函数。

说明
linear

以线性递减的量提高分数。 这是评分函数的默认插值。

constant

通过恒定系数提高分数。

quadratic

将分数提高二次方递减的量。 分数越高,提升会缓慢下降,随着分数的下降,提升会越快。 标签评分函数不允许使用此插值选项。

logarithmic

将分数提高对数递减的量。 分数越高,提升会迅速减少,而随着分数的降低,提升会越慢。 标签评分函数不允许使用此插值选项。

ScoringProfile

定义影响搜索查询中评分的搜索索引的参数。

名称 类型 说明
functionAggregation

ScoringFunctionAggregation

指示如何组合各个评分函数的结果的值。 默认为“Sum”。 如果没有评分函数,则忽略。

functions ScoringFunction[]:

影响文档评分的函数集合。

name

string

评分配置文件的名称。

text

TextWeights

根据某些索引字段中的文本匹配提高评分的参数。

SearchField

表示索引定义中的字段,该定义描述字段的名称、数据类型和搜索行为。

名称 类型 说明
analyzer

LexicalAnalyzerName

要用于字段的分析器的名称。 此选项只能与可搜索字段一起使用,不能与 searchAnalyzer 或 indexAnalyzer 一起设置。 选择分析器后,无法更改该字段。 对于复杂字段,必须为 null。

dimensions

integer (int32)

minimum: 2
maximum: 4096

矢量字段的维度。

facetable

boolean

一个值,该值指示是否允许在分面查询中引用字段。 通常在按类别包含命中次数的搜索结果展示中使用(例如,搜索数码相机并按品牌、像素、价格等查看命中)。 对于复杂字段,此属性必须为 null。 无法分面 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint)类型的字段。 对于所有其他简单字段,默认值为 true。

fields

SearchField[]

如果子字段是类型为 Edm.ComplexType 或 Collection(Edm.ComplexType) 的字段,则为子字段列表。 对于简单字段,必须为 null 或空。

filterable

boolean

一个值,该值指示是否允许在$filter查询中引用字段。 filterable 不同于可搜索的字符串的处理方式。 可筛选的 Edm.String 或 Collection(Edm.String)类型的字段不会进行断字,因此比较仅适用于完全匹配项。 例如,如果将此类字段 f 设置为“sunny day”,则 $filter=f eq 'sunny' 将找不到匹配项,但 $filter=f eq 'sunny day' 将。 对于复杂字段,此属性必须为 null。 对于简单字段,默认值为 true,对于复杂字段,默认值为 null。

indexAnalyzer

LexicalAnalyzerName

在索引时为字段使用的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 searchAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 选择分析器后,无法更改该字段。 对于复杂字段,必须为 null。

key

boolean

一个值,该值指示字段是否唯一标识索引中的文档。 每个索引中的一个顶级字段必须选择为键字段,并且必须的类型为 Edm.String。 键字段可用于直接查找文档并更新或删除特定文档。 对于简单字段,默认值为 false,对于复杂字段,默认值为 null。

name

string

字段的名称,在索引或父字段的字段集合中必须唯一。

normalizer

LexicalNormalizerName

要用于字段的规范化器的名称。 此选项只能用于启用了可过滤、可排序或可分面的字段。 选择归一化器后,无法为字段更改它。 对于复杂字段,必须为 null。

permissionFilter

PermissionFilter

指示是否应将该字段用作权限筛选器的值。

retrievable

boolean

一个值,该值指示是否可以在搜索结果中返回字段。 如果要使用字段(例如边距)作为筛选器、排序或评分机制,但不希望字段对最终用户可见,则可以禁用此选项。 对于键字段,此属性必须为 true,对于复杂字段,此属性必须为 null。 可以在现有字段上更改此属性。 启用此属性不会导致索引存储要求增加。 对于简单字段,默认值为 true,对于向量字段为 false,对于复杂字段,默认值为 null。

searchAnalyzer

LexicalAnalyzerName

在搜索时用于字段的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 indexAnalyzer 一起设置,不能与 analyzer 选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 可以在现有字段中更新此分析器。 对于复杂字段,必须为 null。

searchable

boolean

一个值,该值指示字段是否可全文搜索。 这意味着它将在编制索引期间进行断字分析。 如果将可搜索字段设置为“sunny day”等值,则内部会将其拆分为单个标记“sunny”和“day”。 这实现了对这些词的全文搜素。 默认情况下,可搜索类型为 Edm.String 或 Collection(Edm.String)的字段。 对于其他非字符串数据类型的简单字段,此属性必须为 false,对于复杂字段,此属性必须为 null。 注意:可搜索字段在索引中使用额外的空间,以适应用于全文搜索的字段值的其他标记化版本。 如果要在索引中节省空间,并且不需要在搜索中包含字段,请将可搜索设置为 false。

sensitivityLabel

boolean

一个表示字段是否包含敏感标签信息的值。

sortable

boolean

一个值,该值指示是否启用要在$orderby表达式中引用的字段。 默认情况下,搜索引擎按分数对结果进行排序,但在很多体验中,用户希望按文档中的字段进行排序。 仅当简单字段是单值(它在父文档的作用域中具有单个值)时,才能进行排序。 简单集合字段不可排序,因为它们是多值。 复杂集合的简单子字段也是多值,因此无法排序。 无论是直接父字段还是上级字段,都是如此,这就是复杂的集合。 复杂字段不能进行排序,并且此类字段的 sortable 属性必须为 null。 对于单值简单字段,sortable 的默认值为 true,对于多值简单字段为 false,对于复杂字段为 null。

stored

boolean

一个不可变值,该值指示字段是否将单独保存在要在搜索结果中返回的磁盘上。 如果不打算在搜索响应中返回字段内容以节省存储开销,则可以禁用此选项。 这只能在创建索引期间设置,并且只能为向量字段设置。 对于现有字段,不能更改此属性,也不能为新字段设置为 false。 如果此属性设置为 false,则属性“retrievable”也必须设置为 false。 对于键字段、新字段和非向量字段,此属性必须为 true 或未设置,并且对于复杂字段必须为 null。 禁用此属性可以减少索引存储要求。 矢量字段的默认值为 true。

synonymMaps

string[]

要与此字段关联的同义词映射的名称列表。 此选项只能与可搜索字段一起使用。 目前每个字段仅支持一个同义词映射。 将同义词映射分配给字段可确保使用同义词映射中的规则在查询时扩展针对该字段的查询词。 可以在现有字段上更改此属性。 对于复杂字段,必须为 null 或空集合。

type

SearchFieldDataType

字段的数据类型。

vectorEncoding

VectorEncodingFormat

用于解释字段内容的编码格式。

vectorSearchProfile

string

矢量搜索配置文件的名称,该配置文件指定要在搜索向量字段时使用的算法和向量器。

SearchFieldDataType

定义搜索索引中字段的数据类型。

说明
Edm.String

指示字段包含字符串。

Edm.Int32

指示字段包含 32 位有符号整数。

Edm.Int64

指示字段包含 64 位有符号整数。

Edm.Double

指示字段包含 IEEE 双精度浮点数。

Edm.Boolean

指示字段包含布尔值(true 或 false)。

Edm.DateTimeOffset

指示字段包含日期/时间值,包括时区信息。

Edm.GeographyPoint

指示字段包含经度和纬度方面的地理位置。

Edm.ComplexType

指示字段包含一个或多个复杂对象,而这些对象又具有其他类型的子字段。

Edm.Single

指示字段包含单精度浮点数。 这仅在与 Collection(Edm.Single) 一起使用时有效。

Edm.Half

指示字段包含半精度浮点数。 这仅在与 Collection(Edm.Half) 一起使用时有效。

Edm.Int16

指示字段包含 16 位有符号整数。 这仅在与 Collection(Edm.Int16) 一起使用时有效。

Edm.SByte

指示字段包含 8 位有符号整数。 这仅在与 Collection(Edm.SByte) 一起使用时有效。

Edm.Byte

指示字段包含 8 位无符号整数。 这仅在与 Collection(Edm.Byte) 一起使用时有效。

SearchIndex

表示搜索索引定义,该定义描述索引的字段和搜索行为。

名称 类型 说明
@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字符筛选器。

corsOptions

CorsOptions

用于控制索引的跨域资源共享(CORS)的选项。

defaultScoringProfile

string

如果在查询中未指定评分配置文件,则使用的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分(tf-idf)。

description

string

索引的描述。

encryptionKey

SearchResourceEncryptionKey

描述在 Azure Key Vault 中创建的加密密钥。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果需要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于在 2019 年 1 月 1 日或之后创建的付费服务。

fields

SearchField[]

索引的字段。

name

string

索引的名称。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的规范化器。

permissionFilterOption

SearchIndexPermissionFilterOption

指示是否为索引启用权限筛选的值。

purviewEnabled

boolean

一个表示索引是否启用 Purview 的值。

scoringProfiles

ScoringProfile[]

索引的计分配置文件。

semantic

SemanticSearch

定义影响语义功能的搜索索引的参数。

similarity SimilarityAlgorithm:

评分和排名与搜索查询匹配的文档时使用的相似性算法的类型。 相似性算法只能在索引创建时定义,不能在现有索引上修改。 如果为 null,则使用 ClassicSimilarity 算法。

suggesters

SearchSuggester[]

索引的建议器。

tokenFilters TokenFilter[]:

标记筛选索引。

tokenizers LexicalTokenizer[]:

索引的 tokenizer。

vectorSearch

VectorSearch

包含与矢量搜索相关的配置选项。

SearchIndexerDataNoneIdentity

清除数据源的标识属性。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

指定身份类型的 URI 片段。

SearchIndexerDataUserAssignedIdentity

指定要使用的数据源的标识。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

指定身份类型的 URI 片段。

userAssignedIdentity

string

用户分配的托管标识的完全限定的 Azure 资源 ID,通常采用“/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId”的形式,应分配给搜索服务。

SearchIndexPermissionFilterOption

指示是否为索引启用权限筛选的值。

说明
enabled

启用。

disabled

禁用。

SearchResourceEncryptionKey

Azure Key Vault 中的客户管理的加密密钥。 创建和管理的密钥可用于加密或解密静态数据,例如索引和同义词映射。

名称 类型 说明
accessCredentials.applicationId

string

向 AAD 应用程序 ID 授予对静态数据加密时要使用的 Azure Key Vault 所需的访问权限。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。

accessCredentials.applicationSecret

string

指定的 AAD 应用程序的身份验证密钥。

identity SearchIndexerDataIdentity:

用于此加密密钥的显式托管标识。 如果未指定并且访问凭据属性为 null,则使用系统分配的托管标识。 更新资源时,如果未指定显式标识,则保持不变。 如果指定了“none”,则清除此属性的值。

keyVaultKeyName

string

用于加密静态数据的 Azure Key Vault 密钥的名称。

keyVaultKeyVersion

string

用于加密静态数据的 Azure Key Vault 密钥的版本。

keyVaultUri

string

Azure Key Vault 的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 示例 URI 可能是 https://my-keyvault-name.vault.azure.net

SearchSuggester

定义建议 API 应如何应用于索引中的一组字段。

名称 类型 说明
name

string

建议者的名称。

searchMode enum:

analyzingInfixMatching

指示建议器功能的值。

sourceFields

string[]

建议器适用的字段名称列表。 每个字段都必须是可搜索的。

SemanticConfiguration

定义要在语义功能的上下文中使用的特定配置。

名称 类型 默认值 说明
flightingOptIn

boolean

False

确定在模型外部测试/升级期间要使用的语义或查询重写模型。

name

string

语义配置的名称。

prioritizedFields

SemanticPrioritizedFields

描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 至少需要设置三个子属性(titleField、优先级为KeywordsFields 和优先级的ContentFields)中的一个。

rankingOrder

RankingOrder

指定用于搜索结果排序顺序的分数类型。

SemanticField

用作语义配置的一部分的字段。

名称 类型 说明
fieldName

string

文件名

SemanticPrioritizedFields

描述要用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

名称 类型 说明
prioritizedContentFields

SemanticField[]

定义要用于语义排名、标题、突出显示和答案的内容字段。 为获得最佳结果,所选字段应包含自然语言形式的文本。 数组中字段的顺序表示它们的优先级。 如果内容很长,优先级较低的字段可能会被截断。

prioritizedKeywordsFields

SemanticField[]

定义要用于语义排名、标题、突出显示和答案的关键字字段。 为了获得最佳结果,所选字段应包含关键字列表。 数组中字段的顺序表示它们的优先级。 如果内容很长,优先级较低的字段可能会被截断。

titleField

SemanticField

定义要用于语义排名、标题、突出显示和答案的标题字段。 如果索引中没有标题字段,请将其留空。

SemanticSearch

定义影响语义功能的搜索索引的参数。

名称 类型 说明
configurations

SemanticConfiguration[]

索引的语义配置。

defaultConfiguration

string

允许您在索引中设置默认语义配置的名称,以便每次都将其作为查询参数传递是可选的。

ShingleTokenFilter

将令牌的组合创建为单个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

派生类型的歧视性。

filterToken

string

_

要为没有标记的每个位置插入的字符串。 默认值为下划线(“_” )

maxShingleSize

integer (int32)

minimum: 2
2

最大闪亮大小。 默认值和最小值为 2。

minShingleSize

integer (int32)

minimum: 2
2

最小闪闪大小。 默认值和最小值为 2。 必须小于 maxShingleSize 的值。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

outputUnigrams

boolean

True

一个值,该值指示输出流是否包含输入标记(unigrams)以及分片。 默认值为 true。

outputUnigramsIfNoShingles

boolean

False

一个值,该值指示是否为这些时间输出单元语法(当没有带带线时)。 当 outputUnigrams 设置为 false 时,此属性优先。 默认值为 false。

tokenSeparator

string

联接相邻标记以形成 shingle 时要使用的字符串。 默认值为单个空格(“ ” )。

SnowballTokenFilter

使用 Snowball 生成的词干分析器词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

派生类型的歧视性。

language

SnowballTokenFilterLanguage

要使用的语言。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

SnowballTokenFilterLanguage

用于 Snowball 令牌筛选器的语言。

说明
armenian

为亚美尼亚语选择 Lucene Snowball 词干标记器。

basque

选择巴斯克语的 Lucene Snowball 词干标记器。

catalan

选择加泰罗尼亚语的 Lucene Snowball 词干标记器。

danish

为丹麦语选择 Lucene Snowball 词干标记器。

dutch

选择 Dutch 的 Lucene Snowball 词干标记器。

english

为英语选择 Lucene Snowball 词干标记器。

finnish

为芬兰语选择 Lucene Snowball 词干标记器。

french

为法语选择 Lucene Snowball 词干标记器。

german

选择德语的 Lucene Snowball 词干标记器。

german2

选择使用德语变体算法的 Lucene Snowball 词干提取器。

hungarian

为匈牙利语选择 Lucene Snowball 词干标记器。

italian

为意大利语选择 Lucene Snowball 词干标记器。

kp

选择使用 dutch 的 Lucene Snowball 词干提取器,该分词器使用 Kraaij-Pohlmann 词干提取算法。

lovins

为使用 Lovins 词干提取算法的英语选择 Lucene Snowball 词干提取器。

norwegian

为挪威语选择 Lucene Snowball 词干标记器。

porter

选择使用 Porter 词干提取算法的英语的 Lucene Snowball 词干标记器。

portuguese

为葡萄牙语选择 Lucene Snowball 词干标记器。

romanian

为罗马尼亚语选择 Lucene Snowball 词干标记器。

russian

为俄语选择 Lucene Snowball 词干标记器。

spanish

为西班牙语选择 Lucene Snowball 词干标记器。

swedish

为瑞典语选择 Lucene Snowball 词干标记器。

turkish

为土耳其语选择 Lucene Snowball 词干标记器。

StemmerOverrideTokenFilter

提供使用基于自定义字典的词干分析替代其他词干筛选器的功能。 任何字典词干术语都将标记为关键字,以便它们不会在链中以词干分析器进行词干。 必须放置在任何词干筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/StemmerOverrideFilter.html

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

派生类型的歧视性。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

rules

string[]

采用以下格式的词干规则列表:“word => stem”,例如:“ran => run”。

StemmerTokenFilter

特定于语言的词干筛选。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

派生类型的歧视性。

language

StemmerTokenFilterLanguage

要使用的语言。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

StemmerTokenFilterLanguage

用于词干分析器标记筛选器的语言。

说明
arabic

为阿拉伯语选择 Lucene 词干标记器。

armenian

选择亚美尼亚语的 Lucene 词干标记器。

basque

选择巴斯克语的 Lucene 词干标记器。

brazilian

为葡萄牙语(巴西)选择 Lucene 词干标记器。

bulgarian

选择保加利亚语的 Lucene 词干标记器。

catalan

选择加泰罗尼亚语的 Lucene 词干标记器。

czech

选择捷克语的 Lucene 词干提取器。

danish

为丹麦语选择 Lucene 词干标记器。

dutch

选择荷兰语的 Lucene 词干标记器。

dutchKp

为使用 Kraaij-Pohlmann 词干提取算法的 Dutch 选择 Lucene 词干提取器。

english

选择英语的 Lucene 词干标记器。

lightEnglish

为执行轻词干提取的英语选择 Lucene 词干标记器。

minimalEnglish

为英语选择执行最小词干提取的 Lucene 词干提取器。

possessiveEnglish

选择英语的 Lucene 词干标记器,该标记器从单词中删除尾随所有格。

porter2

选择使用 Porter2 词干提取算法的英语的 Lucene 词干提取器。

lovins

选择使用 Lovins 词干提取算法的英语的 Lucene 词干提取器。

finnish

为芬兰语选择 Lucene 词干标记器。

lightFinnish

为芬兰语选择执行轻词干提取的 Lucene 词干标记器。

french

选择法语的 Lucene 词干标记器。

lightFrench

为法语选择执行轻词干提取的 Lucene 词干标记器。

minimalFrench

为法语选择执行最小词干提取的 Lucene 词干标记器。

galician

选择 Galician 的 Lucene 词干标记器。

minimalGalician

为加利西亚语选择执行最小词干提取的 Lucene 词干标记器。

german

选择德语的 Lucene 词干标记器。

german2

选择使用德语变体算法的 Lucene 词干标记器。

lightGerman

为执行轻词干提取的德语选择 Lucene 词干标记器。

minimalGerman

为德语选择执行最小词干提取的 Lucene 词干标记器。

greek

选择希腊语的 Lucene 词干标记器。

hindi

选择印地语的 Lucene 词干提取器。

hungarian

选择匈牙利语的 Lucene 词干标记器。

lightHungarian

为匈牙利语选择执行轻词干提取的 Lucene 词干标记器。

indonesian

选择印度尼西亚语的 Lucene 词干提取器。

irish

选择爱尔兰语的 Lucene 词干标记器。

italian

选择意大利语的 Lucene 词干标记器。

lightItalian

为意大利语选择执行轻词干提取的 Lucene 词干标记器。

sorani

选择 Sorani 的 Lucene 词干提取器。

latvian

选择拉脱维亚语的 Lucene 词干标记器。

norwegian

选择挪威语(Bokmıl)的Lucene词干分词器。

lightNorwegian

选择了为挪威语(Bokmıl)做轻度词干处理的Lucene词根标记器。

minimalNorwegian

选择Lucene词干标记器,适用于挪威语(Bokmıl),该词干最小化。

lightNynorsk

为挪威语(尼诺斯克)选择执行轻词干提取的 Lucene 词干标记器。

minimalNynorsk

为挪威语(尼诺斯克)选择执行最小词干提取的 Lucene 词干提取器。

portuguese

选择葡萄牙语的 Lucene 词干标记器。

lightPortuguese

为葡萄牙语选择执行轻词干提取的 Lucene 词干标记器。

minimalPortuguese

为葡萄牙语选择执行最小词干提取的 Lucene 词干标记器。

portugueseRslp

选择使用 RSLP 词干提取算法的葡萄牙语的 Lucene 词干提取器。

romanian

为罗马尼亚语选择 Lucene 词干标记器。

russian

为俄语选择 Lucene 词干标记器。

lightRussian

为俄语选择执行轻词干提取的 Lucene 词干标记器。

spanish

选择西班牙语的 Lucene 词干标记器。

lightSpanish

为西班牙语选择执行轻词干提取的 Lucene 词干标记器。

swedish

选择瑞典语的 Lucene 词干标记器。

lightSwedish

为瑞典语选择执行轻词干提取的 Lucene 词干标记器。

turkish

为土耳其语选择 Lucene 词干标记器。

StopAnalyzer

以非字母分隔文本;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

派生类型的歧视性。

name

string

分析器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

stopwords

string[]

非索引字列表。

StopwordsList

标识特定于语言的停用词的预定义列表。

说明
arabic

选择阿拉伯语的停用词列表。

armenian

选择亚美尼亚语的停用词列表。

basque

选择巴斯克语的停用词列表。

brazilian

选择葡萄牙语(巴西)的停用词列表。

bulgarian

选择保加利亚语的停用词列表。

catalan

选择加泰罗尼亚语的停用词列表。

czech

选择捷克语的停用词列表。

danish

选择丹麦语的停用词列表。

dutch

选择荷兰语的停用词列表。

english

选择英语的停用词列表。

finnish

选择芬兰语的停用词列表。

french

选择法语的停用词列表。

galician

选择加利西亚语的停用词列表。

german

选择德语的停用词列表。

greek

选择希腊语的停用词列表。

hindi

选择印地语的停用词列表。

hungarian

选择匈牙利语的停用词列表。

indonesian

选择印度尼西亚语的停用词列表。

irish

选择爱尔兰语的停用词列表。

italian

选择意大利语的停用词列表。

latvian

选择拉脱维亚语的停用词列表。

norwegian

选择挪威语的停用词列表。

persian

选择波斯语的停用词列表。

portuguese

选择葡萄牙语的停用词列表。

romanian

选择罗马尼亚语的停用词列表。

russian

选择俄语的停用词列表。

sorani

选择 Sorani 的停用词列表。

spanish

选择西班牙语的停用词列表。

swedish

选择瑞典语的停用词列表。

thai

选择泰语的停用词列表。

turkish

选择土耳其语的停用词列表。

StopwordsTokenFilter

从令牌流中删除停止字词。 此令牌筛选器是使用 Apache Lucene 实现的。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

派生类型的歧视性。

ignoreCase

boolean

False

一个值,指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

removeTrailing

boolean

True

一个值,该值指示是否忽略最后一个搜索词(如果它是非索引字)。 默认值为 true。

stopwords

string[]

非索引字列表。 不能同时设置此属性和非索引字列表属性。

stopwordsList

StopwordsList

english

要使用的非索引字的预定义列表。 不能同时设置此属性和 stopwords 属性。 默认值为英语。

SynonymTokenFilter

匹配令牌流中的单个或多单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

派生类型的歧视性。

expand

boolean

True

一个值,该值指示同义词列表中的所有单词(如果未使用 => 表示法),是否将相互映射。 如果为 true,同义词列表中的所有单词(如果未使用 => 表示法),则相互映射。 以下列表:令人难以置信的,令人难以置信的,神话般的,惊人的相当于:令人难以置信的,令人难以置信的,令人难以置信的,神话,惊人的 => 令人难以置信的,令人难以置信的,神话,惊人的。 如果为 false,以下列表:令人难以置信的,令人难以置信的,神话般的,惊人的将相当于:令人难以置信的,令人难以置信的,令人难以置信的,神话,惊人的 => 令人难以置信的。 默认值为 true。

ignoreCase

boolean

False

一个值,该值指示是否将大小写输入用于匹配。 默认值为 false。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

synonyms

string[]

以下两种格式之一的同义词列表:1。 令人难以置信的,令人难以置信的,令人难以置信的,神话般的 => 惊人的 - 所有术语在 => 符号的左侧将被替换为其右侧的所有术语;2. 令人难以置信的,令人难以置信的,神话般的,惊人的 - 逗号分隔的等效单词列表。 设置展开选项以更改此列表的解释方式。

TagScoringFunction

定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档的分数。

名称 类型 说明
boost

number (double)

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认值为“Linear”。

tag

TagScoringParameters

标记评分函数的参数值。

type string:

tag

评分函数类型。

TagScoringParameters

向标记评分函数提供参数值。

名称 类型 说明
tagsParameter

string

在搜索查询中传递的参数的名称,用于指定要与目标字段进行比较的标记列表。

TextWeights

定义匹配项应在搜索查询中提升评分的索引字段的权重。

名称 类型 说明
weights

object

用于提高文档评分的每个字段权重的字典。 键是字段名称,值是每个字段的权重。

TokenCharacterKind

表示令牌筛选器可以作的字符类。

说明
letter

将字母保存在标记中。

digit

在标记中保留数字。

whitespace

在标记中保留空格。

punctuation

在标记中保留标点符号。

symbol

将符号保留在标记中。

TokenFilterName

定义搜索引擎支持的所有令牌过滤器的名称。

说明
arabic_normalization

一个标记筛选器,该筛选器应用阿拉伯语规范化器来规范化正版。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

删除撇号后的所有字符(包括撇号本身)。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

如果存在此类等效项,则将前 127 个 ASCII 字符(“基本拉丁语”Unicode 块)中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

形成从标准标记器生成的 CJK 术语的 bigram。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

规范化 CJK 宽度差异。 将全幅ASCII变体折叠成等效的基础拉丁文,将半宽片假名折成等价的假名。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

从首字母缩略词中删除英语拥有者和点。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

为索引时经常出现的字词构造 bigrams。 单个字词仍编制索引,并覆盖 bigrams。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

从输入令牌的前面或后面开始,生成给定大小的 n 元语法。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

删除 elisions。 例如,“l'avion”(平面)将转换为“avion”(平面)。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

根据德国 2 雪球算法的启发法规范德语字符。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

规范化印地语中的文本,以消除拼写变体中的一些差异。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

以印度语言规范化文本的 Unicode 表示形式。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

发出每个传入令牌两次,一次作为关键字,一次作为非关键字发出。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

用于英语的高性能 kstem 筛选器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

删除太长或太短的字词。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

在编制索引时限制令牌数。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

将标记文本规范化为小写。 请参阅 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

生成给定大小的 n 元语法。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

对波斯语应用规范化。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

为拼音匹配创建令牌。 请参阅 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

使用 Porter 词干算法转换令牌流。 请参阅 http://tartarus.org/~martin/PorterStemmer

reverse

反转令牌字符串。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

规范化使用可互换的斯堪的纳维亚字符。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

折叠斯堪的纳维亚字符 Ã¥......äÆ>a和Ó̧-Ã̃-o>。 它还歧视使用双元音 aa, ae, ao, oe 和 oo, 只留下第一个。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

将令牌的组合创建为单个令牌。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

使用 Snowball 生成的词干分析器词干的筛选器。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

规范化 Sorani 文本的 Unicode 表示形式。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

特定于语言的词干筛选。 请参阅 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

从令牌流中删除停止字词。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

剪裁标记中的前导空格和尾随空格。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

将术语截断为特定长度。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

筛选出与上一个标记相同的文本的标记。 请参阅 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

将标记文本规范化为大写。 请参阅 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

将单词拆分为子词,对子词组执行可选转换。

TruncateTokenFilter

将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

派生类型的歧视性。

length

integer (int32)

maximum: 300
300

将截断术语的长度。 默认值和最大值为 300。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

UaxUrlEmailTokenizer

将 URL 和电子邮件作为一个令牌进行标记化。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

派生类型的歧视性。

maxTokenLength

integer (int32)

maximum: 300
255

最大令牌长度。 默认值为 255。 拆分长度超过最大长度的令牌。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

UniqueTokenFilter

筛选出与上一个标记相同的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

派生类型的歧视性。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

onlyOnSamePosition

boolean

False

一个值,该值指示是否仅在同一位置删除重复项。 默认值为 false。

VectorEncodingFormat

用于解释向量字段内容的编码格式。

说明
packedBit

编码格式表示打包到更宽数据类型的位。

VectorSearch

包含与矢量搜索相关的配置选项。

名称 类型 说明
algorithms VectorSearchAlgorithmConfiguration[]:

包含特定于索引或查询期间使用的算法的配置选项。

compressions VectorSearchCompression[]:

包含特定于索引或查询期间使用的压缩方法的配置选项。

profiles

VectorSearchProfile[]

定义要与矢量搜索一起使用的配置组合。

vectorizers VectorSearchVectorizer[]:

包含有关如何向量化文本矢量查询的配置选项。

VectorSearchAlgorithmKind

用于索引和查询的算法。

说明
hnsw

HNSW(Hierarchical Navigable Small World),一种近似最近邻算法。

exhaustiveKnn

详尽的 KNN 算法,将执行暴力搜索。

VectorSearchAlgorithmMetric

用于向量比较的相似度指标。 建议选择与训练嵌入模型相同的相似性指标。

说明
cosine

测量向量之间的角度以量化它们的相似性,而不考虑大小。 角度越小,相似度越近。

euclidean

计算多维空间中向量之间的直线距离。 距离越小,相似度越近。

dotProduct

计算元素乘积的总和,以衡量对齐和大小相似性。 越大、越积极,相似度越接近。

hamming

仅适用于位打包的二进制数据类型。 通过计算二进制向量中的不同位置来确定差异性。 差异越少,相似性越接近。

VectorSearchCompressionKind

用于索引和查询的压缩方法。

说明
scalarQuantization

标量量化,一种压缩方法。 在标量量子化中,原始向量值通过离散化和表示矢量的每个分量(使用一组量化值)压缩为较窄的类型,从而减少整体数据大小。

binaryQuantization

二进制量化,一种压缩方法。 在二进制量化中,原始向量值通过离散化和表示使用二进制值表示矢量的每个组件来压缩为更窄的二进制类型,从而减少整体数据大小。

VectorSearchCompressionTarget

压缩向量值的量化数据类型。

说明
int8

8 位有符号整数。

VectorSearchProfile

定义要与矢量搜索一起使用的配置的组合。

名称 类型 说明
algorithm

string

指定算法和可选参数的矢量搜索算法配置的名称。

compression

string

指定压缩方法和可选参数的压缩方法配置的名称。

name

string

要与此特定向量搜索配置文件关联的名称。

vectorizer

string

配置为用于矢量搜索的矢量化的名称。

VectorSearchVectorizerKind

查询时要使用的矢量化方法。

说明
azureOpenAI

在查询时使用 Azure OpenAI 资源生成嵌入。

customWebApi

在查询时使用自定义 Web 终结点生成嵌入。

aiServicesVision

使用 Azure AI 服务视觉矢量化 API 在查询时为图像或文本输入生成嵌入。

aml

在查询时使用通过 Azure AI Foundry 模型目录部署的 Azure 机器学习终结点生成嵌入。

WebApiVectorizer

指定用于生成查询字符串嵌入的矢量的用户定义的向量器。 使用技能集的自定义 Web API 接口实现外部向量器的集成。

名称 类型 说明
customWebApiParameters

WebApiVectorizerParameters

指定用户定义矢量化器的属性。

kind string:

customWebApi

VectorSearchVectorizer 的类型。

name

string

要与此特定向量化方法关联的名称。

WebApiVectorizerParameters

指定用于连接到用户定义的向量器的属性。

名称 类型 说明
authIdentity SearchIndexerDataIdentity:

用于出站连接的用户分配的托管标识。 如果未指定 authResourceId,则使用系统分配的托管标识。 对索引器的更新(如果未指定标识)时,该值保持不变。 如果设置为“none”,则清除此属性的值。

authResourceId

string

适用于连接到 Azure 函数中的外部代码或提供转换的其他应用程序中的自定义终结点。 此值应该是在向 Azure Active Directory 注册函数或应用时为该函数或应用创建的应用程序 ID。 指定后,矢量化使用搜索服务的托管 ID(系统或用户分配)和函数或应用的访问令牌连接到函数或应用,并将此值用作创建访问令牌范围的资源 ID。

httpHeaders

object

发出 HTTP 请求所需的标头。

httpMethod

string

HTTP 请求的方法。

timeout

string (duration)

请求的所需超时。 默认值为 30 秒。

uri

string (uri)

提供矢量化器的 Web API 的 URI。

WordDelimiterTokenFilter

将单词拆分为子词,对子词组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

派生类型的歧视性。

catenateAll

boolean

False

一个值,该值指示是否将所有子词部分都加猫化。 例如,如果设置为 true,“Azure-Search-1”将变为“AzureSearch1”。 默认值为 false。

catenateNumbers

boolean

False

一个值,该值指示是否将延长数目部分的最大运行次数。 例如,如果设置为 true,则“1-2”变为“12”。 默认值为 false。

catenateWords

boolean

False

一个值,该值指示是否将延长单词部分的最大运行次数。 例如,如果设置为 true,“Azure-Search”将变为“AzureSearch”。 默认值为 false。

generateNumberParts

boolean

True

一个值,该值指示是否生成数字子词。 默认值为 true。

generateWordParts

boolean

True

一个值,该值指示是否生成部分词。 如果设置,会导致生成部分单词;例如,“AzureSearch”变为“Azure”“搜索”。 默认值为 true。

name

string

令牌筛选器的名称。 它只能包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,并且限制为 128 个字符。

preserveOriginal

boolean

False

一个值,该值指示是否保留原始单词并将其添加到子词列表中。 默认值为 false。

protectedWords

string[]

要防止分隔的令牌列表。

splitOnCaseChange

boolean

True

一个值,该值指示是否拆分 caseChange 上的单词。 例如,如果设置为 true,“AzureSearch”将变为“Azure”“搜索”。 默认值为 true。

splitOnNumerics

boolean

True

一个值,该值指示是否对数字进行拆分。 例如,如果设置为 true,则“Azure1Search”变为“Azure”“1”搜索”。 默认值为 true。

stemEnglishPossessive

boolean

True

一个值,该值指示是否删除每个子词的尾随“'s”。 默认值为 true。