你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Indexes - Create
创建新的搜索索引。
POST {endpoint}/indexes?api-version=2023-11-01
URI 参数
名称 | 在 | 必需 | 类型 | 说明 |
---|---|---|---|---|
endpoint
|
path | True |
string |
搜索服务的终结点 URL。 |
api-version
|
query | True |
string |
客户端 API 版本。 |
请求头
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
x-ms-client-request-id |
string uuid |
随请求一起发送以帮助调试的跟踪 ID。 |
请求正文
名称 | 必需 | 类型 | 说明 |
---|---|---|---|
fields | True |
索引的字段。 |
|
name | True |
string |
索引的名称。 |
@odata.etag |
string |
索引的 ETag。 |
|
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
|
charFilters | CharFilter[]: |
字符筛选索引。 |
|
corsOptions |
控制跨源资源共享的选项 (索引的 CORS) 。 |
||
defaultScoringProfile |
string |
如果未在查询中指定任何值,则要使用的评分配置文件的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分 (tf-idf) 。 |
|
encryptionKey |
在 Azure 密钥保管库 中创建的加密密钥的说明。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于 2019 年 1 月 1 日或之后创建的付费服务。 |
||
scoringProfiles |
索引的评分配置文件。 |
||
semantic |
定义影响语义功能的搜索索引的参数。 |
||
similarity | Similarity: |
评分和排名与搜索查询匹配的文档时使用的相似性算法类型。 相似性算法只能在索引创建时定义,不能对现有索引进行修改。 如果为 null,则使用 ClassicSimilarity 算法。 |
|
suggesters |
索引的建议器。 |
||
tokenFilters |
TokenFilter[]:
|
标记筛选索引。 |
|
tokenizers | LexicalTokenizer[]: |
索引的 tokenizer。 |
|
vectorSearch |
包含与矢量搜索相关的配置选项。 |
响应
名称 | 类型 | 说明 |
---|---|---|
201 Created | ||
Other Status Codes |
错误响应。 |
示例
SearchServiceCreateIndex
示例请求
POST https://myservice.search.windows.net/indexes?api-version=2023-11-01
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": "<applicationSecret>"
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine"
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
]
}
}
示例响应
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenFilters": [],
"tokenizer": "standard_v2"
}
],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"b": 0.5,
"k1": 1.3
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustive",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw"
},
{
"name": "myAlgorithm",
"algorithm": "myExhaustive"
}
]
}
}
定义
名称 | 说明 |
---|---|
Ascii |
将“基本拉丁语”Unicode) 块 (的前 127 个 ASCII 字符中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项(如果存在此类等效字符)。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Azure |
为搜索服务创建的已注册应用程序的凭据,用于对 Azure 密钥保管库中存储的加密密钥的身份验证访问。 |
BM25Similarity |
基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF IDF 的算法,包括由“b”参数) 控制的长度规范化 (,以及由“k1”参数 () 控制的术语频率饱和度。 |
Char |
定义搜索引擎支持的所有字符筛选器的名称。 |
Cjk |
形成从标准 tokenizer 生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Cjk |
CjkBigramTokenFilter 可以忽略的脚本。 |
Classic |
使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。 TF-IDF 的这种变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。 |
Classic |
适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Common |
在编制索引时为经常出现的词条构造二元语法。 此外,仍将为单个词条编制索引并叠加二元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Cors |
定义用于控制索引 (CORS) 跨域资源共享的选项。 |
Custom |
允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。 |
Dictionary |
分解在许多日耳曼语系中找到的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Distance |
定义一个函数,该函数根据与地理位置的距离提高分数。 |
Distance |
为距离评分函数提供参数值。 |
Edge |
从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Edge |
指定应从中生成 n-gram 的输入的哪一端。 |
Edge |
从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Edge |
将来自边缘的输入标记化为给定大小 (s) 的 n 克。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Elision |
删除省音。 例如,“l'avion” (平面) 将转换为“avion” (平面) 。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Exhaustive |
包含特定于详尽 KNN 算法的参数。 |
Exhaustive |
包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个向量索引中执行暴力搜索。 |
Freshness |
定义一个函数,该函数根据日期时间字段的值提高分数。 |
Freshness |
为新鲜度评分函数提供参数值。 |
Hnsw |
包含特定于 HNSW 算法的参数。 |
Hnsw |
包含特定于在索引编制和查询期间使用的 HNSW 近似邻居算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供可调整的权衡。 |
Keep |
一个标记筛选器,它仅保留包含指定单词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Keyword |
将词条标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Keyword |
将整个输入作为单个标记发出。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Keyword |
将整个输入作为单个标记发出。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Length |
删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Lexical |
定义搜索引擎支持的所有文本分析器的名称。 |
Lexical |
定义搜索引擎支持的所有 tokenizer 的名称。 |
Limit |
编制索引时限制标记数量。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Lucene |
标准 Apache Lucene 分析器;由标准标记器、小写筛选器和停止筛选器组成。 |
Lucene |
按照 Unicode 文本分段规则划分文本。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Lucene |
按照 Unicode 文本分段规则划分文本。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Magnitude |
定义一个函数,该函数根据数值字段的量级提高分数。 |
Magnitude |
为数量级评分函数提供参数值。 |
Mapping |
一个字符筛选器,用于应用使用映射选项定义的映射。 匹配具有贪婪性(给定点的最长模式匹配获胜)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。 |
Microsoft |
使用特定于语言的规则划分文本,并将各字词缩减为其原形。 |
Microsoft |
使用特定于语言的规则划分文本。 |
Microsoft |
Lists Microsoft 语言词干词干标记器支持的语言。 |
Microsoft |
Lists Microsoft 语言 tokenizer 支持的语言。 |
NGram |
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
NGram |
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。 |
NGram |
将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Path |
用于路径式层次结构的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Pattern |
通过正则表达式模式将文本灵活地分解成多个词条。 此分析器是使用 Apache Lucene 实现的。 |
Pattern |
使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Pattern |
一个字符筛选器,用于替换输入字符串中的字符。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、“模式” (aa) \s+ (bb) “和替换”$1#$2“,结果将为”aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。 |
Pattern |
一个字符筛选器,用于替换输入字符串中的字符。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、“模式” (aa) \s+ (bb) “和替换”$1#$2“,结果将为”aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Pattern |
使用正则表达式模式匹配来构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Phonetic |
标识要与 PhoneticTokenFilter 一起使用的拼音编码器的类型。 |
Phonetic |
为拼音匹配项创建标记。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Prioritized |
描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。 |
Regex |
定义可以组合在一起以控制模式分析器和模式标记器中如何使用正则表达式的标志。 |
Scoring |
定义用于合并评分配置文件中所有评分函数的结果的聚合函数。 |
Scoring |
定义用于在一系列文档中内插分数提升的函数。 |
Scoring |
定义影响搜索查询评分的搜索索引的参数。 |
Search |
描述 API 的错误条件。 |
Search |
表示索引定义中的字段,该字段描述字段的名称、数据类型和搜索行为。 |
Search |
定义搜索索引中字段的数据类型。 |
Search |
表示搜索索引定义,该定义描述索引的字段和搜索行为。 |
Search |
Azure 密钥保管库中客户管理的加密密钥。 创建和管理的密钥可用于加密或解密搜索服务上的静态数据,例如索引和同义词映射。 |
Semantic |
定义要在语义功能上下文中使用的特定配置。 |
Semantic |
用作语义配置的一部分的字段。 |
Semantic |
定义影响语义功能的搜索索引的参数。 |
Shingle |
创建标记组合作为单个标记。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Snowball |
使用 Snowball 生成的词干分析器来词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Snowball |
用于 Snowball 令牌筛选器的语言。 |
Stemmer |
提供使用基于字典的自定义词干筛选替代其他词干筛选器的功能。 任何字典词干词都将标记为关键字,以便它们不会在链上使用词干分析器进行词干。 必须放在任何词干分解筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Stemmer |
特定于语言的词干筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Stemmer |
用于词干分析器标记筛选器的语言。 |
Stop |
将文本除以非字母;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。 |
Stopwords |
标识特定于语言的非索引字的预定义列表。 |
Stopwords |
从标记流中删除非索引字。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Suggester |
定义建议 API 应如何应用于索引中的一组字段。 |
Suggester |
一个指示建议器功能的值。 |
Synonym |
匹配令牌流中的单个或多个单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Tag |
定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档分数。 |
Tag |
为标记评分函数提供参数值。 |
Text |
定义索引字段的权重,匹配项应提高搜索查询中的评分。 |
Token |
表示令牌筛选器可以对其操作的字符类。 |
Token |
定义搜索引擎支持的所有令牌筛选器的名称。 |
Truncate |
将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Uax |
将 URL 和电子邮件标记为一个标记。 此 tokenizer 是使用 Apache Lucene 实现的。 |
Unique |
筛选出与前一个标记具有相同文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。 |
Vector |
包含与矢量搜索相关的配置选项。 |
Vector |
用于编制索引和查询的算法。 |
Vector |
用于矢量比较的相似性指标。 |
Vector |
定义要与矢量搜索一起使用的配置组合。 |
Word |
将字词拆分为子字,并对子字组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。 |
AsciiFoldingTokenFilter
将“基本拉丁语”Unicode) 块 (的前 127 个 ASCII 字符中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项(如果存在此类等效字符)。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
preserveOriginal |
boolean |
False |
一个值,该值指示是否将保留原始令牌。 默认值为 false。 |
AzureActiveDirectoryApplicationCredentials
为搜索服务创建的已注册应用程序的凭据,用于对 Azure 密钥保管库中存储的加密密钥的身份验证访问。
名称 | 类型 | 说明 |
---|---|---|
applicationId |
string |
一个 AAD 应用程序 ID,该 ID 授予了对 Azure 密钥保管库所需的访问权限,该权限将在加密静态数据时使用。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。 |
applicationSecret |
string |
指定 AAD 应用程序的身份验证密钥。 |
BM25Similarity
基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF IDF 的算法,包括由“b”参数) 控制的长度规范化 (,以及由“k1”参数 () 控制的术语频率饱和度。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
此属性控制文档的长度如何影响相关性分数。 默认情况下,使用值 0.75。 值为 0.0 表示不应用长度规范化,而值为 1.0 表示分数已完全规范化文档的长度。 |
k1 |
number |
此属性控制每个匹配字词的术语频率与文档查询对的最终相关性分数之间的缩放函数。 默认情况下,使用值 1.2。 值为 0.0 表示分数不会随术语频率的增加而缩放。 |
CharFilterName
定义搜索引擎支持的所有字符筛选器的名称。
名称 | 类型 | 说明 |
---|---|---|
html_strip |
string |
尝试去除 HTML 构造的字符筛选器。 请参见https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
形成从标准 tokenizer 生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
ignoreScripts |
要忽略的脚本。 |
||
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
outputUnigrams |
boolean |
False |
一个 值,该值指示是输出 unigram 和 bigrams ((如果为 true) ),还是仅输出 bigrams ((如果为 false) )。 默认值为 false。 |
CjkBigramTokenFilterScripts
CjkBigramTokenFilter 可以忽略的脚本。
名称 | 类型 | 说明 |
---|---|---|
han |
string |
在形成 CJK 术语的大帧时忽略汉字。 |
hangul |
string |
在形成 CJK 术语的大帧时忽略朝鲜文脚本。 |
hiragana |
string |
在形成 CJK 术语的 bigram 时忽略平假名脚本。 |
katakana |
string |
在形成 CJK 术语的大帧时忽略片假名脚本。 |
ClassicSimilarity
使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。 TF-IDF 的这种变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大令牌长度。 默认值为 255。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
CommonGramTokenFilter
在编制索引时为经常出现的词条构造二元语法。 此外,仍将为单个词条编制索引并叠加二元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
commonWords |
string[] |
常用字词集。 |
|
ignoreCase |
boolean |
False |
一个 值,该值指示常见字词匹配是否不区分大小写。 默认值为 false。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
queryMode |
boolean |
False |
一个 值,该值指示令牌筛选器是否处于查询模式。 在查询模式下,标记筛选器会生成 bigrams,然后删除常见字词和单个字词,后跟一个通用字词。 默认值为 false。 |
CorsOptions
定义用于控制索引 (CORS) 跨域资源共享的选项。
名称 | 类型 | 说明 |
---|---|---|
allowedOrigins |
string[] |
将向 JavaScript 代码授予对索引的访问权限的来源列表。 可以包含格式为 {protocol}://{fully-qualified-domain-name}[:{port#}] 的主机列表,也可以包含一 |
maxAgeInSeconds |
integer |
浏览器应缓存 CORS 预检响应的持续时间。 默认为 5 分钟。 |
CustomAnalyzer
允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
charFilters |
用于在标记器处理输入文本之前准备输入文本的字符筛选器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出顺序运行。 |
|
name |
string |
分析器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
tokenFilters |
用于筛选或修改 tokenizer 生成的令牌的令牌筛选器列表。 例如,可以指定将所有字符转换为小写的小写筛选器。 筛选器按列出顺序运行。 |
|
tokenizer |
用于将连续文本划分为一系列标记(例如将句子分解为单词)的 tokenizer 的名称。 |
DictionaryDecompounderTokenFilter
分解在许多日耳曼语系中找到的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxSubwordSize |
integer |
15 |
最大子字大小。 仅输出短于此的子字。 默认为 15. 最大值为 300。 |
minSubwordSize |
integer |
2 |
最小子字大小。 仅输出超过此长度的子字。 默认值为 2。 最大值为 300。 |
minWordSize |
integer |
5 |
最小字大小。 仅处理超过此长度的单词。 默认值为 5。 最大值为 300。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
onlyLongestMatch |
boolean |
False |
一个 值,该值指示是否仅将最长匹配子字添加到输出。 默认值为 false。 |
wordList |
string[] |
要匹配的字词列表。 |
DistanceScoringFunction
定义一个函数,该函数根据与地理位置的距离提高分数。
名称 | 类型 | 说明 |
---|---|---|
boost |
number |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
distance |
距离评分函数的参数值。 |
|
fieldName |
string |
用作评分函数输入的字段的名称。 |
interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认为“Linear”。 |
|
type |
string:
distance |
指示要使用的函数类型。 有效值包括 magnitude、freshness、distance 和 tag。 函数类型必须为小写。 |
DistanceScoringParameters
为距离评分函数提供参数值。
名称 | 类型 | 说明 |
---|---|---|
boostingDistance |
number |
与提升范围结束的参考位置的距离(以公里为单位)。 |
referencePointParameter |
string |
在搜索查询中传递的参数的名称,用于指定引用位置。 |
EdgeNGramTokenFilter
从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 元语法长度。 默认值为 2。 |
minGram |
integer |
1 |
最小 n 元语法长度。 默认值为 1。 必须小于 maxGram 的值。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
side | front |
指定应从哪个端生成 n 元语法的输入。 默认值为“front”。 |
EdgeNGramTokenFilterSide
指定应从中生成 n-gram 的输入的哪一端。
名称 | 类型 | 说明 |
---|---|---|
back |
string |
指定应从输入的背面生成 n-gram。 |
front |
string |
指定应从输入的前面生成 n-gram。 |
EdgeNGramTokenFilterV2
从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 元语法长度。 默认值为 2。 最大值为 300。 |
minGram |
integer |
1 |
最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
side | front |
指定应从哪个端生成 n 元语法的输入。 默认值为“front”。 |
EdgeNGramTokenizer
将来自边缘的输入标记化为给定大小 (s) 的 n 克。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 克长度。 默认值为 2。 最大值为 300。 |
minGram |
integer |
1 |
最小 n 克长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
tokenChars |
要保留在令牌中的字符类。 |
ElisionTokenFilter
删除省音。 例如,“l'avion” (平面) 将转换为“avion” (平面) 。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
articles |
string[] |
要删除的项目集。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
ExhaustiveKnnParameters
包含特定于详尽 KNN 算法的参数。
名称 | 类型 | 说明 |
---|---|---|
metric |
用于矢量比较的相似性指标。 |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个向量索引中执行暴力搜索。
名称 | 类型 | 说明 |
---|---|---|
exhaustiveKnnParameters |
包含特定于详尽 KNN 算法的参数。 |
|
kind |
string:
exhaustive |
配置为与矢量搜索一起使用的算法类型的名称。 |
name |
string |
要与此特定配置关联的名称。 |
FreshnessScoringFunction
定义一个函数,该函数根据日期时间字段的值提高分数。
名称 | 类型 | 说明 |
---|---|---|
boost |
number |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
fieldName |
string |
用作评分函数输入的字段的名称。 |
freshness |
新鲜度评分函数的参数值。 |
|
interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认为“Linear”。 |
|
type |
string:
freshness |
指示要使用的函数类型。 有效值包括 magnitude、freshness、distance 和 tag。 函数类型必须为小写。 |
FreshnessScoringParameters
为新鲜度评分函数提供参数值。
名称 | 类型 | 说明 |
---|---|---|
boostingDuration |
string |
过期期限过后,特定文档的提升将停止。 |
HnswParameters
包含特定于 HNSW 算法的参数。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
efConstruction |
integer |
400 |
包含最近邻居的动态列表的大小,该列表在索引期间使用。 增加此参数可能会提高索引质量,但代价是索引编制时间增加。 在某个时候,增加此参数会导致返回减少。 |
efSearch |
integer |
500 |
包含最近邻居的动态列表的大小,该列表在搜索期间使用。 增加此参数可能会改善搜索结果,但代价是搜索速度变慢。 在某个时候,增加此参数会导致返回减少。 |
m |
integer |
4 |
在构造过程中为每个新元素创建的双向链接数。 增加此参数值可能会改善召回率,并减少具有高内在维数的数据集的检索时间,但代价是内存消耗增加,索引时间更长。 |
metric |
用于矢量比较的相似性指标。 |
HnswVectorSearchAlgorithmConfiguration
包含特定于在索引编制和查询期间使用的 HNSW 近似邻居算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供可调整的权衡。
名称 | 类型 | 说明 |
---|---|---|
hnswParameters |
包含特定于 HNSW 算法的参数。 |
|
kind |
string:
hnsw |
配置为与矢量搜索一起使用的算法类型的名称。 |
name |
string |
要与此特定配置关联的名称。 |
KeepTokenFilter
一个标记筛选器,它仅保留包含指定单词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
keepWords |
string[] |
要保留的字词列表。 |
|
keepWordsCase |
boolean |
False |
一个值,该值指示是否先将所有单词都小写。 默认值为 false。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
KeywordMarkerTokenFilter
将词条标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
一个值,该值指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。 |
keywords |
string[] |
要标记为关键字的字词列表。 |
|
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
KeywordTokenizer
将整个输入作为单个标记发出。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
bufferSize |
integer |
256 |
读取缓冲区大小(以字节为单位)。 默认值为 256。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
KeywordTokenizerV2
将整个输入作为单个标记发出。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
256 |
最大令牌长度。 默认值为 256。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
LengthTokenFilter
删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
max |
integer |
300 |
最大长度(以字符为单位)。 默认值和最大值为 300。 |
min |
integer |
0 |
最小长度(以字符为单位)。 默认为 0。 最大值为 300。 必须小于 max 的值。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
LexicalAnalyzerName
定义搜索引擎支持的所有文本分析器的名称。
名称 | 类型 | 说明 |
---|---|---|
ar.lucene |
string |
用于阿拉伯语的 Lucene 分析器。 |
ar.microsoft |
string |
适用于阿拉伯语的 Microsoft 分析器。 |
bg.lucene |
string |
保加利亚的 Lucene 分析器。 |
bg.microsoft |
string |
适用于保加利亚的 Microsoft 分析器。 |
bn.microsoft |
string |
适用于 Bangla 的 Microsoft 分析器。 |
ca.lucene |
string |
加泰罗尼亚的 Lucene 分析器。 |
ca.microsoft |
string |
适用于加泰罗尼亚语的 Microsoft 分析器。 |
cs.lucene |
string |
用于捷克的 Lucene 分析器。 |
cs.microsoft |
string |
适用于捷克语的 Microsoft 分析器。 |
da.lucene |
string |
丹麦语的 Lucene 分析器。 |
da.microsoft |
string |
适用于丹麦语的 Microsoft 分析器。 |
de.lucene |
string |
用于德语的 Lucene 分析器。 |
de.microsoft |
string |
适用于德语的 Microsoft 分析器。 |
el.lucene |
string |
Lucene 分析器,用于希腊文。 |
el.microsoft |
string |
适用于希腊文的 Microsoft 分析器。 |
en.lucene |
string |
Lucene 英语分析器。 |
en.microsoft |
string |
适用于英语的 Microsoft 分析器。 |
es.lucene |
string |
西班牙语的 Lucene 分析器。 |
es.microsoft |
string |
适用于西班牙语的 Microsoft 分析器。 |
et.microsoft |
string |
适用于爱沙尼亚语的 Microsoft 分析器。 |
eu.lucene |
string |
用于巴斯克的 Lucene 分析器。 |
fa.lucene |
string |
用于波斯语的 Lucene 分析器。 |
fi.lucene |
string |
芬兰语的 Lucene 分析器。 |
fi.microsoft |
string |
适用于芬兰语的 Microsoft 分析器。 |
fr.lucene |
string |
Lucene 法语分析器。 |
fr.microsoft |
string |
适用于法语的 Microsoft 分析器。 |
ga.lucene |
string |
用于爱尔兰的 Lucene 分析器。 |
gl.lucene |
string |
用于加利西亚语的 Lucene 分析器。 |
gu.microsoft |
string |
适用于古吉拉特语的 Microsoft 分析器。 |
he.microsoft |
string |
适用于希伯来语的 Microsoft 分析器。 |
hi.lucene |
string |
用于印地语的 Lucene 分析器。 |
hi.microsoft |
string |
适用于印地语的 Microsoft 分析器。 |
hr.microsoft |
string |
适用于克罗地亚的 Microsoft 分析器。 |
hu.lucene |
string |
匈牙利语的 Lucene 分析器。 |
hu.microsoft |
string |
适用于匈牙利语的 Microsoft 分析器。 |
hy.lucene |
string |
亚美尼亚语的 Lucene 分析器。 |
id.lucene |
string |
印尼语的 Lucene 分析器。 |
id.microsoft |
string |
适用于印度尼西亚 (Bahasa) 的 Microsoft 分析器。 |
is.microsoft |
string |
适用于冰岛语的 Microsoft 分析器。 |
it.lucene |
string |
Lucene 分析器(意大利语)。 |
it.microsoft |
string |
适用于意大利语的 Microsoft 分析器。 |
ja.lucene |
string |
用于日语的 Lucene 分析器。 |
ja.microsoft |
string |
适用于日语的 Microsoft 分析器。 |
keyword |
string |
将某个字段的整个内容视为单个标记。 此方法可用于搜索邮政编码、ID 和某些产品名称等数据。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
适用于 Kannada 的 Microsoft 分析器。 |
ko.lucene |
string |
用于朝鲜语的 Lucene 分析器。 |
ko.microsoft |
string |
适用于朝鲜语的 Microsoft 分析器。 |
lt.microsoft |
string |
适用于立陶宛语的 Microsoft 分析器。 |
lv.lucene |
string |
用于拉脱维亚语的 Lucene 分析器。 |
lv.microsoft |
string |
适用于拉脱维亚语的 Microsoft 分析器。 |
ml.microsoft |
string |
适用于马拉雅拉姆语的 Microsoft 分析器。 |
mr.microsoft |
string |
适用于 Marathi 的 Microsoft 分析器。 |
ms.microsoft |
string |
适用于马来语的 Microsoft 分析器 (拉丁语) 。 |
nb.microsoft |
string |
适用于挪威语的 Microsoft 分析器 (Bokmål) 。 |
nl.lucene |
string |
Lucene 分析器,用于荷兰语。 |
nl.microsoft |
string |
适用于荷兰语的 Microsoft 分析器。 |
no.lucene |
string |
挪威语的 Lucene 分析器。 |
pa.microsoft |
string |
适用于旁遮普语的 Microsoft 分析器。 |
pattern |
string |
通过正则表达式模式将文本灵活地分解成多个词条。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Lucene 分析器波兰。 |
pl.microsoft |
string |
适用于波兰的 Microsoft 分析器。 |
pt-BR.lucene |
string |
巴西葡萄牙语 (Lucene 分析器) 。 |
pt-BR.microsoft |
string |
适用于巴西葡萄牙语 (Microsoft 分析器) 。 |
pt-PT.lucene |
string |
葡萄牙 (葡萄牙) 的 Lucene 分析器。 |
pt-PT.microsoft |
string |
适用于葡萄牙语的 Microsoft 分析器 (葡萄牙) 。 |
ro.lucene |
string |
罗马尼亚语的 Lucene 分析器。 |
ro.microsoft |
string |
适用于罗马尼亚语的 Microsoft 分析器。 |
ru.lucene |
string |
用于俄语的 Lucene 分析器。 |
ru.microsoft |
string |
适用于俄语的 Microsoft 分析器。 |
simple |
string |
在非字母处划分文本并将其转换为小写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
适用于斯洛伐克语的 Microsoft 分析器。 |
sl.microsoft |
string |
适用于斯洛文尼亚语的 Microsoft 分析器。 |
sr-cyrillic.microsoft |
string |
适用于塞尔维亚语 (西里尔文) 的 Microsoft 分析器。 |
sr-latin.microsoft |
string |
适用于塞尔维亚语 (拉丁语) 的 Microsoft 分析器。 |
standard.lucene |
string |
标准 Lucene 分析器。 |
standardasciifolding.lucene |
string |
标准 ASCII 折叠 Lucene 分析器。 请参见https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
将文本除以非字母;应用小写和非索引字标记筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
用于瑞典语的 Lucene 分析器。 |
sv.microsoft |
string |
Microsoft Analyzer for Swedish。 |
ta.microsoft |
string |
适用于泰米尔语的 Microsoft 分析器。 |
te.microsoft |
string |
适用于 Telugu 的 Microsoft 分析器。 |
th.lucene |
string |
用于泰语的 Lucene 分析器。 |
th.microsoft |
string |
适用于泰语的 Microsoft 分析器。 |
tr.lucene |
string |
用于土耳其语的 Lucene 分析器。 |
tr.microsoft |
string |
适用于土耳其语的 Microsoft 分析器。 |
uk.microsoft |
string |
适用于乌克兰语的 Microsoft 分析器。 |
ur.microsoft |
string |
适用于 Urdu 的 Microsoft 分析器。 |
vi.microsoft |
string |
适用于越南语的 Microsoft 分析器。 |
whitespace |
string |
使用空格 tokenizer 的分析器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
用于中文 (简化) 的 Lucene 分析器。 |
zh-Hans.microsoft |
string |
适用于中文 (简化) 的 Microsoft 分析器。 |
zh-Hant.lucene |
string |
中国 (传统) 的 Lucene 分析器。 |
zh-Hant.microsoft |
string |
适用于中文 (传统) 的 Microsoft 分析器。 |
LexicalTokenizerName
定义搜索引擎支持的所有 tokenizer 的名称。
LimitTokenFilter
编制索引时限制标记数量。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
consumeAllTokens |
boolean |
False |
一个值,该值指示是否必须使用来自输入的所有令牌,即使达到 maxTokenCount。 默认值为 false。 |
maxTokenCount |
integer |
1 |
要生成的令牌的最大数目。 默认值为 1。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
LuceneStandardAnalyzer
标准 Apache Lucene 分析器;由标准标记器、小写筛选器和停止筛选器组成。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大令牌长度。 默认值为 255。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
分析器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
stopwords |
string[] |
非索引字列表。 |
LuceneStandardTokenizer
按照 Unicode 文本分段规则划分文本。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大令牌长度。 默认值为 255。 超过最大长度的标记将被拆分。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
LuceneStandardTokenizerV2
按照 Unicode 文本分段规则划分文本。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大标记长度。 默认值为 255。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
MagnitudeScoringFunction
定义一个函数,该函数根据数值字段的量级提高分数。
名称 | 类型 | 说明 |
---|---|---|
boost |
number |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
fieldName |
string |
用作评分函数输入的字段的名称。 |
interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认为“Linear”。 |
|
magnitude |
数量级评分函数的参数值。 |
|
type |
string:
magnitude |
指示要使用的函数类型。 有效值包括 magnitude、freshness、distance 和 tag。 函数类型必须为小写。 |
MagnitudeScoringParameters
为数量级评分函数提供参数值。
名称 | 类型 | 说明 |
---|---|---|
boostingRangeEnd |
number |
提升结束的字段值。 |
boostingRangeStart |
number |
启动提升的字段值。 |
constantBoostBeyondRange |
boolean |
一个值,该值指示是否对超出范围结束值的字段值应用恒定提升;默认值为 false。 |
MappingCharFilter
一个字符筛选器,用于应用使用映射选项定义的映射。 匹配具有贪婪性(给定点的最长模式匹配获胜)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字符筛选器类型的 URI 片段。 |
mappings |
string[] |
以下格式的映射列表:“a=>b” (字符“a”的所有匹配项都将替换为字符“b”) 。 |
name |
string |
字符筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
MicrosoftLanguageStemmingTokenizer
使用特定于语言的规则划分文本,并将各字词缩减为其原形。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
一个指示如何使用 tokenizer 的值。 如果用作搜索 tokenizer,则设置为 true;如果用作索引标记器,则设置为 false。 默认值为 false。 |
language |
要使用的语言。 默认值为英语。 |
||
maxTokenLength |
integer |
255 |
最大令牌长度。 超过最大长度的标记将被拆分。 可以使用的最大标记长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
MicrosoftLanguageTokenizer
使用特定于语言的规则划分文本。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
isSearchTokenizer |
boolean |
False |
一个指示如何使用 tokenizer 的值。 如果用作搜索 tokenizer,则设置为 true;如果用作索引标记器,则设置为 false。 默认值为 false。 |
language |
要使用的语言。 默认值为英语。 |
||
maxTokenLength |
integer |
255 |
最大令牌长度。 超过最大长度的标记将被拆分。 可以使用的最大标记长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
MicrosoftStemmingTokenizerLanguage
Lists Microsoft 语言词干词干标记器支持的语言。
名称 | 类型 | 说明 |
---|---|---|
arabic |
string |
为阿拉伯语选择 Microsoft 词干词干标记器。 |
bangla |
string |
为 Bangla 选择 Microsoft 词干标记器。 |
bulgarian |
string |
选择适用于保加利亚的 Microsoft 词干标记器。 |
catalan |
string |
为加泰罗尼亚语选择 Microsoft 词干标记器。 |
croatian |
string |
为克罗地亚选择 Microsoft 词干标记器。 |
czech |
string |
为捷克语选择 Microsoft 词干词干标记程序。 |
danish |
string |
为丹麦语选择 Microsoft 词干标记器。 |
dutch |
string |
为荷兰语选择 Microsoft 词干标记程序。 |
english |
string |
为英语选择 Microsoft 词干标记器。 |
estonian |
string |
为爱沙尼亚语选择 Microsoft 词干标记器。 |
finnish |
string |
为芬兰语选择 Microsoft 词干词干化器。 |
french |
string |
为法语选择 Microsoft 词干标记器。 |
german |
string |
为德语选择 Microsoft 词干标记程序。 |
greek |
string |
为希腊文选择 Microsoft 词干标记器。 |
gujarati |
string |
为古吉拉特语选择 Microsoft 词干标记程序。 |
hebrew |
string |
为希伯来语选择 Microsoft 词干标记器。 |
hindi |
string |
为印地语选择 Microsoft 词干标记器。 |
hungarian |
string |
为匈牙利语选择 Microsoft 词干标记程序。 |
icelandic |
string |
为冰岛语选择 Microsoft 词干标记程序。 |
indonesian |
string |
选择适用于印尼语的 Microsoft 词干标记程序。 |
italian |
string |
为意大利语选择 Microsoft 词干标记程序。 |
kannada |
string |
为 Kannada 选择 Microsoft 词干标记器。 |
latvian |
string |
为拉脱维亚语选择 Microsoft 词干标记器。 |
lithuanian |
string |
为立陶宛语选择 Microsoft 词干标记器。 |
malay |
string |
为马来语选择 Microsoft 词干标记器。 |
malayalam |
string |
为马拉雅拉姆语选择 Microsoft 词干标记器。 |
marathi |
string |
为 Marathi 选择 Microsoft 词干标记程序。 |
norwegianBokmaal |
string |
为挪威语 (Bokmål) 选择 Microsoft 词干标记器。 |
polish |
string |
选择用于波兰语的 Microsoft 词干标记器。 |
portuguese |
string |
选择用于葡萄牙语的 Microsoft 词干标记程序。 |
portugueseBrazilian |
string |
为葡萄牙语 (巴西) 选择 Microsoft 词干标记器。 |
punjabi |
string |
为旁遮普语选择 Microsoft 词干标记程序。 |
romanian |
string |
为罗马尼亚语选择 Microsoft 词干词干化器。 |
russian |
string |
为俄语选择 Microsoft 词干标记器。 |
serbianCyrillic |
string |
为塞尔维亚语 (西里尔文) 选择 Microsoft 词干标记器。 |
serbianLatin |
string |
为塞尔维亚语 (拉丁语) 选择 Microsoft 词干标记器。 |
slovak |
string |
为斯洛伐克语选择 Microsoft 词干标记程序。 |
slovenian |
string |
为斯洛文尼亚语选择 Microsoft 词干标记程序。 |
spanish |
string |
为西班牙语选择 Microsoft 词干标记程序。 |
swedish |
string |
为“瑞典”选择 Microsoft 词干标记程序。 |
tamil |
string |
为泰米尔语选择 Microsoft 词干标记器。 |
telugu |
string |
为 Telugu 选择 Microsoft 词干标记器。 |
turkish |
string |
选择用于土耳其语的 Microsoft 词干标记器。 |
ukrainian |
string |
为乌克兰语选择 Microsoft 词干词干化器。 |
urdu |
string |
为 Urdu 选择 Microsoft 词干标记程序。 |
MicrosoftTokenizerLanguage
Lists Microsoft 语言 tokenizer 支持的语言。
名称 | 类型 | 说明 |
---|---|---|
bangla |
string |
为 Bangla 选择 Microsoft tokenizer。 |
bulgarian |
string |
为保加利亚语选择 Microsoft tokenizer。 |
catalan |
string |
为加泰罗尼亚语选择 Microsoft tokenizer。 |
chineseSimplified |
string |
为中文 (简化) 选择 Microsoft tokenizer。 |
chineseTraditional |
string |
为中文 (传统) 选择 Microsoft tokenizer。 |
croatian |
string |
选择用于克罗地亚的 Microsoft tokenizer。 |
czech |
string |
为捷克语选择 Microsoft tokenizer。 |
danish |
string |
为丹麦语选择 Microsoft tokenizer。 |
dutch |
string |
为荷兰语选择 Microsoft tokenizer。 |
english |
string |
为英语选择 Microsoft tokenizer。 |
french |
string |
为法语选择 Microsoft tokenizer。 |
german |
string |
为德语选择 Microsoft tokenizer。 |
greek |
string |
为希腊文选择 Microsoft tokenizer。 |
gujarati |
string |
为古吉拉特语选择 Microsoft tokenizer。 |
hindi |
string |
为印地语选择 Microsoft tokenizer。 |
icelandic |
string |
为冰岛语选择 Microsoft tokenizer。 |
indonesian |
string |
为印尼语选择 Microsoft tokenizer。 |
italian |
string |
为意大利语选择 Microsoft tokenizer。 |
japanese |
string |
为日语选择 Microsoft tokenizer。 |
kannada |
string |
为 Kannada 选择 Microsoft tokenizer。 |
korean |
string |
为朝鲜语选择 Microsoft tokenizer。 |
malay |
string |
为马来语选择 Microsoft tokenizer。 |
malayalam |
string |
为马拉雅拉姆语选择 Microsoft tokenizer。 |
marathi |
string |
为 Marathi 选择 Microsoft tokenizer。 |
norwegianBokmaal |
string |
为挪威语选择 Microsoft tokenizer (Bokmål) 。 |
polish |
string |
为波兰语选择 Microsoft tokenizer。 |
portuguese |
string |
为葡萄牙语选择 Microsoft tokenizer。 |
portugueseBrazilian |
string |
为葡萄牙语 (巴西) 选择 Microsoft tokenizer。 |
punjabi |
string |
为旁遮普语选择 Microsoft tokenizer。 |
romanian |
string |
为罗马尼亚语选择 Microsoft tokenizer。 |
russian |
string |
为俄语选择 Microsoft tokenizer。 |
serbianCyrillic |
string |
为塞尔维亚语 (西里尔文) 选择 Microsoft tokenizer。 |
serbianLatin |
string |
为塞尔维亚语 (拉丁语) 选择 Microsoft tokenizer。 |
slovenian |
string |
为斯洛文尼亚语选择 Microsoft tokenizer。 |
spanish |
string |
为西班牙语选择 Microsoft tokenizer。 |
swedish |
string |
选择 Microsoft tokenizer for Swedish。 |
tamil |
string |
选择用于泰米尔语的 Microsoft tokenizer。 |
telugu |
string |
为 Telugu 选择 Microsoft tokenizer。 |
thai |
string |
为泰语选择 Microsoft tokenizer。 |
ukrainian |
string |
为乌克兰语选择 Microsoft tokenizer。 |
urdu |
string |
为 Urdu 选择 Microsoft tokenizer。 |
vietnamese |
string |
为越南语选择 Microsoft tokenizer。 |
NGramTokenFilter
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 克长度。 默认值为 2。 |
minGram |
integer |
1 |
最小 n 克长度。 默认值为 1。 必须小于 maxGram 的值。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
NGramTokenFilterV2
生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 克长度。 默认值为 2。 最大值为 300。 |
minGram |
integer |
1 |
最小 n 克长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
NGramTokenizer
将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxGram |
integer |
2 |
最大 n 克长度。 默认值为 2。 最大值为 300。 |
minGram |
integer |
1 |
最小 n 克长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
tokenChars |
要保留在令牌中的字符类。 |
PathHierarchyTokenizerV2
用于路径式层次结构的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
delimiter |
string |
/ |
要使用的分隔符字符。 默认值为“/”。 |
maxTokenLength |
integer |
300 |
最大令牌长度。 默认值和最大值为 300。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
replacement |
string |
/ |
一个 值,如果设置为 ,则替换分隔符字符。 默认值为“/”。 |
reverse |
boolean |
False |
一个值,该值指示是否按相反顺序生成令牌。 默认值为 false。 |
skip |
integer |
0 |
要跳过的初始令牌数。 默认为 0。 |
PatternAnalyzer
通过正则表达式模式将文本灵活地分解成多个词条。 此分析器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
|
flags |
正则表达式标志。 |
||
lowercase |
boolean |
True |
一个值,该值指示是否应将术语小写。 默认为 true。 |
name |
string |
分析器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
pattern |
string |
\W+ |
用于匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个非单词字符的表达式。 |
stopwords |
string[] |
非索引字列表。 |
PatternCaptureTokenFilter
使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
patterns |
string[] |
要与每个令牌匹配的模式列表。 |
|
preserveOriginal |
boolean |
True |
一个值,该值指示是否返回原始标记,即使其中一个模式匹配。 默认为 true。 |
PatternReplaceCharFilter
一个字符筛选器,用于替换输入字符串中的字符。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、“模式” (aa) \s+ (bb) “和替换”$1#$2“,结果将为”aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定字符筛选器类型的 URI 片段。 |
name |
string |
字符筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
pattern |
string |
正则表达式模式。 |
replacement |
string |
替换文本。 |
PatternReplaceTokenFilter
一个字符筛选器,用于替换输入字符串中的字符。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、“模式” (aa) \s+ (bb) “和替换”$1#$2“,结果将为”aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
pattern |
string |
正则表达式模式。 |
replacement |
string |
替换文本。 |
PatternTokenizer
使用正则表达式模式匹配来构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
flags |
正则表达式标志。 |
||
group |
integer |
-1 |
正则表达式模式中要提取到标记中的匹配组的从零开始的序号。 如果要使用整个模式将输入拆分为标记,而不考虑匹配的组,请使用 -1。 默认值为 -1。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
pattern |
string |
\W+ |
用于匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个非单词字符的表达式。 |
PhoneticEncoder
标识要与 PhoneticTokenFilter 一起使用的拼音编码器的类型。
名称 | 类型 | 说明 |
---|---|---|
beiderMorse |
string |
将令牌编码为 Beider-Morse 值。 |
caverphone1 |
string |
将令牌编码为 Caverphone 1.0 值。 |
caverphone2 |
string |
将令牌编码为 Caverphone 2.0 值。 |
cologne |
string |
将令牌编码为科隆拼音值。 |
doubleMetaphone |
string |
将令牌编码为双元音值。 |
haasePhonetik |
string |
使用 Kölner Phonetik 算法的 Haase 优化对令牌进行编码。 |
koelnerPhonetik |
string |
使用 Kölner Phonetik 算法对令牌进行编码。 |
metaphone |
string |
将令牌编码为元语音值。 |
nysiis |
string |
将令牌编码为 NYSIIS 值。 |
refinedSoundex |
string |
将令牌编码为 Refined Soundex 值。 |
soundex |
string |
将令牌编码为 Soundex 值。 |
PhoneticTokenFilter
为拼音匹配项创建标记。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
encoder | metaphone |
要使用的拼音编码器。 默认值为“metaphone”。 |
|
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
replace |
boolean |
True |
一个值,该值指示编码的令牌是否应替换原始令牌。 如果为 false,则编码的标记将添加为同义词。 默认为 true。 |
PrioritizedFields
描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。
名称 | 类型 | 说明 |
---|---|---|
prioritizedContentFields |
定义用于语义排名、字幕、突出显示和答案的内容字段。 为了获得最佳结果,所选字段应包含自然语言形式的文本。 数组中字段的顺序表示其优先级。 如果内容较长,优先级较低的字段可能会被截断。 |
|
prioritizedKeywordsFields |
定义用于语义排名、字幕、突出显示和答案的关键字 (keyword) 字段。 为了获得最佳结果,所选字段应包含关键字列表。 数组中字段的顺序表示其优先级。 如果内容较长,优先级较低的字段可能会被截断。 |
|
titleField |
定义用于语义排名、标题、突出显示和答案的标题字段。 如果索引中没有标题字段,请将此字段留空。 |
RegexFlags
定义可以组合在一起以控制模式分析器和模式标记器中如何使用正则表达式的标志。
名称 | 类型 | 说明 |
---|---|---|
CANON_EQ |
string |
启用规范等效性。 |
CASE_INSENSITIVE |
string |
启用不区分大小写的匹配。 |
COMMENTS |
string |
允许模式中的空格和注释。 |
DOTALL |
string |
启用 dotall 模式。 |
LITERAL |
string |
启用模式的文本分析。 |
MULTILINE |
string |
启用多行模式。 |
UNICODE_CASE |
string |
启用 Unicode 感知大小写折叠。 |
UNIX_LINES |
string |
启用 Unix 行模式。 |
ScoringFunctionAggregation
定义用于合并评分配置文件中所有评分函数的结果的聚合函数。
名称 | 类型 | 说明 |
---|---|---|
average |
string |
按所有评分函数结果的平均值提高分数。 |
firstMatching |
string |
使用评分配置文件中的第一个适用的评分函数提升分数。 |
maximum |
string |
将分数提高到所有评分函数结果的最大值。 |
minimum |
string |
将分数提高到所有评分函数结果的最小值。 |
sum |
string |
按所有评分函数结果的总和提高分数。 |
ScoringFunctionInterpolation
定义用于在一系列文档中内插分数提升的函数。
名称 | 类型 | 说明 |
---|---|---|
constant |
string |
按常量因素提升分数。 |
linear |
string |
按线性递减量提升分数。 这是评分函数的默认内插。 |
logarithmic |
string |
将分数提升为对数减少的量。 提升会快速降低以获得更高的分数,而随着分数的降低,提升速度会更慢。 tag 计分函数中不允许使用此内插选项。 |
quadratic |
string |
将分数提升为按四次减少的量。 提升缓慢下降以获得更高的分数,并且随着分数的降低而更快。 tag 计分函数中不允许使用此内插选项。 |
ScoringProfile
定义影响搜索查询评分的搜索索引的参数。
名称 | 类型 | 说明 |
---|---|---|
functionAggregation |
一个 值,该值指示应如何组合各个评分函数的结果。 默认为“Sum”。 如果没有评分函数,则忽略。 |
|
functions | ScoringFunction[]: |
影响文档评分的函数集合。 |
name |
string |
评分配置文件的名称。 |
text |
基于某些索引字段中的文本匹配项提高评分的参数。 |
SearchError
描述 API 的错误条件。
名称 | 类型 | 说明 |
---|---|---|
code |
string |
服务器定义的一组错误代码中的一个。 |
details |
有关导致此项报告错误的特定错误的详细信息数组。 |
|
message |
string |
错误的用户可读表示形式。 |
SearchField
表示索引定义中的字段,该字段描述字段的名称、数据类型和搜索行为。
名称 | 类型 | 说明 |
---|---|---|
analyzer |
要用于字段的分析器的名称。 此选项只能用于可搜索字段,并且无法与 searchAnalyzer 或 indexAnalyzer 一起设置。 选择分析器后,无法为字段更改它。 对于复杂字段,必须为 null。 |
|
dimensions |
integer |
向量字段的维度。 |
facetable |
boolean |
一个值,该值指示是否允许在分面查询中引用字段。 通常用于搜索结果的演示文稿,包括按类别 (例如,搜索数码相机并查看按品牌、百万像素、按价格等) 命中次数。 对于复杂字段,此属性必须为 null。 Edm.GeographyPoint 或集合 (Edm.GeographyPoint) 类型字段不可识别。 所有其他简单字段的默认值为 true。 |
fields |
如果这是类型为 Edm.ComplexType 或 Collection 的字段,则为子字段列表, (Edm.ComplexType) 。 对于简单字段,必须为 null 或为空。 |
|
filterable |
boolean |
一个 值,该值指示是否允许在$filter查询中引用字段。 filterable 与可搜索字符串的处理方式不同。 可筛选的 Edm.String 或 Collection (Edm.String) 类型的字段不会进行断字,因此比较仅用于完全匹配。 例如,如果将此类字段 f 设置为“sunny day”,$filter=f eq“sunny”将找不到匹配项,但$filter=f eq“sunny day”将找到匹配项。 对于复杂字段,此属性必须为 null。 对于简单字段,默认值为 true,对于复杂字段,默认值为 null。 |
indexAnalyzer |
在为字段编制索引时使用的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 searchAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 选择分析器后,无法为字段更改它。 对于复杂字段,必须为 null。 |
|
key |
boolean |
一个 值,该值指示字段是否唯一标识索引中的文档。 必须选择每个索引中的一个顶级字段作为键字段,并且该字段的类型必须为 Edm.String。 关键字段可用于直接查找文档以及更新或删除特定文档。 简单字段的默认值为 false,对于复杂字段,默认值为 null。 |
name |
string |
字段的名称,该名称在索引或父字段的 fields 集合中必须是唯一的。 |
retrievable |
boolean |
一个值,该值指示字段是否可以在搜索结果中返回。 如果要使用字段 (例如,边距) 作为筛选器、排序或评分机制,但不希望该字段对最终用户可见,则可以禁用此选项。 对于关键字段,此属性必须为 true,对于复杂字段,此属性必须为 null。 可以在现有字段上更改此属性。 启用此属性不会导致索引存储要求的任何增加。 对于简单字段,默认值为 true,对于复杂字段,默认值为 null。 |
searchAnalyzer |
搜索字段时使用的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 indexAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 此分析器无法在现有字段上更新。 对于复杂字段,必须为 null。 |
|
searchable |
boolean |
一个值,该值指示字段是否可全文搜索。 这意味着它会在索引期间受到分词之类的分析。 如果将某个可搜索字段设置为“sunny day”之类的值,在内部它将拆分为单独的标记“sunny”和“day”。 这实现了对这些词的全文搜素。 默认情况下,可搜索 Edm.String 或集合 (Edm.String) 类型的字段。 对于其他非字符串数据类型的简单字段,此属性必须为 false,对于复杂字段,此属性必须为 null。 注意:可搜索字段会在索引中占用额外的空间,以适应用于全文搜索的字段值的其他标记化版本。 如果要节省索引中的空间,并且不需要将字段包含在搜索中,请将“可搜索”设置为 false。 |
sortable |
boolean |
一个值,该值指示是否启用要在$orderby表达式中引用的字段。 默认情况下,搜索引擎按分数对结果进行排序,但在许多情况下,用户需要按文档中的字段进行排序。 仅当简单字段是单值字段, (它在父文档) 的范围内具有单个值时,才能对其进行排序。 简单集合字段不可排序,因为它们是多值字段。 复杂集合的简单子字段也是多值字段,因此无法排序。 无论是直接父字段还是上级字段(即复杂集合),都是如此。 复杂字段不能是可排序的,并且此类字段的可排序属性必须为 null。 对于单值简单字段,可排序的默认值为 true,对于多值简单字段为 false,对于复杂字段为 null。 |
synonymMaps |
string[] |
要与此字段关联的同义词名称列表。 此选项只能与可搜索字段一起使用。 目前,每个字段仅支持一个同义词映射。 为字段分配同义词映射可确保在查询时使用同义词映射中的规则扩展面向该字段的查询词。 可以在现有字段上更改此属性。 对于复杂字段,必须为 null 或空集合。 |
type |
字段的数据类型。 |
|
vectorSearchProfile |
string |
矢量搜索配置文件的名称,指定搜索向量字段时要使用的算法。 |
SearchFieldDataType
定义搜索索引中字段的数据类型。
名称 | 类型 | 说明 |
---|---|---|
Edm.Boolean |
string |
指示字段包含一个布尔值 (true 或 false) 。 |
Edm.ComplexType |
string |
指示字段包含一个或多个复杂对象,这些对象又具有其他类型的子字段。 |
Edm.DateTimeOffset |
string |
指示字段包含日期/时间值,包括时区信息。 |
Edm.Double |
string |
指示字段包含 IEEE 双精度浮点数。 |
Edm.GeographyPoint |
string |
指示字段包含经度和纬度的地理位置。 |
Edm.Int32 |
string |
指示字段包含 32 位带符号整数。 |
Edm.Int64 |
string |
指示字段包含 64 位带符号整数。 |
Edm.Single |
string |
指示字段包含单精度浮点数。 仅当与 Collection (Edm.Single) 一起使用时,此功能才有效。 |
Edm.String |
string |
指示字段包含字符串。 |
SearchIndex
表示搜索索引定义,该定义描述索引的字段和搜索行为。
名称 | 类型 | 说明 |
---|---|---|
@odata.etag |
string |
索引的 ETag。 |
analyzers | LexicalAnalyzer[]: |
索引的分析器。 |
charFilters | CharFilter[]: |
字符筛选索引。 |
corsOptions |
控制跨源资源共享的选项 (索引的 CORS) 。 |
|
defaultScoringProfile |
string |
如果未在查询中指定任何值,则要使用的评分配置文件的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分 (tf-idf) 。 |
encryptionKey |
在 Azure 密钥保管库 中创建的加密密钥的说明。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于 2019 年 1 月 1 日或之后创建的付费服务。 |
|
fields |
索引的字段。 |
|
name |
string |
索引的名称。 |
scoringProfiles |
索引的评分配置文件。 |
|
semantic |
定义影响语义功能的搜索索引的参数。 |
|
similarity | Similarity: |
评分和排名与搜索查询匹配的文档时使用的相似性算法类型。 相似性算法只能在索引创建时定义,不能对现有索引进行修改。 如果为 null,则使用 ClassicSimilarity 算法。 |
suggesters |
索引的建议器。 |
|
tokenFilters |
TokenFilter[]:
|
标记筛选索引。 |
tokenizers | LexicalTokenizer[]: |
索引的 tokenizer。 |
vectorSearch |
包含与矢量搜索相关的配置选项。 |
SearchResourceEncryptionKey
Azure 密钥保管库中客户管理的加密密钥。 创建和管理的密钥可用于加密或解密搜索服务上的静态数据,例如索引和同义词映射。
名称 | 类型 | 说明 |
---|---|---|
accessCredentials |
用于访问 Azure 密钥保管库的可选 Azure Active Directory 凭据。 如果改用托管标识,则不需要。 |
|
keyVaultKeyName |
string |
用于加密静态数据的 Azure 密钥保管库密钥的名称。 |
keyVaultKeyVersion |
string |
Azure 密钥保管库密钥的版本,用于加密静态数据。 |
keyVaultUri |
string |
Azure 密钥保管库的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 URI 示例可能是 |
SemanticConfiguration
定义要在语义功能上下文中使用的特定配置。
名称 | 类型 | 说明 |
---|---|---|
name |
string |
语义配置的名称。 |
prioritizedFields |
描述用于语义排名、标题、突出显示和答案的标题、内容和关键字 (keyword) 字段。 需要设置三个子属性中的至少一个 (titleField、prioritizedKeywordsFields 和 prioritizedContentFields) 。 |
SemanticField
用作语义配置的一部分的字段。
名称 | 类型 | 说明 |
---|---|---|
fieldName |
string |
SemanticSettings
定义影响语义功能的搜索索引的参数。
名称 | 类型 | 说明 |
---|---|---|
configurations |
索引的语义配置。 |
|
defaultConfiguration |
string |
允许在索引中设置默认语义配置的名称,因此可以选择每次将其作为查询参数传递。 |
ShingleTokenFilter
创建标记组合作为单个标记。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
filterToken |
string |
_ |
要为没有标记的每个位置插入的字符串。 默认值为下划线 (“_”) 。 |
maxShingleSize |
integer |
2 |
最大瓦片大小。 默认值和最小值为 2。 |
minShingleSize |
integer |
2 |
最小瓦片大小。 默认值和最小值为 2。 必须小于 maxShingleSize 的值。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
outputUnigrams |
boolean |
True |
一个 值,该值指示输出流是否将包含输入标记 (unigram) 以及 shingle。 默认为 true。 |
outputUnigramsIfNoShingles |
boolean |
False |
一个值,该值指示在没有带状带状体可用时是否输出单元语法。 当 outputUnigrams 设置为 false 时,此属性优先。 默认值为 false。 |
tokenSeparator |
string |
联接相邻标记以形成闪点时使用的字符串。 默认值为单个空格 (“、”) ”。 |
SnowballTokenFilter
使用 Snowball 生成的词干分析器来词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
language |
要使用的语言。 |
|
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
SnowballTokenFilterLanguage
用于 Snowball 令牌筛选器的语言。
名称 | 类型 | 说明 |
---|---|---|
armenian |
string |
为亚美尼亚语选择 Lucene Snowball 词干标记器。 |
basque |
string |
为 Basque 选择 Lucene Snowball 词干词干化器。 |
catalan |
string |
为加泰罗尼亚语选择 Lucene Snowball 词干词干词。 |
danish |
string |
选择丹麦语的 Lucene Snowball 词干词干化器。 |
dutch |
string |
为荷兰语选择 Lucene Snowball 词干词干化器。 |
english |
string |
为英语选择 Lucene Snowball 词干词干化器。 |
finnish |
string |
为芬兰语选择 Lucene Snowball 词干词干化器。 |
french |
string |
为法语选择 Lucene Snowball 词干词干化器。 |
german |
string |
为德语选择 Lucene Snowball 词干词干化器。 |
german2 |
string |
选择使用德语变体算法的 Lucene Snowball 词干词干化器。 |
hungarian |
string |
为匈牙利语选择 Lucene Snowball 词干词干化器。 |
italian |
string |
为意大利语选择 Lucene Snowball 词干词切分器。 |
kp |
string |
选择使用 Kraaij-Pohlmann 词干分解算法的荷兰语的 Lucene Snowball 词干词切分器。 |
lovins |
string |
为英语选择使用 Lovins 词干分解算法的 Lucene Snowball 词干标记器。 |
norwegian |
string |
选择挪威语的 Lucene Snowball 词干词干化器。 |
porter |
string |
为英语选择使用 Porter 词干分解算法的 Lucene Snowball 词干词干化器。 |
portuguese |
string |
为葡萄牙语选择 Lucene Snowball 词干词干化器。 |
romanian |
string |
为罗马尼亚语选择 Lucene Snowball 词干词干化器。 |
russian |
string |
为俄语选择 Lucene Snowball 词干词干化器。 |
spanish |
string |
为西班牙语选择 Lucene Snowball 词干词干化器。 |
swedish |
string |
选择“Lucene Snowball stemming tokenizer”作为“瑞典语”。 |
turkish |
string |
为土耳其语选择 Lucene Snowball 词干词干化器。 |
StemmerOverrideTokenFilter
提供使用基于字典的自定义词干筛选替代其他词干筛选器的功能。 任何字典词干词都将标记为关键字,以便它们不会在链上使用词干分析器进行词干。 必须放在任何词干分解筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
rules |
string[] |
采用以下格式的词干规则列表:“word => stem”,例如:“run => run”。 |
StemmerTokenFilter
特定于语言的词干筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
language |
要使用的语言。 |
|
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
StemmerTokenFilterLanguage
用于词干分析器标记筛选器的语言。
名称 | 类型 | 说明 |
---|---|---|
arabic |
string |
为阿拉伯语选择 Lucene 词干词干标记器。 |
armenian |
string |
为亚美尼亚语选择 Lucene 词干标记器。 |
basque |
string |
为 Basque 选择 Lucene 词干标记器。 |
brazilian |
string |
为葡萄牙语 (巴西) 选择 Lucene 词干标记器。 |
bulgarian |
string |
为保加利亚语选择 Lucene 词干标记器。 |
catalan |
string |
为加泰罗尼亚语选择 Lucene 词干标记器。 |
czech |
string |
为 Czech 选择 Lucene 词干词切分器。 |
danish |
string |
选择丹麦语的 Lucene 词干标记器。 |
dutch |
string |
为荷兰语选择 Lucene 词干词干标记器。 |
dutchKp |
string |
为荷兰语选择使用 Kraaij-Pohlmann 词干分解算法的 Lucene 词干标记器。 |
english |
string |
为英语选择 Lucene 词干词干标记器。 |
finnish |
string |
为芬兰语选择 Lucene 词干标记器。 |
french |
string |
为法语选择 Lucene 词干标记器。 |
galician |
string |
为加利西亚语选择 Lucene 词干标记器。 |
german |
string |
为德语选择 Lucene 词干标记器。 |
german2 |
string |
选择使用德语变体算法的 Lucene 词干标记器。 |
greek |
string |
为希腊语选择 Lucene 词干词干标记器。 |
hindi |
string |
为印地语选择 Lucene 词干标记器。 |
hungarian |
string |
为匈牙利语选择 Lucene 词干标记器。 |
indonesian |
string |
为印尼语选择 Lucene 词干标记器。 |
irish |
string |
选择用于爱尔兰的 Lucene 词干标记器。 |
italian |
string |
为意大利语选择 Lucene 词干标记器。 |
latvian |
string |
为拉脱维亚语选择 Lucene 词干标记器。 |
lightEnglish |
string |
为执行光词干分析的英语选择 Lucene 词干词切分器。 |
lightFinnish |
string |
为芬兰语选择执行光词干词干的 Lucene 词干标记器。 |
lightFrench |
string |
为执行光词干词干的法语选择 Lucene 词干词切分器。 |
lightGerman |
string |
为执行光词干分解的德语选择 Lucene 词干词切分器。 |
lightHungarian |
string |
选择用于执行光词干分解的匈牙利语的 Lucene 词干词切分器。 |
lightItalian |
string |
为执行光词干分析的意大利语选择 Lucene 词干词切分器。 |
lightNorwegian |
string |
为执行光词干分析的挪威 (Bokmål) 选择 Lucene 词干词切分器。 |
lightNynorsk |
string |
为执行光词干分析的挪威 (尼诺斯克) 选择 Lucene 词干标记器。 |
lightPortuguese |
string |
选择用于进行光词干分解的葡萄牙语的 Lucene 词干词切分器。 |
lightRussian |
string |
选择用于执行光词干分解的俄语的 Lucene 词干词干化器。 |
lightSpanish |
string |
选择用于执行光词干分解的西班牙语的 Lucene 词干词切分器。 |
lightSwedish |
string |
选择用于执行光词干分解的瑞典语的 Lucene 词干词切分器。 |
lovins |
string |
为英语选择使用 Lovins 词干分解算法的 Lucene 词干标记器。 |
minimalEnglish |
string |
为英语选择执行最小词干分解的 Lucene 词干词切分器。 |
minimalFrench |
string |
为法语选择执行最小词干分解的 Lucene 词干标记器。 |
minimalGalician |
string |
为加利西亚语选择执行最小词干分解的 Lucene 词干标记器。 |
minimalGerman |
string |
为德语选择执行最小词干分解的 Lucene 词干词切分器。 |
minimalNorwegian |
string |
为执行最小词干分析的挪威 (Bokmål) 选择 Lucene 词干标记器。 |
minimalNynorsk |
string |
为执行最小词干分解的挪威 (Nynorsk) 选择 Lucene 词干词切分器。 |
minimalPortuguese |
string |
为葡萄牙语选择执行最小词干分解的 Lucene 词干标记器。 |
norwegian |
string |
选择挪威语 (Bokmål) 的 Lucene 词干标记器。 |
porter2 |
string |
为英语选择使用 Porter2 词干分解算法的 Lucene 词干标记器。 |
portuguese |
string |
为葡萄牙语选择 Lucene 词干词干标记器。 |
portugueseRslp |
string |
选择使用 RSLP 词干分解算法的葡萄牙语的 Lucene 词干标记器。 |
possessiveEnglish |
string |
为英语选择 Lucene 词干词干标记器,从单词中删除尾随所有物。 |
romanian |
string |
为罗马尼亚语选择 Lucene 词干标记器。 |
russian |
string |
为俄语选择 Lucene 词干词干标记器。 |
sorani |
string |
为 Sorani 选择 Lucene 词干标记器。 |
spanish |
string |
为西班牙语选择 Lucene 词干标记器。 |
swedish |
string |
为瑞典语选择 Lucene 词干词切分器。 |
turkish |
string |
为土耳其语选择 Lucene 词干词切分器。 |
StopAnalyzer
将文本除以非字母;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。
名称 | 类型 | 说明 |
---|---|---|
@odata.type |
string:
#Microsoft. |
指定分析器类型的 URI 片段。 |
name |
string |
分析器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
stopwords |
string[] |
非索引字列表。 |
StopwordsList
标识特定于语言的非索引字的预定义列表。
名称 | 类型 | 说明 |
---|---|---|
arabic |
string |
选择阿拉伯语的非索引字列表。 |
armenian |
string |
选择亚美尼亚语的非索引字列表。 |
basque |
string |
选择 Basque 的非索引字列表。 |
brazilian |
string |
选择葡萄牙语 (巴西) 非索引字列表。 |
bulgarian |
string |
选择保加利亚语的非索引字列表。 |
catalan |
string |
选择加泰罗尼亚语的非索引字列表。 |
czech |
string |
选择“捷克”的非索引字列表。 |
danish |
string |
选择丹麦语的非索引字列表。 |
dutch |
string |
选择荷兰语的非索引字列表。 |
english |
string |
选择英语的非索引字列表。 |
finnish |
string |
选择芬兰语的非索引字列表。 |
french |
string |
选择法语的非索引字列表。 |
galician |
string |
选择加利西亚语的非索引字列表。 |
german |
string |
选择德语的非索引字列表。 |
greek |
string |
选择希腊语的非索引字列表。 |
hindi |
string |
选择印地语的非索引字列表。 |
hungarian |
string |
选择匈牙利语的非索引字列表。 |
indonesian |
string |
选择印尼语的非索引字列表。 |
irish |
string |
选择爱尔兰语的非索引字列表。 |
italian |
string |
选择意大利语的非索引字列表。 |
latvian |
string |
选择拉脱维亚语的非索引字列表。 |
norwegian |
string |
选择挪威语的非索引字列表。 |
persian |
string |
选择波斯语的非索引字列表。 |
portuguese |
string |
选择葡萄牙语的“非索引字”列表。 |
romanian |
string |
为罗马尼亚语选择非索引字列表。 |
russian |
string |
选择俄语的非索引字列表。 |
sorani |
string |
为 Sorani 选择非索引字列表。 |
spanish |
string |
选择西班牙语的非索引字列表。 |
swedish |
string |
选择“瑞典文”的“非索引字”列表。 |
thai |
string |
为泰语选择非索引字列表。 |
turkish |
string |
选择“土耳其语”的“非索引字”列表。 |
StopwordsTokenFilter
从标记流中删除非索引字。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
ignoreCase |
boolean |
False |
一个值,该值指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
removeTrailing |
boolean |
True |
一个 值,该值指示是否忽略最后一个搜索词(如果它是一个停止词)。 默认为 true。 |
stopwords |
string[] |
非索引字列表。 不能同时设置此属性和非索引字列表属性。 |
|
stopwordsList | english |
要使用的预定义非索引字列表。 不能同时设置此属性和 stopwords 属性。 默认值为英语。 |
Suggester
定义建议 API 应如何应用于索引中的一组字段。
名称 | 类型 | 说明 |
---|---|---|
name |
string |
建议器的名称。 |
searchMode |
一个指示建议器功能的值。 |
|
sourceFields |
string[] |
建议器应用于的字段名称列表。 每个字段都必须可搜索。 |
SuggesterSearchMode
一个指示建议器功能的值。
名称 | 类型 | 说明 |
---|---|---|
analyzingInfixMatching |
string |
匹配字段中的连续整个术语和前缀。 例如,对于字段“最快的棕色狐狸”,查询“fast”和“fastest brow”将匹配。 |
SynonymTokenFilter
匹配令牌流中的单个或多个单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
expand |
boolean |
True |
一个值,该值指示当未使用 => 表示法时,同义词列表中的所有单词是否 (,) 是否相互映射。 如果为 true,则同义词列表中的所有单词 (,如果未使用 => 表示法,则) 将相互映射。 下面的列表:不可思议,难以置信,神话般,惊人的相当于:不可思议,难以置信,神话般,惊人的 => 不可思议,不可思议,神话般,惊人。 如果为 false,以下列表:不可思议,难以置信,神话般,惊人将等效于:不可思议,难以置信,神话般,惊人 => 不可思议。 默认为 true。 |
ignoreCase |
boolean |
False |
一个值,该值指示是否将输入大小写进行匹配。 默认值为 false。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
synonyms |
string[] |
具有以下两种格式之一的同义词列表:1。 不可思议, 难以置信, 神话般 => 惊人的 - => 符号左侧的所有术语都将替换为其右侧的所有术语;2. 不可思议, 难以置信, 神话般, 惊人的 - 逗号分隔的等效单词列表。 设置展开选项可更改此列表的解释方式。 |
TagScoringFunction
定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档分数。
名称 | 类型 | 说明 |
---|---|---|
boost |
number |
原始分数的乘数。 必须是不等于 1.0 的正数。 |
fieldName |
string |
用作评分函数输入的字段的名称。 |
interpolation |
一个值,该值指示如何在文档分数之间内插提升;默认为“Linear”。 |
|
tag |
标记评分函数的参数值。 |
|
type |
string:
tag |
指示要使用的函数类型。 有效值包括 magnitude、freshness、distance 和 tag。 函数类型必须为小写。 |
TagScoringParameters
为标记评分函数提供参数值。
名称 | 类型 | 说明 |
---|---|---|
tagsParameter |
string |
在搜索查询中传递的参数的名称,用于指定要与目标字段进行比较的标记列表。 |
TextWeights
定义索引字段的权重,匹配项应提高搜索查询中的评分。
名称 | 类型 | 说明 |
---|---|---|
weights |
object |
用于提高文档评分的每字段权重的字典。 键是字段名称,值是每个字段的权重。 |
TokenCharacterKind
表示令牌筛选器可以对其操作的字符类。
名称 | 类型 | 说明 |
---|---|---|
digit |
string |
在令牌中保留数字。 |
letter |
string |
在令牌中保留字母。 |
punctuation |
string |
在令牌中保留标点。 |
symbol |
string |
将符号保留在令牌中。 |
whitespace |
string |
在令牌中保留空格。 |
TokenFilterName
定义搜索引擎支持的所有令牌筛选器的名称。
TruncateTokenFilter
将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
length |
integer |
300 |
将截断字词的长度。 默认值和最大值为 300。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
UaxUrlEmailTokenizer
将 URL 和电子邮件标记为一个标记。 此 tokenizer 是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定 tokenizer 类型的 URI 片段。 |
|
maxTokenLength |
integer |
255 |
最大标记长度。 默认值为 255。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。 |
name |
string |
tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
UniqueTokenFilter
筛选出与前一个标记具有相同文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
onlyOnSamePosition |
boolean |
False |
一个值,该值指示是否仅删除位于同一位置的副本。 默认值为 false。 |
VectorSearch
包含与矢量搜索相关的配置选项。
名称 | 类型 | 说明 |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
包含特定于索引编制或查询期间使用的算法的配置选项。 |
profiles |
定义要与矢量搜索一起使用的配置组合。 |
VectorSearchAlgorithmKind
用于编制索引和查询的算法。
名称 | 类型 | 说明 |
---|---|---|
exhaustiveKnn |
string |
将执行暴力搜索的详尽 KNN 算法。 |
hnsw |
string |
HNSW (分层导航小世界) ,一种近似近邻算法。 |
VectorSearchAlgorithmMetric
用于矢量比较的相似性指标。
名称 | 类型 | 说明 |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
定义要与矢量搜索一起使用的配置组合。
名称 | 类型 | 说明 |
---|---|---|
algorithm |
string |
指定算法和可选参数的矢量搜索算法配置的名称。 |
name |
string |
要与此特定矢量搜索配置文件关联的名称。 |
WordDelimiterTokenFilter
将字词拆分为子字,并对子字组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。
名称 | 类型 | 默认值 | 说明 |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
指定令牌筛选器类型的 URI 片段。 |
|
catenateAll |
boolean |
False |
一个值,该值指示是否将对所有子字部分进行分隔。 例如,如果此值设置为 true,则“Azure-Search-1”变为“AzureSearch1”。 默认值为 false。 |
catenateNumbers |
boolean |
False |
一个 值,该值指示是否将分隔多个部件的最大运行数。 例如,如果此值设置为 true,则“1-2”变为“12”。 默认值为 false。 |
catenateWords |
boolean |
False |
一个值,该值指示单词部分的最大运行量是否将被分隔。 例如,如果此值设置为 true,则“Azure 搜索”将变为“AzureSearch”。 默认值为 false。 |
generateNumberParts |
boolean |
True |
一个值,该值指示是否生成数字子字。 默认为 true。 |
generateWordParts |
boolean |
True |
一个值,该值指示是否生成部分字词。 如果设置,会导致生成部分字词;例如,“AzureSearch”变为“Azure”“搜索”。 默认为 true。 |
name |
string |
令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。 |
|
preserveOriginal |
boolean |
False |
一个值,该值指示是否保留原始单词并将其添加到子字列表。 默认值为 false。 |
protectedWords |
string[] |
要防止分隔的令牌列表。 |
|
splitOnCaseChange |
boolean |
True |
一个值,该值指示是否在 caseChange 上拆分单词。 例如,如果此值设置为 true,“AzureSearch”将变为“Azure”“搜索”。 默认为 true。 |
splitOnNumerics |
boolean |
True |
一个值,该值指示是否按数字拆分。 例如,如果此值设置为 true,“Azure1Search”将变为“Azure”“1”“搜索”。 默认为 true。 |
stemEnglishPossessive |
boolean |
True |
一个值,该值指示是否删除每个子字的尾随“'s”。 默认为 true。 |