你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Indexes - Create

创建新的搜索索引。

POST {endpoint}/indexes?api-version=2023-11-01

URI 参数

名称 必需 类型 说明
endpoint
path True

string

搜索服务的终结点 URL。

api-version
query True

string

客户端 API 版本。

请求头

名称 必需 类型 说明
x-ms-client-request-id

string

uuid

随请求一起发送以帮助调试的跟踪 ID。

请求正文

名称 必需 类型 说明
fields True

SearchField[]

索引的字段。

name True

string

索引的名称。

@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

字符筛选索引。

corsOptions

CorsOptions

控制跨源资源共享的选项 (索引的 CORS) 。

defaultScoringProfile

string

如果未在查询中指定任何值,则要使用的评分配置文件的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分 (tf-idf) 。

encryptionKey

SearchResourceEncryptionKey

在 Azure 密钥保管库 中创建的加密密钥的说明。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于 2019 年 1 月 1 日或之后创建的付费服务。

scoringProfiles

ScoringProfile[]

索引的评分配置文件。

semantic

SemanticSettings

定义影响语义功能的搜索索引的参数。

similarity Similarity:

评分和排名与搜索查询匹配的文档时使用的相似性算法类型。 相似性算法只能在索引创建时定义,不能对现有索引进行修改。 如果为 null,则使用 ClassicSimilarity 算法。

suggesters

Suggester[]

索引的建议器。

tokenFilters TokenFilter[]:

标记筛选索引。

tokenizers LexicalTokenizer[]:

索引的 tokenizer。

vectorSearch

VectorSearch

包含与矢量搜索相关的配置选项。

响应

名称 类型 说明
201 Created

SearchIndex

Other Status Codes

SearchError

错误响应。

示例

SearchServiceCreateIndex

示例请求

POST https://myservice.search.windows.net/indexes?api-version=2023-11-01

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "key": true,
      "searchable": false
    },
    {
      "name": "baseRate",
      "type": "Edm.Double"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "synonymMaps": [],
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile"
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "filterable": false,
      "sortable": false,
      "facetable": false,
      "analyzer": "fr.lucene"
    },
    {
      "name": "hotelName",
      "type": "Edm.String"
    },
    {
      "name": "category",
      "type": "Edm.String"
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "analyzer": "tagsAnalyzer"
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean"
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean"
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset"
    },
    {
      "name": "rating",
      "type": "Edm.Int32"
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint"
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": "<applicationSecret>"
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ],
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "m": 4,
          "metric": "cosine"
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ]
  }
}

示例响应

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "fieldName": "location",
          "interpolation": "logarithmic",
          "type": "distance",
          "boost": 5,
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenFilters": [],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
    "keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  },
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "b": 0.5,
    "k1": 1.3
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}

定义

名称 说明
AsciiFoldingTokenFilter

将“基本拉丁语”Unicode) 块 (的前 127 个 ASCII 字符中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项(如果存在此类等效字符)。 此令牌筛选器是使用 Apache Lucene 实现的。

AzureActiveDirectoryApplicationCredentials

为搜索服务创建的已注册应用程序的凭据,用于对 Azure 密钥保管库中存储的加密密钥的身份验证访问。

BM25Similarity

基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF IDF 的算法,包括由“b”参数) 控制的长度规范化 (,以及由“k1”参数 () 控制的术语频率饱和度。

CharFilterName

定义搜索引擎支持的所有字符筛选器的名称。

CjkBigramTokenFilter

形成从标准 tokenizer 生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的脚本。

ClassicSimilarity

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。 TF-IDF 的这种变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。

ClassicTokenizer

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

CommonGramTokenFilter

在编制索引时为经常出现的词条构造二元语法。 此外,仍将为单个词条编制索引并叠加二元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

CorsOptions

定义用于控制索引 (CORS) 跨域资源共享的选项。

CustomAnalyzer

允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。

DictionaryDecompounderTokenFilter

分解在许多日耳曼语系中找到的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。

DistanceScoringFunction

定义一个函数,该函数根据与地理位置的距离提高分数。

DistanceScoringParameters

为距离评分函数提供参数值。

EdgeNGramTokenFilter

从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

EdgeNGramTokenFilterSide

指定应从中生成 n-gram 的输入的哪一端。

EdgeNGramTokenFilterV2

从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

EdgeNGramTokenizer

将来自边缘的输入标记化为给定大小 (s) 的 n 克。 此 tokenizer 是使用 Apache Lucene 实现的。

ElisionTokenFilter

删除省音。 例如,“l'avion” (平面) 将转换为“avion” (平面) 。 此令牌筛选器是使用 Apache Lucene 实现的。

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个向量索引中执行暴力搜索。

FreshnessScoringFunction

定义一个函数,该函数根据日期时间字段的值提高分数。

FreshnessScoringParameters

为新鲜度评分函数提供参数值。

HnswParameters

包含特定于 HNSW 算法的参数。

HnswVectorSearchAlgorithmConfiguration

包含特定于在索引编制和查询期间使用的 HNSW 近似邻居算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供可调整的权衡。

KeepTokenFilter

一个标记筛选器,它仅保留包含指定单词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

KeywordMarkerTokenFilter

将词条标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。

KeywordTokenizer

将整个输入作为单个标记发出。 此 tokenizer 是使用 Apache Lucene 实现的。

KeywordTokenizerV2

将整个输入作为单个标记发出。 此 tokenizer 是使用 Apache Lucene 实现的。

LengthTokenFilter

删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

LexicalTokenizerName

定义搜索引擎支持的所有 tokenizer 的名称。

LimitTokenFilter

编制索引时限制标记数量。 此令牌筛选器是使用 Apache Lucene 实现的。

LuceneStandardAnalyzer

标准 Apache Lucene 分析器;由标准标记器、小写筛选器和停止筛选器组成。

LuceneStandardTokenizer

按照 Unicode 文本分段规则划分文本。 此 tokenizer 是使用 Apache Lucene 实现的。

LuceneStandardTokenizerV2

按照 Unicode 文本分段规则划分文本。 此 tokenizer 是使用 Apache Lucene 实现的。

MagnitudeScoringFunction

定义一个函数,该函数根据数值字段的量级提高分数。

MagnitudeScoringParameters

为数量级评分函数提供参数值。

MappingCharFilter

一个字符筛选器,用于应用使用映射选项定义的映射。 匹配具有贪婪性(给定点的最长模式匹配获胜)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将各字词缩减为其原形。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

MicrosoftStemmingTokenizerLanguage

Lists Microsoft 语言词干词干标记器支持的语言。

MicrosoftTokenizerLanguage

Lists Microsoft 语言 tokenizer 支持的语言。

NGramTokenFilter

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

NGramTokenFilterV2

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

NGramTokenizer

将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

PathHierarchyTokenizerV2

用于路径式层次结构的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

PatternAnalyzer

通过正则表达式模式将文本灵活地分解成多个词条。 此分析器是使用 Apache Lucene 实现的。

PatternCaptureTokenFilter

使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

PatternReplaceCharFilter

一个字符筛选器,用于替换输入字符串中的字符。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、“模式” (aa) \s+ (bb) “和替换”$1#$2“,结果将为”aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。

PatternReplaceTokenFilter

一个字符筛选器,用于替换输入字符串中的字符。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、“模式” (aa) \s+ (bb) “和替换”$1#$2“,结果将为”aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。

PatternTokenizer

使用正则表达式模式匹配来构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

PhoneticEncoder

标识要与 PhoneticTokenFilter 一起使用的拼音编码器的类型。

PhoneticTokenFilter

为拼音匹配项创建标记。 此令牌筛选器是使用 Apache Lucene 实现的。

PrioritizedFields

描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

RegexFlags

定义可以组合在一起以控制模式分析器和模式标记器中如何使用正则表达式的标志。

ScoringFunctionAggregation

定义用于合并评分配置文件中所有评分函数的结果的聚合函数。

ScoringFunctionInterpolation

定义用于在一系列文档中内插分数提升的函数。

ScoringProfile

定义影响搜索查询评分的搜索索引的参数。

SearchError

描述 API 的错误条件。

SearchField

表示索引定义中的字段,该字段描述字段的名称、数据类型和搜索行为。

SearchFieldDataType

定义搜索索引中字段的数据类型。

SearchIndex

表示搜索索引定义,该定义描述索引的字段和搜索行为。

SearchResourceEncryptionKey

Azure 密钥保管库中客户管理的加密密钥。 创建和管理的密钥可用于加密或解密搜索服务上的静态数据,例如索引和同义词映射。

SemanticConfiguration

定义要在语义功能上下文中使用的特定配置。

SemanticField

用作语义配置的一部分的字段。

SemanticSettings

定义影响语义功能的搜索索引的参数。

ShingleTokenFilter

创建标记组合作为单个标记。 此令牌筛选器是使用 Apache Lucene 实现的。

SnowballTokenFilter

使用 Snowball 生成的词干分析器来词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。

SnowballTokenFilterLanguage

用于 Snowball 令牌筛选器的语言。

StemmerOverrideTokenFilter

提供使用基于字典的自定义词干筛选替代其他词干筛选器的功能。 任何字典词干词都将标记为关键字,以便它们不会在链上使用词干分析器进行词干。 必须放在任何词干分解筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。

StemmerTokenFilter

特定于语言的词干筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。

StemmerTokenFilterLanguage

用于词干分析器标记筛选器的语言。

StopAnalyzer

将文本除以非字母;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。

StopwordsList

标识特定于语言的非索引字的预定义列表。

StopwordsTokenFilter

从标记流中删除非索引字。 此令牌筛选器是使用 Apache Lucene 实现的。

Suggester

定义建议 API 应如何应用于索引中的一组字段。

SuggesterSearchMode

一个指示建议器功能的值。

SynonymTokenFilter

匹配令牌流中的单个或多个单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。

TagScoringFunction

定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档分数。

TagScoringParameters

为标记评分函数提供参数值。

TextWeights

定义索引字段的权重,匹配项应提高搜索查询中的评分。

TokenCharacterKind

表示令牌筛选器可以对其操作的字符类。

TokenFilterName

定义搜索引擎支持的所有令牌筛选器的名称。

TruncateTokenFilter

将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。

UaxUrlEmailTokenizer

将 URL 和电子邮件标记为一个标记。 此 tokenizer 是使用 Apache Lucene 实现的。

UniqueTokenFilter

筛选出与前一个标记具有相同文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

VectorSearch

包含与矢量搜索相关的配置选项。

VectorSearchAlgorithmKind

用于编制索引和查询的算法。

VectorSearchAlgorithmMetric

用于矢量比较的相似性指标。

VectorSearchProfile

定义要与矢量搜索一起使用的配置组合。

WordDelimiterTokenFilter

将字词拆分为子字,并对子字组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。

AsciiFoldingTokenFilter

将“基本拉丁语”Unicode) 块 (的前 127 个 ASCII 字符中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项(如果存在此类等效字符)。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

preserveOriginal

boolean

False

一个值,该值指示是否将保留原始令牌。 默认值为 false。

AzureActiveDirectoryApplicationCredentials

为搜索服务创建的已注册应用程序的凭据,用于对 Azure 密钥保管库中存储的加密密钥的身份验证访问。

名称 类型 说明
applicationId

string

一个 AAD 应用程序 ID,该 ID 授予了对 Azure 密钥保管库所需的访问权限,该权限将在加密静态数据时使用。 应用程序 ID 不应与 AAD 应用程序的对象 ID 混淆。

applicationSecret

string

指定 AAD 应用程序的身份验证密钥。

BM25Similarity

基于 Okapi BM25 相似性算法的排名函数。 BM25 是一种类似于 TF IDF 的算法,包括由“b”参数) 控制的长度规范化 (,以及由“k1”参数 () 控制的术语频率饱和度。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

此属性控制文档的长度如何影响相关性分数。 默认情况下,使用值 0.75。 值为 0.0 表示不应用长度规范化,而值为 1.0 表示分数已完全规范化文档的长度。

k1

number

此属性控制每个匹配字词的术语频率与文档查询对的最终相关性分数之间的缩放函数。 默认情况下,使用值 1.2。 值为 0.0 表示分数不会随术语频率的增加而缩放。

CharFilterName

定义搜索引擎支持的所有字符筛选器的名称。

名称 类型 说明
html_strip

string

尝试去除 HTML 构造的字符筛选器。 请参见https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

形成从标准 tokenizer 生成的 CJK 术语的 bigram。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreScripts

CjkBigramTokenFilterScripts[]

要忽略的脚本。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

outputUnigrams

boolean

False

一个 值,该值指示是输出 unigram 和 bigrams ((如果为 true) ),还是仅输出 bigrams ((如果为 false) )。 默认值为 false。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的脚本。

名称 类型 说明
han

string

在形成 CJK 术语的大帧时忽略汉字。

hangul

string

在形成 CJK 术语的大帧时忽略朝鲜文脚本。

hiragana

string

在形成 CJK 术语的 bigram 时忽略平假名脚本。

katakana

string

在形成 CJK 术语的大帧时忽略片假名脚本。

ClassicSimilarity

使用 TF-IDF 的 Lucene TFIDFSimilarity 实现的传统相似性算法。 TF-IDF 的这种变体引入了静态文档长度规范化,以及惩罚仅部分匹配搜索查询的文档的协调因素。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

255

最大令牌长度。 默认值为 255。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

CommonGramTokenFilter

在编制索引时为经常出现的词条构造二元语法。 此外,仍将为单个词条编制索引并叠加二元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

指定令牌筛选器类型的 URI 片段。

commonWords

string[]

常用字词集。

ignoreCase

boolean

False

一个 值,该值指示常见字词匹配是否不区分大小写。 默认值为 false。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

queryMode

boolean

False

一个 值,该值指示令牌筛选器是否处于查询模式。 在查询模式下,标记筛选器会生成 bigrams,然后删除常见字词和单个字词,后跟一个通用字词。 默认值为 false。

CorsOptions

定义用于控制索引 (CORS) 跨域资源共享的选项。

名称 类型 说明
allowedOrigins

string[]

将向 JavaScript 代码授予对索引的访问权限的来源列表。 可以包含格式为 {protocol}://{fully-qualified-domain-name}[:{port#}] 的主机列表,也可以包含一 * 个主机列表,以允许所有源 (不建议) 。

maxAgeInSeconds

integer

浏览器应缓存 CORS 预检响应的持续时间。 默认为 5 分钟。

CustomAnalyzer

允许你控制将文本转换为可索引/可搜索令牌的过程。 它是用户定义的配置,由单个预定义的 tokenizer 和一个或多个筛选器组成。 tokenizer 负责将文本分解为令牌,以及用于修改 tokenizer 发出的令牌的筛选器。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

指定分析器类型的 URI 片段。

charFilters

CharFilterName[]

用于在标记器处理输入文本之前准备输入文本的字符筛选器列表。 例如,它们可以替换某些字符或符号。 筛选器按列出顺序运行。

name

string

分析器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

tokenFilters

TokenFilterName[]

用于筛选或修改 tokenizer 生成的令牌的令牌筛选器列表。 例如,可以指定将所有字符转换为小写的小写筛选器。 筛选器按列出顺序运行。

tokenizer

LexicalTokenizerName

用于将连续文本划分为一系列标记(例如将句子分解为单词)的 tokenizer 的名称。

DictionaryDecompounderTokenFilter

分解在许多日耳曼语系中找到的复合词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

指定令牌筛选器类型的 URI 片段。

maxSubwordSize

integer

15

最大子字大小。 仅输出短于此的子字。 默认为 15. 最大值为 300。

minSubwordSize

integer

2

最小子字大小。 仅输出超过此长度的子字。 默认值为 2。 最大值为 300。

minWordSize

integer

5

最小字大小。 仅处理超过此长度的单词。 默认值为 5。 最大值为 300。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

onlyLongestMatch

boolean

False

一个 值,该值指示是否仅将最长匹配子字添加到输出。 默认值为 false。

wordList

string[]

要匹配的字词列表。

DistanceScoringFunction

定义一个函数,该函数根据与地理位置的距离提高分数。

名称 类型 说明
boost

number

原始分数的乘数。 必须是不等于 1.0 的正数。

distance

DistanceScoringParameters

距离评分函数的参数值。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认为“Linear”。

type string:

distance

指示要使用的函数类型。 有效值包括 magnitude、freshness、distance 和 tag。 函数类型必须为小写。

DistanceScoringParameters

为距离评分函数提供参数值。

名称 类型 说明
boostingDistance

number

与提升范围结束的参考位置的距离(以公里为单位)。

referencePointParameter

string

在搜索查询中传递的参数的名称,用于指定引用位置。

EdgeNGramTokenFilter

从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

指定令牌筛选器类型的 URI 片段。

maxGram

integer

2

最大 n 元语法长度。 默认值为 2。

minGram

integer

1

最小 n 元语法长度。 默认值为 1。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

side

EdgeNGramTokenFilterSide

front

指定应从哪个端生成 n 元语法的输入。 默认值为“front”。

EdgeNGramTokenFilterSide

指定应从中生成 n-gram 的输入的哪一端。

名称 类型 说明
back

string

指定应从输入的背面生成 n-gram。

front

string

指定应从输入的前面生成 n-gram。

EdgeNGramTokenFilterV2

从输入令牌的前面或后面开始,生成给定大小 (s) 的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

指定令牌筛选器类型的 URI 片段。

maxGram

integer

2

最大 n 元语法长度。 默认值为 2。 最大值为 300。

minGram

integer

1

最小 n 元语法长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

side

EdgeNGramTokenFilterSide

front

指定应从哪个端生成 n 元语法的输入。 默认值为“front”。

EdgeNGramTokenizer

将来自边缘的输入标记化为给定大小 (s) 的 n 克。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

指定 tokenizer 类型的 URI 片段。

maxGram

integer

2

最大 n 克长度。 默认值为 2。 最大值为 300。

minGram

integer

1

最小 n 克长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字符类。

ElisionTokenFilter

删除省音。 例如,“l'avion” (平面) 将转换为“avion” (平面) 。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

指定令牌筛选器类型的 URI 片段。

articles

string[]

要删除的项目集。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

名称 类型 说明
metric

VectorSearchAlgorithmMetric

用于矢量比较的相似性指标。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含特定于查询期间使用的详尽 KNN 算法的配置选项,该算法将在整个向量索引中执行暴力搜索。

名称 类型 说明
exhaustiveKnnParameters

ExhaustiveKnnParameters

包含特定于详尽 KNN 算法的参数。

kind string:

exhaustiveKnn

配置为与矢量搜索一起使用的算法类型的名称。

name

string

要与此特定配置关联的名称。

FreshnessScoringFunction

定义一个函数,该函数根据日期时间字段的值提高分数。

名称 类型 说明
boost

number

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

freshness

FreshnessScoringParameters

新鲜度评分函数的参数值。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认为“Linear”。

type string:

freshness

指示要使用的函数类型。 有效值包括 magnitude、freshness、distance 和 tag。 函数类型必须为小写。

FreshnessScoringParameters

为新鲜度评分函数提供参数值。

名称 类型 说明
boostingDuration

string

过期期限过后,特定文档的提升将停止。

HnswParameters

包含特定于 HNSW 算法的参数。

名称 类型 默认值 说明
efConstruction

integer

400

包含最近邻居的动态列表的大小,该列表在索引期间使用。 增加此参数可能会提高索引质量,但代价是索引编制时间增加。 在某个时候,增加此参数会导致返回减少。

efSearch

integer

500

包含最近邻居的动态列表的大小,该列表在搜索期间使用。 增加此参数可能会改善搜索结果,但代价是搜索速度变慢。 在某个时候,增加此参数会导致返回减少。

m

integer

4

在构造过程中为每个新元素创建的双向链接数。 增加此参数值可能会改善召回率,并减少具有高内在维数的数据集的检索时间,但代价是内存消耗增加,索引时间更长。

metric

VectorSearchAlgorithmMetric

用于矢量比较的相似性指标。

HnswVectorSearchAlgorithmConfiguration

包含特定于在索引编制和查询期间使用的 HNSW 近似邻居算法的配置选项。 HNSW 算法在搜索速度和准确性之间提供可调整的权衡。

名称 类型 说明
hnswParameters

HnswParameters

包含特定于 HNSW 算法的参数。

kind string:

hnsw

配置为与矢量搜索一起使用的算法类型的名称。

name

string

要与此特定配置关联的名称。

KeepTokenFilter

一个标记筛选器,它仅保留包含指定单词列表中的文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

指定令牌筛选器类型的 URI 片段。

keepWords

string[]

要保留的字词列表。

keepWordsCase

boolean

False

一个值,该值指示是否先将所有单词都小写。 默认值为 false。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

KeywordMarkerTokenFilter

将词条标记为关键字。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreCase

boolean

False

一个值,该值指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。

keywords

string[]

要标记为关键字的字词列表。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

KeywordTokenizer

将整个输入作为单个标记发出。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

指定 tokenizer 类型的 URI 片段。

bufferSize

integer

256

读取缓冲区大小(以字节为单位)。 默认值为 256。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

KeywordTokenizerV2

将整个输入作为单个标记发出。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

256

最大令牌长度。 默认值为 256。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

LengthTokenFilter

删除太长或太短的字词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

指定令牌筛选器类型的 URI 片段。

max

integer

300

最大长度(以字符为单位)。 默认值和最大值为 300。

min

integer

0

最小长度(以字符为单位)。 默认为 0。 最大值为 300。 必须小于 max 的值。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

LexicalAnalyzerName

定义搜索引擎支持的所有文本分析器的名称。

名称 类型 说明
ar.lucene

string

用于阿拉伯语的 Lucene 分析器。

ar.microsoft

string

适用于阿拉伯语的 Microsoft 分析器。

bg.lucene

string

保加利亚的 Lucene 分析器。

bg.microsoft

string

适用于保加利亚的 Microsoft 分析器。

bn.microsoft

string

适用于 Bangla 的 Microsoft 分析器。

ca.lucene

string

加泰罗尼亚的 Lucene 分析器。

ca.microsoft

string

适用于加泰罗尼亚语的 Microsoft 分析器。

cs.lucene

string

用于捷克的 Lucene 分析器。

cs.microsoft

string

适用于捷克语的 Microsoft 分析器。

da.lucene

string

丹麦语的 Lucene 分析器。

da.microsoft

string

适用于丹麦语的 Microsoft 分析器。

de.lucene

string

用于德语的 Lucene 分析器。

de.microsoft

string

适用于德语的 Microsoft 分析器。

el.lucene

string

Lucene 分析器,用于希腊文。

el.microsoft

string

适用于希腊文的 Microsoft 分析器。

en.lucene

string

Lucene 英语分析器。

en.microsoft

string

适用于英语的 Microsoft 分析器。

es.lucene

string

西班牙语的 Lucene 分析器。

es.microsoft

string

适用于西班牙语的 Microsoft 分析器。

et.microsoft

string

适用于爱沙尼亚语的 Microsoft 分析器。

eu.lucene

string

用于巴斯克的 Lucene 分析器。

fa.lucene

string

用于波斯语的 Lucene 分析器。

fi.lucene

string

芬兰语的 Lucene 分析器。

fi.microsoft

string

适用于芬兰语的 Microsoft 分析器。

fr.lucene

string

Lucene 法语分析器。

fr.microsoft

string

适用于法语的 Microsoft 分析器。

ga.lucene

string

用于爱尔兰的 Lucene 分析器。

gl.lucene

string

用于加利西亚语的 Lucene 分析器。

gu.microsoft

string

适用于古吉拉特语的 Microsoft 分析器。

he.microsoft

string

适用于希伯来语的 Microsoft 分析器。

hi.lucene

string

用于印地语的 Lucene 分析器。

hi.microsoft

string

适用于印地语的 Microsoft 分析器。

hr.microsoft

string

适用于克罗地亚的 Microsoft 分析器。

hu.lucene

string

匈牙利语的 Lucene 分析器。

hu.microsoft

string

适用于匈牙利语的 Microsoft 分析器。

hy.lucene

string

亚美尼亚语的 Lucene 分析器。

id.lucene

string

印尼语的 Lucene 分析器。

id.microsoft

string

适用于印度尼西亚 (Bahasa) 的 Microsoft 分析器。

is.microsoft

string

适用于冰岛语的 Microsoft 分析器。

it.lucene

string

Lucene 分析器(意大利语)。

it.microsoft

string

适用于意大利语的 Microsoft 分析器。

ja.lucene

string

用于日语的 Lucene 分析器。

ja.microsoft

string

适用于日语的 Microsoft 分析器。

keyword

string

将某个字段的整个内容视为单个标记。 此方法可用于搜索邮政编码、ID 和某些产品名称等数据。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

适用于 Kannada 的 Microsoft 分析器。

ko.lucene

string

用于朝鲜语的 Lucene 分析器。

ko.microsoft

string

适用于朝鲜语的 Microsoft 分析器。

lt.microsoft

string

适用于立陶宛语的 Microsoft 分析器。

lv.lucene

string

用于拉脱维亚语的 Lucene 分析器。

lv.microsoft

string

适用于拉脱维亚语的 Microsoft 分析器。

ml.microsoft

string

适用于马拉雅拉姆语的 Microsoft 分析器。

mr.microsoft

string

适用于 Marathi 的 Microsoft 分析器。

ms.microsoft

string

适用于马来语的 Microsoft 分析器 (拉丁语) 。

nb.microsoft

string

适用于挪威语的 Microsoft 分析器 (Bokmål) 。

nl.lucene

string

Lucene 分析器,用于荷兰语。

nl.microsoft

string

适用于荷兰语的 Microsoft 分析器。

no.lucene

string

挪威语的 Lucene 分析器。

pa.microsoft

string

适用于旁遮普语的 Microsoft 分析器。

pattern

string

通过正则表达式模式将文本灵活地分解成多个词条。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

Lucene 分析器波兰。

pl.microsoft

string

适用于波兰的 Microsoft 分析器。

pt-BR.lucene

string

巴西葡萄牙语 (Lucene 分析器) 。

pt-BR.microsoft

string

适用于巴西葡萄牙语 (Microsoft 分析器) 。

pt-PT.lucene

string

葡萄牙 (葡萄牙) 的 Lucene 分析器。

pt-PT.microsoft

string

适用于葡萄牙语的 Microsoft 分析器 (葡萄牙) 。

ro.lucene

string

罗马尼亚语的 Lucene 分析器。

ro.microsoft

string

适用于罗马尼亚语的 Microsoft 分析器。

ru.lucene

string

用于俄语的 Lucene 分析器。

ru.microsoft

string

适用于俄语的 Microsoft 分析器。

simple

string

在非字母处划分文本并将其转换为小写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

适用于斯洛伐克语的 Microsoft 分析器。

sl.microsoft

string

适用于斯洛文尼亚语的 Microsoft 分析器。

sr-cyrillic.microsoft

string

适用于塞尔维亚语 (西里尔文) 的 Microsoft 分析器。

sr-latin.microsoft

string

适用于塞尔维亚语 (拉丁语) 的 Microsoft 分析器。

standard.lucene

string

标准 Lucene 分析器。

standardasciifolding.lucene

string

标准 ASCII 折叠 Lucene 分析器。 请参见https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

将文本除以非字母;应用小写和非索引字标记筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

用于瑞典语的 Lucene 分析器。

sv.microsoft

string

Microsoft Analyzer for Swedish。

ta.microsoft

string

适用于泰米尔语的 Microsoft 分析器。

te.microsoft

string

适用于 Telugu 的 Microsoft 分析器。

th.lucene

string

用于泰语的 Lucene 分析器。

th.microsoft

string

适用于泰语的 Microsoft 分析器。

tr.lucene

string

用于土耳其语的 Lucene 分析器。

tr.microsoft

string

适用于土耳其语的 Microsoft 分析器。

uk.microsoft

string

适用于乌克兰语的 Microsoft 分析器。

ur.microsoft

string

适用于 Urdu 的 Microsoft 分析器。

vi.microsoft

string

适用于越南语的 Microsoft 分析器。

whitespace

string

使用空格 tokenizer 的分析器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

用于中文 (简化) 的 Lucene 分析器。

zh-Hans.microsoft

string

适用于中文 (简化) 的 Microsoft 分析器。

zh-Hant.lucene

string

中国 (传统) 的 Lucene 分析器。

zh-Hant.microsoft

string

适用于中文 (传统) 的 Microsoft 分析器。

LexicalTokenizerName

定义搜索引擎支持的所有 tokenizer 的名称。

名称 类型 说明
classic

string

适用于处理大多数欧洲语言文档的基于语法的 tokenizer。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

将来自边缘的输入标记化为给定大小 (s) 的 n 克。 请参见https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

将整个输入作为单个标记发出。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

在非字母处划分文本。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

在非字母处划分文本并将其转换为小写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

使用特定于语言的规则划分文本,并将各字词缩减为其原形。

microsoft_language_tokenizer

string

使用特定于语言的规则划分文本。

nGram

string

将输入标记为给定大小的 n 元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

用于路径式层次结构的 tokenizer。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

使用正则表达式模式匹配来构造不同令牌的 Tokenizer。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

标准 Lucene 分析器;由标准标记器、小写筛选器和停止筛选器组成。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

将 URL 和电子邮件标记为一个标记。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

在空格处划分文本。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

编制索引时限制标记数量。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

指定令牌筛选器类型的 URI 片段。

consumeAllTokens

boolean

False

一个值,该值指示是否必须使用来自输入的所有令牌,即使达到 maxTokenCount。 默认值为 false。

maxTokenCount

integer

1

要生成的令牌的最大数目。 默认值为 1。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

LuceneStandardAnalyzer

标准 Apache Lucene 分析器;由标准标记器、小写筛选器和停止筛选器组成。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

指定分析器类型的 URI 片段。

maxTokenLength

integer

255

最大令牌长度。 默认值为 255。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

分析器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

stopwords

string[]

非索引字列表。

LuceneStandardTokenizer

按照 Unicode 文本分段规则划分文本。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

255

最大令牌长度。 默认值为 255。 超过最大长度的标记将被拆分。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

LuceneStandardTokenizerV2

按照 Unicode 文本分段规则划分文本。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

255

最大标记长度。 默认值为 255。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

MagnitudeScoringFunction

定义一个函数,该函数根据数值字段的量级提高分数。

名称 类型 说明
boost

number

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认为“Linear”。

magnitude

MagnitudeScoringParameters

数量级评分函数的参数值。

type string:

magnitude

指示要使用的函数类型。 有效值包括 magnitude、freshness、distance 和 tag。 函数类型必须为小写。

MagnitudeScoringParameters

为数量级评分函数提供参数值。

名称 类型 说明
boostingRangeEnd

number

提升结束的字段值。

boostingRangeStart

number

启动提升的字段值。

constantBoostBeyondRange

boolean

一个值,该值指示是否对超出范围结束值的字段值应用恒定提升;默认值为 false。

MappingCharFilter

一个字符筛选器,用于应用使用映射选项定义的映射。 匹配具有贪婪性(给定点的最长模式匹配获胜)。 允许替换为空字符串。 此字符筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

指定字符筛选器类型的 URI 片段。

mappings

string[]

以下格式的映射列表:“a=>b” (字符“a”的所有匹配项都将替换为字符“b”) 。

name

string

字符筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

MicrosoftLanguageStemmingTokenizer

使用特定于语言的规则划分文本,并将各字词缩减为其原形。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

指定 tokenizer 类型的 URI 片段。

isSearchTokenizer

boolean

False

一个指示如何使用 tokenizer 的值。 如果用作搜索 tokenizer,则设置为 true;如果用作索引标记器,则设置为 false。 默认值为 false。

language

MicrosoftStemmingTokenizerLanguage

要使用的语言。 默认值为英语。

maxTokenLength

integer

255

最大令牌长度。 超过最大长度的标记将被拆分。 可以使用的最大标记长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

MicrosoftLanguageTokenizer

使用特定于语言的规则划分文本。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

指定 tokenizer 类型的 URI 片段。

isSearchTokenizer

boolean

False

一个指示如何使用 tokenizer 的值。 如果用作搜索 tokenizer,则设置为 true;如果用作索引标记器,则设置为 false。 默认值为 false。

language

MicrosoftTokenizerLanguage

要使用的语言。 默认值为英语。

maxTokenLength

integer

255

最大令牌长度。 超过最大长度的标记将被拆分。 可以使用的最大标记长度为 300 个字符。 长度超过 300 个字符的令牌首先拆分为长度为 300 的令牌,然后根据设置的最大令牌长度拆分每个令牌。 默认值为 255。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

MicrosoftStemmingTokenizerLanguage

Lists Microsoft 语言词干词干标记器支持的语言。

名称 类型 说明
arabic

string

为阿拉伯语选择 Microsoft 词干词干标记器。

bangla

string

为 Bangla 选择 Microsoft 词干标记器。

bulgarian

string

选择适用于保加利亚的 Microsoft 词干标记器。

catalan

string

为加泰罗尼亚语选择 Microsoft 词干标记器。

croatian

string

为克罗地亚选择 Microsoft 词干标记器。

czech

string

为捷克语选择 Microsoft 词干词干标记程序。

danish

string

为丹麦语选择 Microsoft 词干标记器。

dutch

string

为荷兰语选择 Microsoft 词干标记程序。

english

string

为英语选择 Microsoft 词干标记器。

estonian

string

为爱沙尼亚语选择 Microsoft 词干标记器。

finnish

string

为芬兰语选择 Microsoft 词干词干化器。

french

string

为法语选择 Microsoft 词干标记器。

german

string

为德语选择 Microsoft 词干标记程序。

greek

string

为希腊文选择 Microsoft 词干标记器。

gujarati

string

为古吉拉特语选择 Microsoft 词干标记程序。

hebrew

string

为希伯来语选择 Microsoft 词干标记器。

hindi

string

为印地语选择 Microsoft 词干标记器。

hungarian

string

为匈牙利语选择 Microsoft 词干标记程序。

icelandic

string

为冰岛语选择 Microsoft 词干标记程序。

indonesian

string

选择适用于印尼语的 Microsoft 词干标记程序。

italian

string

为意大利语选择 Microsoft 词干标记程序。

kannada

string

为 Kannada 选择 Microsoft 词干标记器。

latvian

string

为拉脱维亚语选择 Microsoft 词干标记器。

lithuanian

string

为立陶宛语选择 Microsoft 词干标记器。

malay

string

为马来语选择 Microsoft 词干标记器。

malayalam

string

为马拉雅拉姆语选择 Microsoft 词干标记器。

marathi

string

为 Marathi 选择 Microsoft 词干标记程序。

norwegianBokmaal

string

为挪威语 (Bokmål) 选择 Microsoft 词干标记器。

polish

string

选择用于波兰语的 Microsoft 词干标记器。

portuguese

string

选择用于葡萄牙语的 Microsoft 词干标记程序。

portugueseBrazilian

string

为葡萄牙语 (巴西) 选择 Microsoft 词干标记器。

punjabi

string

为旁遮普语选择 Microsoft 词干标记程序。

romanian

string

为罗马尼亚语选择 Microsoft 词干词干化器。

russian

string

为俄语选择 Microsoft 词干标记器。

serbianCyrillic

string

为塞尔维亚语 (西里尔文) 选择 Microsoft 词干标记器。

serbianLatin

string

为塞尔维亚语 (拉丁语) 选择 Microsoft 词干标记器。

slovak

string

为斯洛伐克语选择 Microsoft 词干标记程序。

slovenian

string

为斯洛文尼亚语选择 Microsoft 词干标记程序。

spanish

string

为西班牙语选择 Microsoft 词干标记程序。

swedish

string

为“瑞典”选择 Microsoft 词干标记程序。

tamil

string

为泰米尔语选择 Microsoft 词干标记器。

telugu

string

为 Telugu 选择 Microsoft 词干标记器。

turkish

string

选择用于土耳其语的 Microsoft 词干标记器。

ukrainian

string

为乌克兰语选择 Microsoft 词干词干化器。

urdu

string

为 Urdu 选择 Microsoft 词干标记程序。

MicrosoftTokenizerLanguage

Lists Microsoft 语言 tokenizer 支持的语言。

名称 类型 说明
bangla

string

为 Bangla 选择 Microsoft tokenizer。

bulgarian

string

为保加利亚语选择 Microsoft tokenizer。

catalan

string

为加泰罗尼亚语选择 Microsoft tokenizer。

chineseSimplified

string

为中文 (简化) 选择 Microsoft tokenizer。

chineseTraditional

string

为中文 (传统) 选择 Microsoft tokenizer。

croatian

string

选择用于克罗地亚的 Microsoft tokenizer。

czech

string

为捷克语选择 Microsoft tokenizer。

danish

string

为丹麦语选择 Microsoft tokenizer。

dutch

string

为荷兰语选择 Microsoft tokenizer。

english

string

为英语选择 Microsoft tokenizer。

french

string

为法语选择 Microsoft tokenizer。

german

string

为德语选择 Microsoft tokenizer。

greek

string

为希腊文选择 Microsoft tokenizer。

gujarati

string

为古吉拉特语选择 Microsoft tokenizer。

hindi

string

为印地语选择 Microsoft tokenizer。

icelandic

string

为冰岛语选择 Microsoft tokenizer。

indonesian

string

为印尼语选择 Microsoft tokenizer。

italian

string

为意大利语选择 Microsoft tokenizer。

japanese

string

为日语选择 Microsoft tokenizer。

kannada

string

为 Kannada 选择 Microsoft tokenizer。

korean

string

为朝鲜语选择 Microsoft tokenizer。

malay

string

为马来语选择 Microsoft tokenizer。

malayalam

string

为马拉雅拉姆语选择 Microsoft tokenizer。

marathi

string

为 Marathi 选择 Microsoft tokenizer。

norwegianBokmaal

string

为挪威语选择 Microsoft tokenizer (Bokmål) 。

polish

string

为波兰语选择 Microsoft tokenizer。

portuguese

string

为葡萄牙语选择 Microsoft tokenizer。

portugueseBrazilian

string

为葡萄牙语 (巴西) 选择 Microsoft tokenizer。

punjabi

string

为旁遮普语选择 Microsoft tokenizer。

romanian

string

为罗马尼亚语选择 Microsoft tokenizer。

russian

string

为俄语选择 Microsoft tokenizer。

serbianCyrillic

string

为塞尔维亚语 (西里尔文) 选择 Microsoft tokenizer。

serbianLatin

string

为塞尔维亚语 (拉丁语) 选择 Microsoft tokenizer。

slovenian

string

为斯洛文尼亚语选择 Microsoft tokenizer。

spanish

string

为西班牙语选择 Microsoft tokenizer。

swedish

string

选择 Microsoft tokenizer for Swedish。

tamil

string

选择用于泰米尔语的 Microsoft tokenizer。

telugu

string

为 Telugu 选择 Microsoft tokenizer。

thai

string

为泰语选择 Microsoft tokenizer。

ukrainian

string

为乌克兰语选择 Microsoft tokenizer。

urdu

string

为 Urdu 选择 Microsoft tokenizer。

vietnamese

string

为越南语选择 Microsoft tokenizer。

NGramTokenFilter

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

指定令牌筛选器类型的 URI 片段。

maxGram

integer

2

最大 n 克长度。 默认值为 2。

minGram

integer

1

最小 n 克长度。 默认值为 1。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

NGramTokenFilterV2

生成给定大小的 n 元语法。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

指定令牌筛选器类型的 URI 片段。

maxGram

integer

2

最大 n 克长度。 默认值为 2。 最大值为 300。

minGram

integer

1

最小 n 克长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

NGramTokenizer

将输入标记为给定大小的 n 元语法。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

指定 tokenizer 类型的 URI 片段。

maxGram

integer

2

最大 n 克长度。 默认值为 2。 最大值为 300。

minGram

integer

1

最小 n 克长度。 默认值为 1。 最大值为 300。 必须小于 maxGram 的值。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字符类。

PathHierarchyTokenizerV2

用于路径式层次结构的 tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

指定 tokenizer 类型的 URI 片段。

delimiter

string

/

要使用的分隔符字符。 默认值为“/”。

maxTokenLength

integer

300

最大令牌长度。 默认值和最大值为 300。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

replacement

string

/

一个 值,如果设置为 ,则替换分隔符字符。 默认值为“/”。

reverse

boolean

False

一个值,该值指示是否按相反顺序生成令牌。 默认值为 false。

skip

integer

0

要跳过的初始令牌数。 默认为 0。

PatternAnalyzer

通过正则表达式模式将文本灵活地分解成多个词条。 此分析器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

指定分析器类型的 URI 片段。

flags

RegexFlags

正则表达式标志。

lowercase

boolean

True

一个值,该值指示是否应将术语小写。 默认为 true。

name

string

分析器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

pattern

string

\W+

用于匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个非单词字符的表达式。

stopwords

string[]

非索引字列表。

PatternCaptureTokenFilter

使用 Java 正则表达式发出多个令牌 - 一个或多个模式中的每个捕获组一个令牌。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

patterns

string[]

要与每个令牌匹配的模式列表。

preserveOriginal

boolean

True

一个值,该值指示是否返回原始标记,即使其中一个模式匹配。 默认为 true。

PatternReplaceCharFilter

一个字符筛选器,用于替换输入字符串中的字符。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、“模式” (aa) \s+ (bb) “和替换”$1#$2“,结果将为”aa#bb aa#bb”。 此字符筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

指定字符筛选器类型的 URI 片段。

name

string

字符筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

pattern

string

正则表达式模式。

replacement

string

替换文本。

PatternReplaceTokenFilter

一个字符筛选器,用于替换输入字符串中的字符。 它使用正则表达式来标识要保留的字符序列,并使用替换模式来标识要替换的字符。 例如,给定输入文本“aa bb aa bb”、“模式” (aa) \s+ (bb) “和替换”$1#$2“,结果将为”aa#bb aa#bb”。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

pattern

string

正则表达式模式。

replacement

string

替换文本。

PatternTokenizer

使用正则表达式模式匹配来构造不同令牌的 Tokenizer。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

指定 tokenizer 类型的 URI 片段。

flags

RegexFlags

正则表达式标志。

group

integer

-1

正则表达式模式中要提取到标记中的匹配组的从零开始的序号。 如果要使用整个模式将输入拆分为标记,而不考虑匹配的组,请使用 -1。 默认值为 -1。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

pattern

string

\W+

用于匹配标记分隔符的正则表达式模式。 默认值是匹配一个或多个非单词字符的表达式。

PhoneticEncoder

标识要与 PhoneticTokenFilter 一起使用的拼音编码器的类型。

名称 类型 说明
beiderMorse

string

将令牌编码为 Beider-Morse 值。

caverphone1

string

将令牌编码为 Caverphone 1.0 值。

caverphone2

string

将令牌编码为 Caverphone 2.0 值。

cologne

string

将令牌编码为科隆拼音值。

doubleMetaphone

string

将令牌编码为双元音值。

haasePhonetik

string

使用 Kölner Phonetik 算法的 Haase 优化对令牌进行编码。

koelnerPhonetik

string

使用 Kölner Phonetik 算法对令牌进行编码。

metaphone

string

将令牌编码为元语音值。

nysiis

string

将令牌编码为 NYSIIS 值。

refinedSoundex

string

将令牌编码为 Refined Soundex 值。

soundex

string

将令牌编码为 Soundex 值。

PhoneticTokenFilter

为拼音匹配项创建标记。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

指定令牌筛选器类型的 URI 片段。

encoder

PhoneticEncoder

metaphone

要使用的拼音编码器。 默认值为“metaphone”。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

replace

boolean

True

一个值,该值指示编码的令牌是否应替换原始令牌。 如果为 false,则编码的标记将添加为同义词。 默认为 true。

PrioritizedFields

描述用于语义排名、标题、突出显示和答案的标题、内容和关键字字段。

名称 类型 说明
prioritizedContentFields

SemanticField[]

定义用于语义排名、字幕、突出显示和答案的内容字段。 为了获得最佳结果,所选字段应包含自然语言形式的文本。 数组中字段的顺序表示其优先级。 如果内容较长,优先级较低的字段可能会被截断。

prioritizedKeywordsFields

SemanticField[]

定义用于语义排名、字幕、突出显示和答案的关键字 (keyword) 字段。 为了获得最佳结果,所选字段应包含关键字列表。 数组中字段的顺序表示其优先级。 如果内容较长,优先级较低的字段可能会被截断。

titleField

SemanticField

定义用于语义排名、标题、突出显示和答案的标题字段。 如果索引中没有标题字段,请将此字段留空。

RegexFlags

定义可以组合在一起以控制模式分析器和模式标记器中如何使用正则表达式的标志。

名称 类型 说明
CANON_EQ

string

启用规范等效性。

CASE_INSENSITIVE

string

启用不区分大小写的匹配。

COMMENTS

string

允许模式中的空格和注释。

DOTALL

string

启用 dotall 模式。

LITERAL

string

启用模式的文本分析。

MULTILINE

string

启用多行模式。

UNICODE_CASE

string

启用 Unicode 感知大小写折叠。

UNIX_LINES

string

启用 Unix 行模式。

ScoringFunctionAggregation

定义用于合并评分配置文件中所有评分函数的结果的聚合函数。

名称 类型 说明
average

string

按所有评分函数结果的平均值提高分数。

firstMatching

string

使用评分配置文件中的第一个适用的评分函数提升分数。

maximum

string

将分数提高到所有评分函数结果的最大值。

minimum

string

将分数提高到所有评分函数结果的最小值。

sum

string

按所有评分函数结果的总和提高分数。

ScoringFunctionInterpolation

定义用于在一系列文档中内插分数提升的函数。

名称 类型 说明
constant

string

按常量因素提升分数。

linear

string

按线性递减量提升分数。 这是评分函数的默认内插。

logarithmic

string

将分数提升为对数减少的量。 提升会快速降低以获得更高的分数,而随着分数的降低,提升速度会更慢。 tag 计分函数中不允许使用此内插选项。

quadratic

string

将分数提升为按四次减少的量。 提升缓慢下降以获得更高的分数,并且随着分数的降低而更快。 tag 计分函数中不允许使用此内插选项。

ScoringProfile

定义影响搜索查询评分的搜索索引的参数。

名称 类型 说明
functionAggregation

ScoringFunctionAggregation

一个 值,该值指示应如何组合各个评分函数的结果。 默认为“Sum”。 如果没有评分函数,则忽略。

functions ScoringFunction[]:

影响文档评分的函数集合。

name

string

评分配置文件的名称。

text

TextWeights

基于某些索引字段中的文本匹配项提高评分的参数。

SearchError

描述 API 的错误条件。

名称 类型 说明
code

string

服务器定义的一组错误代码中的一个。

details

SearchError[]

有关导致此项报告错误的特定错误的详细信息数组。

message

string

错误的用户可读表示形式。

SearchField

表示索引定义中的字段,该字段描述字段的名称、数据类型和搜索行为。

名称 类型 说明
analyzer

LexicalAnalyzerName

要用于字段的分析器的名称。 此选项只能用于可搜索字段,并且无法与 searchAnalyzer 或 indexAnalyzer 一起设置。 选择分析器后,无法为字段更改它。 对于复杂字段,必须为 null。

dimensions

integer

向量字段的维度。

facetable

boolean

一个值,该值指示是否允许在分面查询中引用字段。 通常用于搜索结果的演示文稿,包括按类别 (例如,搜索数码相机并查看按品牌、百万像素、按价格等) 命中次数。 对于复杂字段,此属性必须为 null。 Edm.GeographyPoint 或集合 (Edm.GeographyPoint) 类型字段不可识别。 所有其他简单字段的默认值为 true。

fields

SearchField[]

如果这是类型为 Edm.ComplexType 或 Collection 的字段,则为子字段列表, (Edm.ComplexType) 。 对于简单字段,必须为 null 或为空。

filterable

boolean

一个 值,该值指示是否允许在$filter查询中引用字段。 filterable 与可搜索字符串的处理方式不同。 可筛选的 Edm.String 或 Collection (Edm.String) 类型的字段不会进行断字,因此比较仅用于完全匹配。 例如,如果将此类字段 f 设置为“sunny day”,$filter=f eq“sunny”将找不到匹配项,但$filter=f eq“sunny day”将找到匹配项。 对于复杂字段,此属性必须为 null。 对于简单字段,默认值为 true,对于复杂字段,默认值为 null。

indexAnalyzer

LexicalAnalyzerName

在为字段编制索引时使用的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 searchAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 选择分析器后,无法为字段更改它。 对于复杂字段,必须为 null。

key

boolean

一个 值,该值指示字段是否唯一标识索引中的文档。 必须选择每个索引中的一个顶级字段作为键字段,并且该字段的类型必须为 Edm.String。 关键字段可用于直接查找文档以及更新或删除特定文档。 简单字段的默认值为 false,对于复杂字段,默认值为 null。

name

string

字段的名称,该名称在索引或父字段的 fields 集合中必须是唯一的。

retrievable

boolean

一个值,该值指示字段是否可以在搜索结果中返回。 如果要使用字段 (例如,边距) 作为筛选器、排序或评分机制,但不希望该字段对最终用户可见,则可以禁用此选项。 对于关键字段,此属性必须为 true,对于复杂字段,此属性必须为 null。 可以在现有字段上更改此属性。 启用此属性不会导致索引存储要求的任何增加。 对于简单字段,默认值为 true,对于复杂字段,默认值为 null。

searchAnalyzer

LexicalAnalyzerName

搜索字段时使用的分析器的名称。 此选项只能与可搜索字段一起使用。 它必须与 indexAnalyzer 一起设置,并且不能与分析器选项一起设置。 此属性不能设置为语言分析器的名称;如果需要语言分析器,请改用分析器属性。 此分析器无法在现有字段上更新。 对于复杂字段,必须为 null。

searchable

boolean

一个值,该值指示字段是否可全文搜索。 这意味着它会在索引期间受到分词之类的分析。 如果将某个可搜索字段设置为“sunny day”之类的值,在内部它将拆分为单独的标记“sunny”和“day”。 这实现了对这些词的全文搜素。 默认情况下,可搜索 Edm.String 或集合 (Edm.String) 类型的字段。 对于其他非字符串数据类型的简单字段,此属性必须为 false,对于复杂字段,此属性必须为 null。 注意:可搜索字段会在索引中占用额外的空间,以适应用于全文搜索的字段值的其他标记化版本。 如果要节省索引中的空间,并且不需要将字段包含在搜索中,请将“可搜索”设置为 false。

sortable

boolean

一个值,该值指示是否启用要在$orderby表达式中引用的字段。 默认情况下,搜索引擎按分数对结果进行排序,但在许多情况下,用户需要按文档中的字段进行排序。 仅当简单字段是单值字段, (它在父文档) 的范围内具有单个值时,才能对其进行排序。 简单集合字段不可排序,因为它们是多值字段。 复杂集合的简单子字段也是多值字段,因此无法排序。 无论是直接父字段还是上级字段(即复杂集合),都是如此。 复杂字段不能是可排序的,并且此类字段的可排序属性必须为 null。 对于单值简单字段,可排序的默认值为 true,对于多值简单字段为 false,对于复杂字段为 null。

synonymMaps

string[]

要与此字段关联的同义词名称列表。 此选项只能与可搜索字段一起使用。 目前,每个字段仅支持一个同义词映射。 为字段分配同义词映射可确保在查询时使用同义词映射中的规则扩展面向该字段的查询词。 可以在现有字段上更改此属性。 对于复杂字段,必须为 null 或空集合。

type

SearchFieldDataType

字段的数据类型。

vectorSearchProfile

string

矢量搜索配置文件的名称,指定搜索向量字段时要使用的算法。

SearchFieldDataType

定义搜索索引中字段的数据类型。

名称 类型 说明
Edm.Boolean

string

指示字段包含一个布尔值 (true 或 false) 。

Edm.ComplexType

string

指示字段包含一个或多个复杂对象,这些对象又具有其他类型的子字段。

Edm.DateTimeOffset

string

指示字段包含日期/时间值,包括时区信息。

Edm.Double

string

指示字段包含 IEEE 双精度浮点数。

Edm.GeographyPoint

string

指示字段包含经度和纬度的地理位置。

Edm.Int32

string

指示字段包含 32 位带符号整数。

Edm.Int64

string

指示字段包含 64 位带符号整数。

Edm.Single

string

指示字段包含单精度浮点数。 仅当与 Collection (Edm.Single) 一起使用时,此功能才有效。

Edm.String

string

指示字段包含字符串。

SearchIndex

表示搜索索引定义,该定义描述索引的字段和搜索行为。

名称 类型 说明
@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

字符筛选索引。

corsOptions

CorsOptions

控制跨源资源共享的选项 (索引的 CORS) 。

defaultScoringProfile

string

如果未在查询中指定任何值,则要使用的评分配置文件的名称。 如果未设置此属性,并且查询中未指定任何评分配置文件,则将使用默认评分 (tf-idf) 。

encryptionKey

SearchResourceEncryptionKey

在 Azure 密钥保管库 中创建的加密密钥的说明。 当你希望完全保证没有人(甚至 Microsoft)无法解密你的数据时,此密钥用于为数据提供额外的静态加密级别。 加密数据后,数据将始终保持加密状态。 搜索服务将忽略将此属性设置为 null 的尝试。 如果要轮换加密密钥,可以根据需要更改此属性;你的数据将不受影响。 使用客户管理的密钥加密不适用于免费搜索服务,并且仅适用于 2019 年 1 月 1 日或之后创建的付费服务。

fields

SearchField[]

索引的字段。

name

string

索引的名称。

scoringProfiles

ScoringProfile[]

索引的评分配置文件。

semantic

SemanticSettings

定义影响语义功能的搜索索引的参数。

similarity Similarity:

评分和排名与搜索查询匹配的文档时使用的相似性算法类型。 相似性算法只能在索引创建时定义,不能对现有索引进行修改。 如果为 null,则使用 ClassicSimilarity 算法。

suggesters

Suggester[]

索引的建议器。

tokenFilters TokenFilter[]:

标记筛选索引。

tokenizers LexicalTokenizer[]:

索引的 tokenizer。

vectorSearch

VectorSearch

包含与矢量搜索相关的配置选项。

SearchResourceEncryptionKey

Azure 密钥保管库中客户管理的加密密钥。 创建和管理的密钥可用于加密或解密搜索服务上的静态数据,例如索引和同义词映射。

名称 类型 说明
accessCredentials

AzureActiveDirectoryApplicationCredentials

用于访问 Azure 密钥保管库的可选 Azure Active Directory 凭据。 如果改用托管标识,则不需要。

keyVaultKeyName

string

用于加密静态数据的 Azure 密钥保管库密钥的名称。

keyVaultKeyVersion

string

Azure 密钥保管库密钥的版本,用于加密静态数据。

keyVaultUri

string

Azure 密钥保管库的 URI(也称为 DNS 名称),其中包含用于加密静态数据的密钥。 URI 示例可能是 https://my-keyvault-name.vault.azure.net

SemanticConfiguration

定义要在语义功能上下文中使用的特定配置。

名称 类型 说明
name

string

语义配置的名称。

prioritizedFields

PrioritizedFields

描述用于语义排名、标题、突出显示和答案的标题、内容和关键字 (keyword) 字段。 需要设置三个子属性中的至少一个 (titleField、prioritizedKeywordsFields 和 prioritizedContentFields) 。

SemanticField

用作语义配置的一部分的字段。

名称 类型 说明
fieldName

string

SemanticSettings

定义影响语义功能的搜索索引的参数。

名称 类型 说明
configurations

SemanticConfiguration[]

索引的语义配置。

defaultConfiguration

string

允许在索引中设置默认语义配置的名称,因此可以选择每次将其作为查询参数传递。

ShingleTokenFilter

创建标记组合作为单个标记。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

指定令牌筛选器类型的 URI 片段。

filterToken

string

_

要为没有标记的每个位置插入的字符串。 默认值为下划线 (“_”) 。

maxShingleSize

integer

2

最大瓦片大小。 默认值和最小值为 2。

minShingleSize

integer

2

最小瓦片大小。 默认值和最小值为 2。 必须小于 maxShingleSize 的值。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

outputUnigrams

boolean

True

一个 值,该值指示输出流是否将包含输入标记 (unigram) 以及 shingle。 默认为 true。

outputUnigramsIfNoShingles

boolean

False

一个值,该值指示在没有带状带状体可用时是否输出单元语法。 当 outputUnigrams 设置为 false 时,此属性优先。 默认值为 false。

tokenSeparator

string

联接相邻标记以形成闪点时使用的字符串。 默认值为单个空格 (“、”) ”。

SnowballTokenFilter

使用 Snowball 生成的词干分析器来词干的筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

指定令牌筛选器类型的 URI 片段。

language

SnowballTokenFilterLanguage

要使用的语言。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

SnowballTokenFilterLanguage

用于 Snowball 令牌筛选器的语言。

名称 类型 说明
armenian

string

为亚美尼亚语选择 Lucene Snowball 词干标记器。

basque

string

为 Basque 选择 Lucene Snowball 词干词干化器。

catalan

string

为加泰罗尼亚语选择 Lucene Snowball 词干词干词。

danish

string

选择丹麦语的 Lucene Snowball 词干词干化器。

dutch

string

为荷兰语选择 Lucene Snowball 词干词干化器。

english

string

为英语选择 Lucene Snowball 词干词干化器。

finnish

string

为芬兰语选择 Lucene Snowball 词干词干化器。

french

string

为法语选择 Lucene Snowball 词干词干化器。

german

string

为德语选择 Lucene Snowball 词干词干化器。

german2

string

选择使用德语变体算法的 Lucene Snowball 词干词干化器。

hungarian

string

为匈牙利语选择 Lucene Snowball 词干词干化器。

italian

string

为意大利语选择 Lucene Snowball 词干词切分器。

kp

string

选择使用 Kraaij-Pohlmann 词干分解算法的荷兰语的 Lucene Snowball 词干词切分器。

lovins

string

为英语选择使用 Lovins 词干分解算法的 Lucene Snowball 词干标记器。

norwegian

string

选择挪威语的 Lucene Snowball 词干词干化器。

porter

string

为英语选择使用 Porter 词干分解算法的 Lucene Snowball 词干词干化器。

portuguese

string

为葡萄牙语选择 Lucene Snowball 词干词干化器。

romanian

string

为罗马尼亚语选择 Lucene Snowball 词干词干化器。

russian

string

为俄语选择 Lucene Snowball 词干词干化器。

spanish

string

为西班牙语选择 Lucene Snowball 词干词干化器。

swedish

string

选择“Lucene Snowball stemming tokenizer”作为“瑞典语”。

turkish

string

为土耳其语选择 Lucene Snowball 词干词干化器。

StemmerOverrideTokenFilter

提供使用基于字典的自定义词干筛选替代其他词干筛选器的功能。 任何字典词干词都将标记为关键字,以便它们不会在链上使用词干分析器进行词干。 必须放在任何词干分解筛选器之前。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

rules

string[]

采用以下格式的词干规则列表:“word => stem”,例如:“run => run”。

StemmerTokenFilter

特定于语言的词干筛选器。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

指定令牌筛选器类型的 URI 片段。

language

StemmerTokenFilterLanguage

要使用的语言。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

StemmerTokenFilterLanguage

用于词干分析器标记筛选器的语言。

名称 类型 说明
arabic

string

为阿拉伯语选择 Lucene 词干词干标记器。

armenian

string

为亚美尼亚语选择 Lucene 词干标记器。

basque

string

为 Basque 选择 Lucene 词干标记器。

brazilian

string

为葡萄牙语 (巴西) 选择 Lucene 词干标记器。

bulgarian

string

为保加利亚语选择 Lucene 词干标记器。

catalan

string

为加泰罗尼亚语选择 Lucene 词干标记器。

czech

string

为 Czech 选择 Lucene 词干词切分器。

danish

string

选择丹麦语的 Lucene 词干标记器。

dutch

string

为荷兰语选择 Lucene 词干词干标记器。

dutchKp

string

为荷兰语选择使用 Kraaij-Pohlmann 词干分解算法的 Lucene 词干标记器。

english

string

为英语选择 Lucene 词干词干标记器。

finnish

string

为芬兰语选择 Lucene 词干标记器。

french

string

为法语选择 Lucene 词干标记器。

galician

string

为加利西亚语选择 Lucene 词干标记器。

german

string

为德语选择 Lucene 词干标记器。

german2

string

选择使用德语变体算法的 Lucene 词干标记器。

greek

string

为希腊语选择 Lucene 词干词干标记器。

hindi

string

为印地语选择 Lucene 词干标记器。

hungarian

string

为匈牙利语选择 Lucene 词干标记器。

indonesian

string

为印尼语选择 Lucene 词干标记器。

irish

string

选择用于爱尔兰的 Lucene 词干标记器。

italian

string

为意大利语选择 Lucene 词干标记器。

latvian

string

为拉脱维亚语选择 Lucene 词干标记器。

lightEnglish

string

为执行光词干分析的英语选择 Lucene 词干词切分器。

lightFinnish

string

为芬兰语选择执行光词干词干的 Lucene 词干标记器。

lightFrench

string

为执行光词干词干的法语选择 Lucene 词干词切分器。

lightGerman

string

为执行光词干分解的德语选择 Lucene 词干词切分器。

lightHungarian

string

选择用于执行光词干分解的匈牙利语的 Lucene 词干词切分器。

lightItalian

string

为执行光词干分析的意大利语选择 Lucene 词干词切分器。

lightNorwegian

string

为执行光词干分析的挪威 (Bokmål) 选择 Lucene 词干词切分器。

lightNynorsk

string

为执行光词干分析的挪威 (尼诺斯克) 选择 Lucene 词干标记器。

lightPortuguese

string

选择用于进行光词干分解的葡萄牙语的 Lucene 词干词切分器。

lightRussian

string

选择用于执行光词干分解的俄语的 Lucene 词干词干化器。

lightSpanish

string

选择用于执行光词干分解的西班牙语的 Lucene 词干词切分器。

lightSwedish

string

选择用于执行光词干分解的瑞典语的 Lucene 词干词切分器。

lovins

string

为英语选择使用 Lovins 词干分解算法的 Lucene 词干标记器。

minimalEnglish

string

为英语选择执行最小词干分解的 Lucene 词干词切分器。

minimalFrench

string

为法语选择执行最小词干分解的 Lucene 词干标记器。

minimalGalician

string

为加利西亚语选择执行最小词干分解的 Lucene 词干标记器。

minimalGerman

string

为德语选择执行最小词干分解的 Lucene 词干词切分器。

minimalNorwegian

string

为执行最小词干分析的挪威 (Bokmål) 选择 Lucene 词干标记器。

minimalNynorsk

string

为执行最小词干分解的挪威 (Nynorsk) 选择 Lucene 词干词切分器。

minimalPortuguese

string

为葡萄牙语选择执行最小词干分解的 Lucene 词干标记器。

norwegian

string

选择挪威语 (Bokmål) 的 Lucene 词干标记器。

porter2

string

为英语选择使用 Porter2 词干分解算法的 Lucene 词干标记器。

portuguese

string

为葡萄牙语选择 Lucene 词干词干标记器。

portugueseRslp

string

选择使用 RSLP 词干分解算法的葡萄牙语的 Lucene 词干标记器。

possessiveEnglish

string

为英语选择 Lucene 词干词干标记器,从单词中删除尾随所有物。

romanian

string

为罗马尼亚语选择 Lucene 词干标记器。

russian

string

为俄语选择 Lucene 词干词干标记器。

sorani

string

为 Sorani 选择 Lucene 词干标记器。

spanish

string

为西班牙语选择 Lucene 词干标记器。

swedish

string

为瑞典语选择 Lucene 词干词切分器。

turkish

string

为土耳其语选择 Lucene 词干词切分器。

StopAnalyzer

将文本除以非字母;应用小写和非索引字标记筛选器。 此分析器是使用 Apache Lucene 实现的。

名称 类型 说明
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

指定分析器类型的 URI 片段。

name

string

分析器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

stopwords

string[]

非索引字列表。

StopwordsList

标识特定于语言的非索引字的预定义列表。

名称 类型 说明
arabic

string

选择阿拉伯语的非索引字列表。

armenian

string

选择亚美尼亚语的非索引字列表。

basque

string

选择 Basque 的非索引字列表。

brazilian

string

选择葡萄牙语 (巴西) 非索引字列表。

bulgarian

string

选择保加利亚语的非索引字列表。

catalan

string

选择加泰罗尼亚语的非索引字列表。

czech

string

选择“捷克”的非索引字列表。

danish

string

选择丹麦语的非索引字列表。

dutch

string

选择荷兰语的非索引字列表。

english

string

选择英语的非索引字列表。

finnish

string

选择芬兰语的非索引字列表。

french

string

选择法语的非索引字列表。

galician

string

选择加利西亚语的非索引字列表。

german

string

选择德语的非索引字列表。

greek

string

选择希腊语的非索引字列表。

hindi

string

选择印地语的非索引字列表。

hungarian

string

选择匈牙利语的非索引字列表。

indonesian

string

选择印尼语的非索引字列表。

irish

string

选择爱尔兰语的非索引字列表。

italian

string

选择意大利语的非索引字列表。

latvian

string

选择拉脱维亚语的非索引字列表。

norwegian

string

选择挪威语的非索引字列表。

persian

string

选择波斯语的非索引字列表。

portuguese

string

选择葡萄牙语的“非索引字”列表。

romanian

string

为罗马尼亚语选择非索引字列表。

russian

string

选择俄语的非索引字列表。

sorani

string

为 Sorani 选择非索引字列表。

spanish

string

选择西班牙语的非索引字列表。

swedish

string

选择“瑞典文”的“非索引字”列表。

thai

string

为泰语选择非索引字列表。

turkish

string

选择“土耳其语”的“非索引字”列表。

StopwordsTokenFilter

从标记流中删除非索引字。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

指定令牌筛选器类型的 URI 片段。

ignoreCase

boolean

False

一个值,该值指示是否忽略大小写。 如果为 true,则首先将所有单词转换为小写。 默认值为 false。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

removeTrailing

boolean

True

一个 值,该值指示是否忽略最后一个搜索词(如果它是一个停止词)。 默认为 true。

stopwords

string[]

非索引字列表。 不能同时设置此属性和非索引字列表属性。

stopwordsList

StopwordsList

english

要使用的预定义非索引字列表。 不能同时设置此属性和 stopwords 属性。 默认值为英语。

Suggester

定义建议 API 应如何应用于索引中的一组字段。

名称 类型 说明
name

string

建议器的名称。

searchMode

SuggesterSearchMode

一个指示建议器功能的值。

sourceFields

string[]

建议器应用于的字段名称列表。 每个字段都必须可搜索。

SuggesterSearchMode

一个指示建议器功能的值。

名称 类型 说明
analyzingInfixMatching

string

匹配字段中的连续整个术语和前缀。 例如,对于字段“最快的棕色狐狸”,查询“fast”和“fastest brow”将匹配。

SynonymTokenFilter

匹配令牌流中的单个或多个单词同义词。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

指定令牌筛选器类型的 URI 片段。

expand

boolean

True

一个值,该值指示当未使用 => 表示法时,同义词列表中的所有单词是否 (,) 是否相互映射。 如果为 true,则同义词列表中的所有单词 (,如果未使用 => 表示法,则) 将相互映射。 下面的列表:不可思议,难以置信,神话般,惊人的相当于:不可思议,难以置信,神话般,惊人的 => 不可思议,不可思议,神话般,惊人。 如果为 false,以下列表:不可思议,难以置信,神话般,惊人将等效于:不可思议,难以置信,神话般,惊人 => 不可思议。 默认为 true。

ignoreCase

boolean

False

一个值,该值指示是否将输入大小写进行匹配。 默认值为 false。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

synonyms

string[]

具有以下两种格式之一的同义词列表:1。 不可思议, 难以置信, 神话般 => 惊人的 - => 符号左侧的所有术语都将替换为其右侧的所有术语;2. 不可思议, 难以置信, 神话般, 惊人的 - 逗号分隔的等效单词列表。 设置展开选项可更改此列表的解释方式。

TagScoringFunction

定义一个函数,该函数使用与给定标记列表匹配的字符串值提升文档分数。

名称 类型 说明
boost

number

原始分数的乘数。 必须是不等于 1.0 的正数。

fieldName

string

用作评分函数输入的字段的名称。

interpolation

ScoringFunctionInterpolation

一个值,该值指示如何在文档分数之间内插提升;默认为“Linear”。

tag

TagScoringParameters

标记评分函数的参数值。

type string:

tag

指示要使用的函数类型。 有效值包括 magnitude、freshness、distance 和 tag。 函数类型必须为小写。

TagScoringParameters

为标记评分函数提供参数值。

名称 类型 说明
tagsParameter

string

在搜索查询中传递的参数的名称,用于指定要与目标字段进行比较的标记列表。

TextWeights

定义索引字段的权重,匹配项应提高搜索查询中的评分。

名称 类型 说明
weights

object

用于提高文档评分的每字段权重的字典。 键是字段名称,值是每个字段的权重。

TokenCharacterKind

表示令牌筛选器可以对其操作的字符类。

名称 类型 说明
digit

string

在令牌中保留数字。

letter

string

在令牌中保留字母。

punctuation

string

在令牌中保留标点。

symbol

string

将符号保留在令牌中。

whitespace

string

在令牌中保留空格。

TokenFilterName

定义搜索引擎支持的所有令牌筛选器的名称。

名称 类型 说明
apostrophe

string

去除撇号后面的所有字符(包括撇号本身)。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

一个标记筛选器,它应用阿拉伯语规范化程序来规范化正字法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

将“基本拉丁语”Unicode) 块 (的前 127 个 ASCII 字符中的字母、数字和符号 Unicode 字符转换为其 ASCII 等效项(如果存在此类等效项)。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

形成从标准 tokenizer 生成的 CJK 术语的 bigram。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

规范化 CJK 宽度差异。 将全形 ASCII 变体折叠为等效的基本拉丁语,将半角片假名变体折叠为等效的假名。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

从首字母缩略词中删除英语占位和点。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

在编制索引时为经常出现的词条构造二元语法。 此外,仍将为单个词条编制索引并叠加二元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

从输入令牌的正面或背面开始,生成给定大小 (s) 的 n 元。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

删除省音。 例如,“l'avion” (平面) 将转换为“avion” (平面) 。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

根据 German2 雪球算法的启发法规范化德语字符。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

规范化印地语文本,以消除拼写变体中的一些差异。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

规范化印地语文本的 Unicode 表示形式。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

发出每个传入令牌两次,一次作为关键字 (keyword) 发出,一次作为非关键字 (keyword) 发出。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

适用于英语的高性能 kstem 筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

删除太长或太短的字词。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

编制索引时限制标记数量。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

将标记文本规范化为小写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

生成给定大小的 n 元语法。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

为波斯语应用规范化。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

为拼音匹配项创建标记。 请参见https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

使用 Porter 词干算法转换令牌流。 请参见http://tartarus.org/~martin/PorterStemmer

reverse

string

反转标记字符串。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

折叠斯堪的纳维亚语字符 åÅäæÄÆ->a 和 öÖøØ->o。 它还排斥双元音 aa、ae、ao、oe 和 oo 的使用,只留下第一个元音。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

规范化可互换的斯堪的纳维亚语字符的使用。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

创建标记组合作为单个标记。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

使用 Snowball 生成的词干分析器来词干的筛选器。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

规范化索拉尼语文本的 Unicode 表示形式。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

特定于语言的词干筛选器。 请参见https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

从标记流中删除非索引字。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

剪裁标记中的前导和尾随空格。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

将术语截断为特定长度。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

筛选出与前一个标记具有相同文本的标记。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

将标记文本规范化为大写。 请参见http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

将字词拆分为子字,并对子字组执行可选转换。

TruncateTokenFilter

将术语截断为特定长度。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

指定令牌筛选器类型的 URI 片段。

length

integer

300

将截断字词的长度。 默认值和最大值为 300。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

UaxUrlEmailTokenizer

将 URL 和电子邮件标记为一个标记。 此 tokenizer 是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

指定 tokenizer 类型的 URI 片段。

maxTokenLength

integer

255

最大标记长度。 默认值为 255。 超过最大长度的标记将被拆分。 可以使用的最大令牌长度为 300 个字符。

name

string

tokenizer 的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

UniqueTokenFilter

筛选出与前一个标记具有相同文本的标记。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

指定令牌筛选器类型的 URI 片段。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

onlyOnSamePosition

boolean

False

一个值,该值指示是否仅删除位于同一位置的副本。 默认值为 false。

VectorSearch

包含与矢量搜索相关的配置选项。

名称 类型 说明
algorithms VectorSearchAlgorithmConfiguration[]:

包含特定于索引编制或查询期间使用的算法的配置选项。

profiles

VectorSearchProfile[]

定义要与矢量搜索一起使用的配置组合。

VectorSearchAlgorithmKind

用于编制索引和查询的算法。

名称 类型 说明
exhaustiveKnn

string

将执行暴力搜索的详尽 KNN 算法。

hnsw

string

HNSW (分层导航小世界) ,一种近似近邻算法。

VectorSearchAlgorithmMetric

用于矢量比较的相似性指标。

名称 类型 说明
cosine

string

dotProduct

string

euclidean

string

VectorSearchProfile

定义要与矢量搜索一起使用的配置组合。

名称 类型 说明
algorithm

string

指定算法和可选参数的矢量搜索算法配置的名称。

name

string

要与此特定矢量搜索配置文件关联的名称。

WordDelimiterTokenFilter

将字词拆分为子字,并对子字组执行可选转换。 此令牌筛选器是使用 Apache Lucene 实现的。

名称 类型 默认值 说明
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

指定令牌筛选器类型的 URI 片段。

catenateAll

boolean

False

一个值,该值指示是否将对所有子字部分进行分隔。 例如,如果此值设置为 true,则“Azure-Search-1”变为“AzureSearch1”。 默认值为 false。

catenateNumbers

boolean

False

一个 值,该值指示是否将分隔多个部件的最大运行数。 例如,如果此值设置为 true,则“1-2”变为“12”。 默认值为 false。

catenateWords

boolean

False

一个值,该值指示单词部分的最大运行量是否将被分隔。 例如,如果此值设置为 true,则“Azure 搜索”将变为“AzureSearch”。 默认值为 false。

generateNumberParts

boolean

True

一个值,该值指示是否生成数字子字。 默认为 true。

generateWordParts

boolean

True

一个值,该值指示是否生成部分字词。 如果设置,会导致生成部分字词;例如,“AzureSearch”变为“Azure”“搜索”。 默认为 true。

name

string

令牌筛选器的名称。 它必须仅包含字母、数字、空格、短划线或下划线,只能以字母数字字符开头和结尾,且最多包含 128 个字符。

preserveOriginal

boolean

False

一个值,该值指示是否保留原始单词并将其添加到子字列表。 默认值为 false。

protectedWords

string[]

要防止分隔的令牌列表。

splitOnCaseChange

boolean

True

一个值,该值指示是否在 caseChange 上拆分单词。 例如,如果此值设置为 true,“AzureSearch”将变为“Azure”“搜索”。 默认为 true。

splitOnNumerics

boolean

True

一个值,该值指示是否按数字拆分。 例如,如果此值设置为 true,“Azure1Search”将变为“Azure”“1”“搜索”。 默认为 true。

stemEnglishPossessive

boolean

True

一个值,该值指示是否删除每个子字的尾随“'s”。 默认为 true。