Indexes - Get

擷取索引定義。

GET {endpoint}/indexes('{indexName}')?api-version=2023-11-01

URI 參數

名稱 位於 必要 類型 Description
endpoint
path True

string

搜尋服務的端點 URL。

indexName
path True

string

要擷取的索引名稱。

api-version
query True

string

用戶端 API 版本。

要求標頭

名稱 必要 類型 Description
x-ms-client-request-id

string

uuid

與要求一起傳送的追蹤標識碼,以協助偵錯。

回應

名稱 類型 Description
200 OK

SearchIndex

Other Status Codes

SearchError

錯誤回應。

範例

SearchServiceGetIndex

Sample Request

GET https://myservice.search.windows.net/indexes('hotels')?api-version=2023-11-01

Sample Response

{
  "name": "hotels",
  "fields": [
    {
      "name": "hotelId",
      "type": "Edm.String",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "baseRate",
      "type": "Edm.Double",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "descriptionEmbedding",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": 1536,
      "vectorSearchProfile": "myHnswProfile",
      "synonymMaps": []
    },
    {
      "name": "description_fr",
      "type": "Edm.String",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "fr.lucene",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "hotelName",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "tags",
      "type": "Collection(Edm.String)",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "sortable": false,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": "tagsAnalyzer",
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "parkingIncluded",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "smokingAllowed",
      "type": "Edm.Boolean",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "lastRenovationDate",
      "type": "Edm.DateTimeOffset",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "rating",
      "type": "Edm.Int32",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    },
    {
      "name": "location",
      "type": "Edm.GeographyPoint",
      "searchable": false,
      "filterable": true,
      "retrievable": true,
      "sortable": true,
      "facetable": false,
      "key": false,
      "indexAnalyzer": null,
      "searchAnalyzer": null,
      "analyzer": null,
      "dimensions": null,
      "vectorSearchProfile": null,
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "geo",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "hotelName": 5
        }
      },
      "functions": [
        {
          "type": "distance",
          "boost": 5,
          "fieldName": "location",
          "interpolation": "logarithmic",
          "distance": {
            "referencePointParameter": "currentLocation",
            "boostingDistance": 10
          }
        }
      ]
    }
  ],
  "defaultScoringProfile": "geo",
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "hotelName"
      ]
    }
  ],
  "analyzers": [
    {
      "name": "tagsAnalyzer",
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters": [
        "html_strip"
      ],
      "tokenizer": "standard_v2"
    }
  ],
  "tokenizers": [],
  "tokenFilters": [],
  "charFilters": [],
  "corsOptions": {
    "allowedOrigins": [
      "tempuri.org"
    ],
    "maxAgeInSeconds": 60
  },
  "encryptionKey": {
    "keyVaultKeyName": "myKeyName",
    "keyVaultKeyVersion": "myKeyVersion",
    "keyVaultUri": "https://myKeyVault.vault.azure.net",
    "accessCredentials": {
      "applicationId": "00000000-0000-0000-0000-000000000000",
      "applicationSecret": null
    }
  },
  "semantic": {
    "configurations": [
      {
        "name": "semanticHotels",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "hotelName"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            },
            {
              "fieldName": "description_fr"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "tags"
            },
            {
              "fieldName": "category"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "myHnsw",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "myExhaustive",
        "kind": "exhaustiveKnn",
        "exhaustiveKnnParameters": {
          "metric": "cosine"
        }
      }
    ],
    "profiles": [
      {
        "name": "myHnswProfile",
        "algorithm": "myHnsw"
      },
      {
        "name": "myAlgorithm",
        "algorithm": "myExhaustive"
      }
    ]
  }
}

定義

名稱 Description
AsciiFoldingTokenFilter

如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數值和符號 Unicode 字元轉換成其 ASCII 對等專案, (“Basic Latin” Unicode 區塊) 。 此令牌篩選是使用 Apache Lucene 實作。

AzureActiveDirectoryApplicationCredentials

為搜尋服務建立之已註冊應用程式的認證,用於驗證 Azure 金鑰保存庫 中所儲存加密金鑰的存取權。

BM25Similarity

以 Okapi BM25 相似度演算法為基礎的排名函式。 BM25 是類似TF-IDF的演算法,其中包含由 'b' 參數 () 所控制的長度正規化,以及由 'k1' 參數所控制 (詞彙飽和度) 。

CharFilterName

定義搜尋引擎所支援之所有字元篩選的名稱。

CjkBigramTokenFilter

形成從標準Tokenizer產生的CJK詞彙 bigram。 此令牌篩選是使用 Apache Lucene 實作。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的腳本。

ClassicSimilarity

使用 TF-IDF 之 Lucene TFIDFSimilarity 實作的舊版相似度演算法。 TF-IDF 的這個變化引進靜態文件長度正規化,以及協調只符合搜尋查詢的文件的協調因素。

ClassicTokenizer

適用於處理大部分歐洲語言檔的文法型Tokenizer。 此 Tokenizer 是使用 Apache Lucene 實作。

CommonGramTokenFilter

在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 此令牌篩選是使用 Apache Lucene 實作。

CorsOptions

定義選項,以控制索引的跨原始來源資源分享 (CORS) 。

CustomAnalyzer

可讓您控制將文字轉換成可編製索引/可搜尋令牌的程式。 它是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選所組成。 Tokenizer 負責將文字分成令牌,以及修改令牌化程式所發出的令牌的篩選條件。

DictionaryDecompounderTokenFilter

分解在許多日耳曼語系中找到的複合字。 此令牌篩選是使用 Apache Lucene 實作。

DistanceScoringFunction

定義根據地理位置距離提升分數的函式。

DistanceScoringParameters

提供距離評分函式的參數值。

EdgeNGramTokenFilter

從輸入令牌的前端或後端開始,產生指定大小的 n-gram (s) 。 此令牌篩選是使用 Apache Lucene 實作。

EdgeNGramTokenFilterSide

指定應該從哪一端產生 n-gram 的輸入端。

EdgeNGramTokenFilterV2

從輸入令牌的前端或後端開始,產生指定大小的 n-gram (s) 。 此令牌篩選是使用 Apache Lucene 實作。

EdgeNGramTokenizer

將邊緣的輸入令牌化為指定大小 (s) 的 n-gram。 此 Tokenizer 是使用 Apache Lucene 實作。

ElisionTokenFilter

移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 此令牌篩選是使用 Apache Lucene 實作。

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。

FreshnessScoringFunction

定義根據日期時間欄位值提升分數的函式。

FreshnessScoringParameters

提供有效評分函式的參數值。

HnswParameters

包含 HNSW 演算法特定的參數。

HnswVectorSearchAlgorithmConfiguration

包含 HNSW 近似近鄰演算法在編制索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度和精確度之間的無法取捨。

KeepTokenFilter

令牌篩選條件,只保留含有指定之單字清單中所含文字的標記。 此令牌篩選器是使用 Apache Lucene 來實作。

KeywordMarkerTokenFilter

將字詞標示為關鍵字。 此令牌篩選器是使用 Apache Lucene 來實作。

KeywordTokenizer

以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 實作。

KeywordTokenizerV2

以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 實作。

LengthTokenFilter

移除太長或太短的文字。 此令牌篩選器是使用 Apache Lucene 來實作。

LexicalAnalyzerName

定義搜尋引擎所支援之所有文字分析器的名稱。

LexicalTokenizerName

定義搜尋引擎所支援之所有 Tokenizer 的名稱。

LimitTokenFilter

限制編製索引時的語彙基元數目。 此令牌篩選器是使用 Apache Lucene 來實作。

LuceneStandardAnalyzer

標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。

LuceneStandardTokenizer

遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 實作。

LuceneStandardTokenizerV2

遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 實作。

MagnitudeScoringFunction

定義根據數值欄位的大小提升分數的函式。

MagnitudeScoringParameters

將參數值提供給量級評分函式。

MappingCharFilter

套用對應選項所定義的對應字元篩選。 比對採用貪婪演算法 (由指定點上最長的模式比對勝出) 取代項目可以是空字串。 此字元篩選是使用 Apache Lucene 實作。

MicrosoftLanguageStemmingTokenizer

使用語言特有的規則來分割文字,並將字組縮減到其基本形式。

MicrosoftLanguageTokenizer

使用語言特有的規則分割文字。

MicrosoftStemmingTokenizerLanguage

清單 Microsoft 語言字幹分析令牌化程式所支援的語言。

MicrosoftTokenizerLanguage

清單 Microsoft 語言令牌化程式支援的語言。

NGramTokenFilter

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。

NGramTokenFilterV2

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。

NGramTokenizer

將輸入 Token 化到指定的 n-gram 大小。 此 Tokenizer 是使用 Apache Lucene 實作。

PathHierarchyTokenizerV2

路徑類階層的 Token 化工具。 此 Tokenizer 是使用 Apache Lucene 實作。

PatternAnalyzer

透過規則運算式模式彈性地將文字分割成字詞。 此分析器是使用 Apache Lucene 實作。

PatternCaptureTokenFilter

使用 Java regex 來發出多個令牌 - 一個或多個模式中的每個擷取群組各一個令牌。 此令牌篩選器是使用 Apache Lucene 來實作。

PatternReplaceCharFilter

取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此字元篩選是使用 Apache Lucene 實作。

PatternReplaceTokenFilter

字元篩選條件,取代輸入字串中的字元。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 「aa bb aa bb」 pattern 「 (aa) \s+ (bb) 」。,並取代 」$1#$2“,結果會是 ”aa#bb aa#bb“。 此令牌篩選器是使用 Apache Lucene 來實作。

PatternTokenizer

使用 regex 模式比對來建構不同令牌的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 實作。

PhoneticEncoder

識別要與 PhoneticTokenFilter 搭配使用的注音編碼器類型。

PhoneticTokenFilter

建立語音相符項目的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。

PrioritizedFields

描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。

RegexFlags

定義旗標,這些旗標可以結合以控制如何在模式分析器和模式標記化程式中使用正則表達式。

ScoringFunctionAggregation

定義匯總函式,用來結合評分配置檔中所有評分函式的結果。

ScoringFunctionInterpolation

定義用來在一系列檔中插補分數提升的函式。

ScoringProfile

定義影響搜尋查詢評分之搜尋索引的參數。

SearchError

描述 API 的錯誤狀況。

SearchField

代表索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。

SearchFieldDataType

定義搜尋索引中欄位的數據類型。

SearchIndex

表示搜尋索引定義,描述索引的欄位和搜尋行為。

SearchResourceEncryptionKey

Azure 金鑰保存庫 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密搜尋服務上的待用數據,例如索引和同義字對應。

SemanticConfiguration

定義要用於語意功能內容的特定組態。

SemanticField

做為語意組態一部分的欄位。

SemanticSettings

定義影響語意功能的搜尋索引參數。

ShingleTokenFilter

將語彙基元的組合建立為單一語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。

SnowballTokenFilter

使用 Snowball 產生的字幹分析器進行字幹分析的篩選。 此令牌篩選器是使用 Apache Lucene 來實作。

SnowballTokenFilterLanguage

用於 Snowball 令牌篩選的語言。

StemmerOverrideTokenFilter

提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典詞幹字詞都會標示為關鍵詞,使其不會以詞幹分析器向下鏈結。 必須放在任何詞幹分析篩選器之前。 此令牌篩選器是使用 Apache Lucene 來實作。

StemmerTokenFilter

語言特定的詞幹篩選條件。 此令牌篩選器是使用 Apache Lucene 來實作。

StemmerTokenFilterLanguage

要用於字幹分析器令牌篩選的語言。

StopAnalyzer

將文字除以非字母;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 實作。

StopwordsList

識別預先定義的語言特定停用字詞清單。

StopwordsTokenFilter

從語彙基元資料流移除停用字詞。 此令牌篩選器是使用 Apache Lucene 來實作。

Suggester

定義建議 API 如何套用至索引中的欄位群組。

SuggesterSearchMode

值,指出建議工具的功能。

SynonymTokenFilter

比對令牌數據流中的單一或多字同義字。 此令牌篩選器是使用 Apache Lucene 來實作。

TagScoringFunction

定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。

TagScoringParameters

提供標記評分函式的參數值。

TextWeights

定義在搜尋查詢中應該提升評分的索引欄位權數。

TokenCharacterKind

表示令牌篩選可以運作的字元類別。

TokenFilterName

定義搜尋引擎所支援之所有令牌篩選的名稱。

TruncateTokenFilter

將字詞截斷為特定長度。 此令牌篩選器是使用 Apache Lucene 來實作。

UaxUrlEmailTokenizer

將 URL 和電子郵件 Token 化為一個語彙基元。 此 Tokenizer 是使用 Apache Lucene 實作。

UniqueTokenFilter

篩選出與前一個語彙基元使用相同文字的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。

VectorSearch

包含與向量搜尋相關的組態選項。

VectorSearchAlgorithmKind

用於編製索引和查詢的演算法。

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。

VectorSearchProfile

定義要與向量搜尋搭配使用的組態組合。

WordDelimiterTokenFilter

將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。 此令牌篩選器是使用 Apache Lucene 來實作。

AsciiFoldingTokenFilter

如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數值和符號 Unicode 字元轉換成其 ASCII 對等專案, (“Basic Latin” Unicode 區塊) 。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

preserveOriginal

boolean

False

值,指出是否要保留原始令牌。 預設值為 false。

AzureActiveDirectoryApplicationCredentials

為搜尋服務建立之已註冊應用程式的認證,用於驗證 Azure 金鑰保存庫 中所儲存加密金鑰的存取權。

名稱 類型 Description
applicationId

string

AAD 應用程式識別碼,已授與 Azure 金鑰保存庫 所需的訪問許可權,用於加密待用數據時使用。 應用程式標識碼不應與 AAD 應用程式的物件標識元混淆。

applicationSecret

string

指定 AAD 應用程式的驗證金鑰。

BM25Similarity

以 Okapi BM25 相似度演算法為基礎的排名函式。 BM25 是類似TF-IDF的演算法,其中包含由 'b' 參數 () 所控制的長度正規化,以及由 'k1' 參數所控制 (詞彙飽和度) 。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

此屬性可控制檔的長度如何影響相關性分數。 根據預設,會使用 0.75 的值。 值為 0.0 表示不會套用長度正規化,而值為 1.0 表示分數會由文件的長度完全正規化。

k1

number

此屬性控制每個比對字詞的字詞頻率與文件查詢配對最終相關性分數之間的縮放函式。 根據預設,會使用1.2的值。 值為 0.0 表示分數不會隨著字詞頻率增加而調整。

CharFilterName

定義搜尋引擎所支援之所有字元篩選的名稱。

名稱 類型 Description
html_strip

string

嘗試移除 HTML 建構的字元篩選。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

形成從標準Tokenizer產生的CJK詞彙 bigram。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreScripts

CjkBigramTokenFilterScripts[]

要忽略的腳本。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

outputUnigrams

boolean

False

值,指出是否要輸出 unigram 和 bigrams (如果為 true) ,或只是如果 false) ,則只輸出 bigrams (。 預設值為 false。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的腳本。

名稱 類型 Description
han

string

在形成 CJK 字詞的 bigrams 時忽略 Han 腳本。

hangul

string

當形成 CJK 字詞的 bigrams 時,請忽略 Hangul 腳本。

hiragana

string

在形成 CJK 詞彙的 bigrams 時,忽略平假名腳本。

katakana

string

當形成 CJK 字詞的 bigrams 時,請忽略片假名腳本。

ClassicSimilarity

使用 TF-IDF 之 Lucene TFIDFSimilarity 實作的舊版相似度演算法。 TF-IDF 的這個變化引進靜態文件長度正規化,以及協調只符合搜尋查詢的文件的協調因素。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

適用於處理大部分歐洲語言檔的文法型Tokenizer。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

CommonGramTokenFilter

在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

指定令牌篩選類型的 URI 片段。

commonWords

string[]

一組通用字組。

ignoreCase

boolean

False

值,指出一般字組比對是否不區分大小寫。 預設值為 false。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

queryMode

boolean

False

值,指出令牌篩選是否處於查詢模式。 在查詢模式中時,令牌篩選會產生 bigrams,然後移除一般單字和單一字詞,後面接著一般單字。 預設值為 false。

CorsOptions

定義選項,以控制索引的跨原始來源資源分享 (CORS) 。

名稱 類型 Description
allowedOrigins

string[]

JavaScript 程式代碼將授與索引存取權的來源清單。 可以包含 {protocol}://{完整-domain-name}[:{port#}] 格式的主機清單,或單 * 一允許所有來源 (不建議) 。

maxAgeInSeconds

integer

瀏覽器應該快取 CORS 預檢回應的持續時間。 預設為5分鐘。

CustomAnalyzer

可讓您控制將文字轉換成可編製索引/可搜尋令牌的程式。 它是使用者定義的組態,由單一預先定義的Tokenizer和一或多個篩選所組成。 Tokenizer 負責將文字分成令牌,以及修改令牌化程式所發出的令牌的篩選條件。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

指定分析器類型的 URI 片段。

charFilters

CharFilterName[]

令牌化程式處理輸入文字之前,用來準備輸入文字的字元篩選清單。 例如,字元篩選器可能會取代特定字元或符號。 篩選條件會依照列出的順序執行。

name

string

分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

tokenFilters

TokenFilterName[]

令牌篩選清單,用來篩選或修改令牌化程式所產生的令牌。 例如,您可以指定小寫篩選器,將所有字元轉換成小寫。 篩選條件會依照列出的順序執行。

tokenizer

LexicalTokenizerName

用來將連續文字分割成一連串標記的Tokenizer名稱,例如將句子分成單字。

DictionaryDecompounderTokenFilter

分解在許多日耳曼語系中找到的複合字。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

指定令牌篩選類型的 URI 片段。

maxSubwordSize

integer

15

子字詞大小上限。 只會輸出比這個短的子字詞。 預設值為 15。 最大值為300。

minSubwordSize

integer

2

子字詞大小下限。 只會輸出超過這個的子字詞。 預設值為 2。 最大值為300。

minWordSize

integer

5

字型大小下限。 只有超過此處理的字組。 預設值為 5。 最大值為300。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

onlyLongestMatch

boolean

False

值,指出是否只將最長相符的子字詞新增至輸出。 預設值為 false。

wordList

string[]

要比對的字組清單。

DistanceScoringFunction

定義根據地理位置距離提升分數的函式。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是正數不等於1.0。

distance

DistanceScoringParameters

距離評分函式的參數值。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

type string:

distance

指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。

DistanceScoringParameters

提供距離評分函式的參數值。

名稱 類型 Description
boostingDistance

number

從提升範圍結束的參考位置,以公里為單位的距離。

referencePointParameter

string

在搜尋查詢中傳遞的參數名稱,以指定參考位置。

EdgeNGramTokenFilter

從輸入令牌的前端或後端開始,產生指定大小的 n-gram (s) 。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

side

EdgeNGramTokenFilterSide

front

指定應該從中產生 n-gram 的輸入端。 預設值為 「front」。。

EdgeNGramTokenFilterSide

指定應該從哪一端產生 n-gram 的輸入端。

名稱 類型 Description
back

string

指定應該從輸入背面產生 n-gram。

front

string

指定應該從輸入前端產生 n-gram。

EdgeNGramTokenFilterV2

從輸入令牌的前端或後端開始,產生指定大小的 n-gram (s) 。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

side

EdgeNGramTokenFilterSide

front

指定應該從中產生 n-gram 的輸入端。 預設值為 「front」。。

EdgeNGramTokenizer

將邊緣的輸入令牌化為指定大小 (s) 的 n-gram。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

指定 Tokenizer 類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字元類別。

ElisionTokenFilter

移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 此令牌篩選是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

指定令牌篩選類型的 URI 片段。

articles

string[]

要移除的一組發行項。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

名稱 類型 Description
metric

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含查詢期間所使用完整 KNN 演算法的特定組態選項,這會在整個向量索引上執行暴力密碼破解搜尋。

名稱 類型 Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

kind string:

exhaustiveKnn

要與向量搜尋搭配使用的演算法類型名稱。

name

string

要與此特定組態相關聯的名稱。

FreshnessScoringFunction

定義根據日期時間欄位值提升分數的函式。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是正數不等於1.0。

fieldName

string

做為評分函式輸入的功能變數名稱。

freshness

FreshnessScoringParameters

最新評分函式的參數值。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

type string:

freshness

指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。

FreshnessScoringParameters

提供有效評分函式的參數值。

名稱 類型 Description
boostingDuration

string

到期期間之後,特定檔的提升將會停止。

HnswParameters

包含 HNSW 演算法特定的參數。

名稱 類型 預設值 Description
efConstruction

integer

400

包含最接近芳鄰的動態清單大小,此列表會在索引時間期間使用。 增加此參數可能會改善索引品質,但代價是索引編製時間增加。 在特定時間點,增加此參數會導致傳回減少。

efSearch

integer

500

包含最接近鄰的動態清單大小,在搜尋期間使用。 增加此參數可能會改善搜尋結果,但代價是搜尋速度較慢。 在特定時間點,增加此參數會導致傳回減少。

m

integer

4

建構期間為每個新專案建立的雙向連結數目。 增加此參數值可能會改善回收,並減少高內建維度數據集的擷取時間,代價是記憶體耗用量增加和編製索引時間較長。

metric

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。

HnswVectorSearchAlgorithmConfiguration

包含 HNSW 近似近鄰演算法在編制索引和查詢期間所使用的組態選項。 HNSW 演算法提供搜尋速度和精確度之間的無法取捨。

名稱 類型 Description
hnswParameters

HnswParameters

包含 HNSW 演算法特定的參數。

kind string:

hnsw

要與向量搜尋搭配使用的演算法類型名稱。

name

string

要與此特定組態相關聯的名稱。

KeepTokenFilter

令牌篩選條件,只保留含有指定之單字清單中所含文字的標記。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

指定令牌篩選類型的 URI 片段。

keepWords

string[]

要保留的單字清單。

keepWordsCase

boolean

False

值,指出是否要先小寫所有字。 預設值為 false。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

KeywordMarkerTokenFilter

將字詞標示為關鍵字。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreCase

boolean

False

值,指出是否忽略大小寫。 如果為 true,則會先將所有字組轉換成小寫。 預設值為 false。

keywords

string[]

要標示為關鍵詞的單字清單。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

KeywordTokenizer

以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

指定 Tokenizer 類型的 URI 片段。

bufferSize

integer

256

以位元組為單位的讀取緩衝區大小。 預設值為 256。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

KeywordTokenizerV2

以單一語彙基元的形式發出整個輸入。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

256

令牌長度上限。 預設值為 256。 超過長度上限的權杖會進行分割。 可使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

LengthTokenFilter

移除太長或太短的文字。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

指定令牌篩選類型的 URI 片段。

max

integer

300

字元的最大長度。 預設值和最大值為 300。

min

integer

0

字元的最小長度。 預設值為 0。 最大值為300。 必須小於 max的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

LexicalAnalyzerName

定義搜尋引擎所支援之所有文字分析器的名稱。

名稱 類型 Description
ar.lucene

string

阿拉伯文的 Lucene 分析器。

ar.microsoft

string

阿拉伯文的 Microsoft 分析器。

bg.lucene

string

適用於保加利亞的 Lucene 分析器。

bg.microsoft

string

適用於保加利亞文的 Microsoft 分析器。

bn.microsoft

string

適用於孟加拉國的 Microsoft 分析器。

ca.lucene

string

卡達尼亞文的 Lucene 分析器。

ca.microsoft

string

適用於卡達尼亞文的 Microsoft 分析器。

cs.lucene

string

適用於捷克文的 Lucene 分析器。

cs.microsoft

string

適用於捷克文的 Microsoft 分析器。

da.lucene

string

丹麥文的 Lucene 分析器。

da.microsoft

string

適用於丹麥文的 Microsoft 分析器。

de.lucene

string

德文的 Lucene 分析器。

de.microsoft

string

適用於德文的 Microsoft 分析器。

el.lucene

string

希臘文的 Lucene 分析器。

el.microsoft

string

適用於希臘文的 Microsoft 分析器。

en.lucene

string

適用於英文的 Lucene 分析器。

en.microsoft

string

適用於英文的 Microsoft 分析器。

es.lucene

string

西班牙文的 Lucene 分析器。

es.microsoft

string

適用於西班牙文的 Microsoft 分析器。

et.microsoft

string

適用於愛沙尼亞文的 Microsoft 分析器。

eu.lucene

string

適用於 Basque 的 Lucene 分析器。

fa.lucene

string

適用於西亞文的 Lucene 分析器。

fi.lucene

string

芬蘭文的 Lucene 分析器。

fi.microsoft

string

適用於芬蘭文的 Microsoft 分析器。

fr.lucene

string

法文的 Lucene 分析器。

fr.microsoft

string

適用於法文的 Microsoft 分析器。

ga.lucene

string

適用於愛爾蘭的 Lucene 分析器。

gl.lucene

string

Galician 的 Lucene 分析器。

gu.microsoft

string

適用於 Gujarati 的 Microsoft 分析器。

he.microsoft

string

適用於希伯來文的 Microsoft 分析器。

hi.lucene

string

適用於印度文的 Lucene 分析器。

hi.microsoft

string

適用於印度文的 Microsoft 分析器。

hr.microsoft

string

適用於克羅埃西亞的 Microsoft 分析器。

hu.lucene

string

適用於匈牙利文的 Lucene 分析器。

hu.microsoft

string

適用於匈牙利文的 Microsoft 分析器。

hy.lucene

string

適用於亞美尼亞文的 Lucene 分析器。

id.lucene

string

印尼文的 Lucene 分析器。

id.microsoft

string

適用於印尼文 () 的 Microsoft 分析器。

is.microsoft

string

適用於愛爾蘭的 Microsoft 分析器。

it.lucene

string

義大利文的 Lucene 分析器。

it.microsoft

string

義大利文的 Microsoft 分析器。

ja.lucene

string

適用於日文的 Lucene 分析器。

ja.microsoft

string

適用於日文的 Microsoft 分析器。

keyword

string

將欄位的整個內容視為單一語彙基元。 這適合用於郵遞區號、識別碼和產品名稱等資料。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

kn.microsoft

string

適用於 Kannada 的 Microsoft 分析器。

ko.lucene

string

韓文的 Lucene 分析器。

ko.microsoft

string

適用於韓文的 Microsoft 分析器。

lt.microsoft

string

適用於立陶宛的 Microsoft 分析器。

lv.lucene

string

適用於拉脫維亞的 Lucene 分析器。

lv.microsoft

string

適用於義大利文的 Microsoft 分析器。

ml.microsoft

string

Microsoft Analyzer for馬馬亞蘭文。

mr.microsoft

string

適用於 Marathi 的 Microsoft 分析器。

ms.microsoft

string

Microsoft analyzer for 馬來文 (拉丁文) 。

nb.microsoft

string

適用於挪威文的 Microsoft 分析器 (Bokmål) 。

nl.lucene

string

荷蘭文的 Lucene 分析器。

nl.microsoft

string

適用於荷蘭文的 Microsoft 分析器。

no.lucene

string

挪威文的 Lucene 分析器。

pa.microsoft

string

適用於 Punjabi 的 Microsoft 分析器。

pattern

string

透過規則運算式模式彈性地將文字分割成字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

pl.lucene

string

波蘭文的 Lucene 分析器。

pl.microsoft

string

適用於波蘭文的 Microsoft 分析器。

pt-BR.lucene

string

葡萄牙文 (巴西) 的 Lucene 分析器。

pt-BR.microsoft

string

巴西) 葡萄牙文 (Microsoft 分析器。

pt-PT.lucene

string

葡萄牙文 (葡萄牙文) 的 Lucene 分析器。

pt-PT.microsoft

string

葡萄牙文 (葡萄牙文的 Microsoft 分析器) 。

ro.lucene

string

羅馬尼亞文的 Lucene 分析器。

ro.microsoft

string

適用於羅馬尼亞文的 Microsoft 分析器。

ru.lucene

string

俄文的 Lucene 分析器。

ru.microsoft

string

適用於俄文的 Microsoft 分析器。

simple

string

在非字母的位置分割文字,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

sk.microsoft

string

適用於斯洛伐克文的 Microsoft 分析器。

sl.microsoft

string

適用於斯洛維尼亞的 Microsoft 分析器。

sr-cyrillic.microsoft

string

適用於塞爾維亞文 (斯拉夫) 的 Microsoft 分析器。

sr-latin.microsoft

string

適用於塞爾維亞文 (拉丁文) 的 Microsoft 分析器。

standard.lucene

string

標準 Lucene 分析器。

standardasciifolding.lucene

string

標準 ASCII 折疊 Lucene 分析器。 請參閱 https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

stop

string

將文字除以非字母;套用小寫和停用字詞標記篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

sv.lucene

string

瑞典文的 Lucene 分析器。

sv.microsoft

string

瑞典文的 Microsoft 分析器。

ta.microsoft

string

適用於 Tamil 的 Microsoft 分析器。

te.microsoft

string

適用於 Telugu 的 Microsoft 分析器。

th.lucene

string

泰文的 Lucene 分析器。

th.microsoft

string

適用於泰文的 Microsoft 分析器。

tr.lucene

string

土耳其文的 Lucene 分析器。

tr.microsoft

string

適用於土耳其文的 Microsoft 分析器。

uk.microsoft

string

適用於烏克蘭的 Microsoft 分析器。

ur.microsoft

string

適用於 Urdu 的 Microsoft 分析器。

vi.microsoft

string

適用於越南文的 Microsoft 分析器。

whitespace

string

使用 whitespace Token 化工具的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

zh-Hans.lucene

string

適用於簡體中文 () 的 Lucene 分析器。

zh-Hans.microsoft

string

適用於簡體中文 () 的 Microsoft 分析器。

zh-Hant.lucene

string

中文 (繁體中文) 的 Lucene 分析器。

zh-Hant.microsoft

string

適用於繁體中文 (的 Microsoft 分析器) 。

LexicalTokenizerName

定義搜尋引擎所支援之所有 Tokenizer 的名稱。

名稱 類型 Description
classic

string

適用於處理大部分歐洲語言檔的文法型Tokenizer。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

string

將邊緣的輸入令牌化為指定大小 (s) 的 n-gram。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

string

以單一語彙基元的形式發出整個輸入。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

string

在非字母的位置上分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

string

在非字母的位置分割文字,並將其轉換成小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_stemming_tokenizer

string

使用語言特有的規則來分割文字,並將字組縮減到其基本形式。

microsoft_language_tokenizer

string

使用語言特有的規則分割文字。

nGram

string

將輸入 Token 化到指定的 n-gram 大小。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

string

路徑類階層的 Token 化工具。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

string

使用 regex 模式比對來建構不同令牌的 Tokenizer。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

string

標準 Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

string

將 URL 和電子郵件 Token 化為一個語彙基元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

string

在空白字元處分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

限制編製索引時的語彙基元數目。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

指定令牌篩選類型的 URI 片段。

consumeAllTokens

boolean

False

值,指出是否必須取用輸入中的所有令牌,即使達到 maxTokenCount 也一樣。 預設值為 false。

maxTokenCount

integer

1

要產生的令牌數目上限。 預設值為 1。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

LuceneStandardAnalyzer

標準 Apache Lucene 分析器;由標準 Tokenizer、小寫篩選和停止篩選所組成。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

指定分析器類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可使用的令牌長度上限為 300 個字元。

name

string

分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

stopwords

string[]

停用字詞清單。

LuceneStandardTokenizer

遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

LuceneStandardTokenizerV2

遵循 Unicode 文字分割規則來分解文字。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

MagnitudeScoringFunction

定義根據數值欄位的大小提升分數的函式。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是正數不等於1.0。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

magnitude

MagnitudeScoringParameters

量級評分函式的參數值。

type string:

magnitude

指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。

MagnitudeScoringParameters

將參數值提供給量級評分函式。

名稱 類型 Description
boostingRangeEnd

number

提升結束的域值。

boostingRangeStart

number

啟動提升的域值。

constantBoostBeyondRange

boolean

值,指出是否針對超出範圍結束值的域值套用常數提升;默認值為 false。

MappingCharFilter

套用對應選項所定義的對應字元篩選。 比對採用貪婪演算法 (由指定點上最長的模式比對勝出) 取代項目可以是空字串。 此字元篩選是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

指定字元篩選類型的 URI 片段。

mappings

string[]

下列格式的對應清單:「a=>b」 (字元 「a」 的所有出現項目都會取代為字元 「b」 ) 。

name

string

字元篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

MicrosoftLanguageStemmingTokenizer

使用語言特有的規則來分割文字,並將字組縮減到其基本形式。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

指定 Tokenizer 類型的 URI 片段。

isSearchTokenizer

boolean

False

值,指出如何使用Tokenizer。 如果做為搜尋Tokenizer,請將 設定為 true,如果做為索引標記化工具,請將 設定為 false。 預設值為 false。

language

MicrosoftStemmingTokenizerLanguage

要使用的語言。 預設值為英文。

maxTokenLength

integer

255

令牌長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌都會根據最大令牌長度集進行分割。 預設值為 255。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

MicrosoftLanguageTokenizer

使用語言特有的規則分割文字。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

指定 Tokenizer 類型的 URI 片段。

isSearchTokenizer

boolean

False

值,指出如何使用Tokenizer。 如果做為搜尋Tokenizer,請將 設定為 true,如果做為索引標記化工具,請將 設定為 false。 預設值為 false。

language

MicrosoftTokenizerLanguage

要使用的語言。 預設值為英文。

maxTokenLength

integer

255

令牌長度上限。 超過長度上限的權杖會進行分割。 可用的語彙基元長度上限是 300 個字元。 超過 300 個字元的令牌會先分割成長度為 300 的令牌,然後每個令牌都會根據最大令牌長度集進行分割。 預設值為 255。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

MicrosoftStemmingTokenizerLanguage

清單 Microsoft 語言字幹分析令牌化程式所支援的語言。

名稱 類型 Description
arabic

string

選取阿拉伯文的 Microsoft 字幹分析 Tokenizer。

bangla

string

選取孟加拉國文的 Microsoft 字幹分析令牌化程式。

bulgarian

string

選取適用於保加利亞文的 Microsoft 字幹分析 Tokenizer。

catalan

string

選取卡達尼亞文的 Microsoft 字幹分析令牌化程式。

croatian

string

選取克羅埃西亞文的 Microsoft 字幹分析 Tokenizer。

czech

string

選取適用於捷克文的 Microsoft 字幹分析 Tokenizer。

danish

string

選取丹麥文的 Microsoft 字幹分析 Tokenizer。

dutch

string

選取荷蘭文的 Microsoft 字幹分析 Tokenizer。

english

string

選取英文的 Microsoft 字幹分析 Tokenizer。

estonian

string

選取適用於愛沙尼亞文的 Microsoft 字幹分析令牌化程式。

finnish

string

選取芬蘭文的 Microsoft 字幹分析 Tokenizer。

french

string

選取法文的 Microsoft 字幹分析 Tokenizer。

german

string

選取德文的 Microsoft 字幹分析 Tokenizer。

greek

string

選取希臘文的 Microsoft 字幹分析 Tokenizer。

gujarati

string

選取 Gujarati 的 Microsoft 字幹分析 Tokenizer。

hebrew

string

選取希伯來文的 Microsoft 字幹分析 Tokenizer。

hindi

string

選取印度文的 Microsoft 字幹分析令牌化程式。

hungarian

string

選取匈牙利文的 Microsoft 字幹分析 Tokenizer。

icelandic

string

選取適用於愛爾蘭文的 Microsoft 字幹分析 Tokenizer。

indonesian

string

選取印尼文的 Microsoft 字幹分析令牌化工具。

italian

string

選取義大利文的 Microsoft 字幹分析 Tokenizer。

kannada

string

選取 Kannada 的 Microsoft 字幹分析令牌化程式。

latvian

string

選取適用於義大利文的 Microsoft 字幹分析 Tokenizer。

lithuanian

string

選取立陶宛文的 Microsoft 字幹分析 Tokenizer。

malay

string

選取馬來亞文的 Microsoft 字幹分析令牌化工具。

malayalam

string

選取馬來亞蘭文的 Microsoft 字幹分析令牌化程式。

marathi

string

選取 Marathi 的 Microsoft 字幹分析令牌化程式。

norwegianBokmaal

string

選取挪威文 (Bokmål) 的 Microsoft 字幹標記化程式。

polish

string

選取波蘭文的 Microsoft 字幹分析 Tokenizer。

portuguese

string

選取葡萄牙文的 Microsoft 字幹分析 Tokenizer。

portugueseBrazilian

string

選取葡萄牙文 (巴西) 的 Microsoft 字幹分析令牌化程式。

punjabi

string

選取 Punjabi 的 Microsoft 字幹分析令牌化程式。

romanian

string

選取適用於羅馬尼亞文的 Microsoft 字幹分析 Tokenizer。

russian

string

選取俄文的 Microsoft 字幹分析 Tokenizer。

serbianCyrillic

string

選取塞爾維亞文 (斯拉夫) 的 Microsoft 字幹分析標記化程式。

serbianLatin

string

選取塞爾維亞文 (拉丁) 的 Microsoft 字幹分析標記化程式。

slovak

string

選取適用於斯洛伐克文的 Microsoft 字幹分析 Tokenizer。

slovenian

string

選取斯洛維尼亞文的 Microsoft 字幹分析 Tokenizer。

spanish

string

選取西班牙文的 Microsoft 字幹分析 Tokenizer。

swedish

string

選取瑞典文的 Microsoft 字幹分析令牌化程式。

tamil

string

選取 Tamil 的 Microsoft 字幹分析 Tokenizer。

telugu

string

選取 Telugu 的 Microsoft 字幹分析 Tokenizer。

turkish

string

選取土耳其文的 Microsoft 字幹分析 Tokenizer。

ukrainian

string

選取適用於烏克蘭的 Microsoft 字幹分析 Tokenizer。

urdu

string

選取 Urdu 的 Microsoft 字幹分析令牌化程式。

MicrosoftTokenizerLanguage

清單 Microsoft 語言令牌化程式支援的語言。

名稱 類型 Description
bangla

string

選取孟加拉國文的 Microsoft Tokenizer。

bulgarian

string

選取適用於保加利亞文的 Microsoft Tokenizer。

catalan

string

選取卡達尼亞文的 Microsoft Tokenizer。

chineseSimplified

string

針對簡體中文 (選取 Microsoft Tokenizer) 。

chineseTraditional

string

選取繁體中文 (傳統) 的 Microsoft Tokenizer。

croatian

string

選取克羅埃西亞文的 Microsoft Tokenizer。

czech

string

選取適用於捷克文的 Microsoft Tokenizer。

danish

string

選取丹麥文的 Microsoft Tokenizer。

dutch

string

選取荷蘭文的 Microsoft Tokenizer。

english

string

選取英文版的 Microsoft Tokenizer。

french

string

選取法文的 Microsoft Tokenizer。

german

string

選取德文的 Microsoft Tokenizer。

greek

string

選取希臘文的 Microsoft Tokenizer。

gujarati

string

選取 Gujarati 的 Microsoft Tokenizer。

hindi

string

選取適用於印度文的 Microsoft Tokenizer。

icelandic

string

選取適用於愛爾蘭文的 Microsoft Tokenizer。

indonesian

string

選取印尼文的 Microsoft Tokenizer。

italian

string

選取義大利文的 Microsoft Tokenizer。

japanese

string

選取日文的 Microsoft Tokenizer。

kannada

string

選取 Kannada 的 Microsoft Tokenizer。

korean

string

選取韓文的 Microsoft Tokenizer。

malay

string

選取馬來亞文的 Microsoft Tokenizer。

malayalam

string

選取馬來亞蘭文的 Microsoft Tokenizer。

marathi

string

選取 Marathi 的 Microsoft Tokenizer。

norwegianBokmaal

string

選取挪威文的 Microsoft tokenizer (Bokmål) 。

polish

string

選取適用於波蘭文的 Microsoft Tokenizer。

portuguese

string

選取葡萄牙文的 Microsoft Tokenizer。

portugueseBrazilian

string

選取葡萄牙文 (巴西) 的 Microsoft Tokenizer。

punjabi

string

選取 Punjabi 的 Microsoft Tokenizer。

romanian

string

選取適用於羅馬尼亞文的 Microsoft Tokenizer。

russian

string

選取俄文的 Microsoft Tokenizer。

serbianCyrillic

string

選取塞爾維亞文 (斯拉夫) 的 Microsoft Tokenizer。

serbianLatin

string

選取塞爾維亞文 (拉丁) 的 Microsoft Tokenizer。

slovenian

string

選取斯洛維尼亞文的 Microsoft Tokenizer。

spanish

string

選取西班牙文的 Microsoft Tokenizer。

swedish

string

選取瑞典文的 Microsoft Tokenizer。

tamil

string

選取 Tamil 的 Microsoft Tokenizer。

telugu

string

選取 Telugu 的 Microsoft Tokenizer。

thai

string

選取泰文的 Microsoft Tokenizer。

ukrainian

string

選取適用於烏克蘭文的 Microsoft Tokenizer。

urdu

string

選取 Urdu 的 Microsoft Tokenizer。

vietnamese

string

選取越南文的 Microsoft Tokenizer。

NGramTokenFilter

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

最大 n-gram 長度。 預設值為 2。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

NGramTokenFilterV2

產生指定大小的 n-gram。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

指定令牌篩選類型的 URI 片段。

maxGram

integer

2

最大 n-gram 長度。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

NGramTokenizer

將輸入 Token 化到指定的 n-gram 大小。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

指定 Tokenizer 類型的 URI 片段。

maxGram

integer

2

n-gram 長度上限。 預設值為 2。 最大值為300。

minGram

integer

1

最小 n-gram 長度。 預設值為 1。 最大值為300。 必須小於 maxGram的值。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字元類別。

PathHierarchyTokenizerV2

路徑類階層的 Token 化工具。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

指定 Tokenizer 類型的 URI 片段。

delimiter

string

/

要使用的分隔符。 預設值為 “/”。

maxTokenLength

integer

300

令牌長度上限。 預設值和最大值為 300。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

replacement

string

/

值,如果設定,則會取代分隔符。 預設值為 “/”。

reverse

boolean

False

值,指出是否要以反向順序產生令牌。 預設值為 false。

skip

integer

0

要略過的初始令牌數目。 預設值為 0。

PatternAnalyzer

透過規則運算式模式彈性地將文字分割成字詞。 此分析器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

指定分析器類型的 URI 片段。

flags

RegexFlags

正則表達式旗標。

lowercase

boolean

True

值,指出字詞是否應該小寫。 預設值為 true。

name

string

分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

pattern

string

\W+

符合標記分隔符的正則表達式模式。 預設值是符合一或多個非文字字元的表達式。

stopwords

string[]

停用字詞清單。

PatternCaptureTokenFilter

使用 Java regex 來發出多個令牌 - 一個或多個模式中的每個擷取群組各一個令牌。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

patterns

string[]

要與每個令牌相符的模式清單。

preserveOriginal

boolean

True

值,指出是否要傳回原始令牌,即使其中一個模式相符也一樣。 預設值為 true。

PatternReplaceCharFilter

取代輸入字串中字元的字元篩選。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 “aa bb aa bb”, pattern “ (aa) \s+ (bb) ”, and replacement “$1#$2”, 結果會是 “aa#bb aa#bb”。 此字元篩選是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

指定字元篩選類型的 URI 片段。

name

string

字元篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

pattern

string

正則表達式模式。

replacement

string

取代文字。

PatternReplaceTokenFilter

字元篩選條件,取代輸入字串中的字元。 其使用規則運算式來識別要保留的字元序列,並使用取代模式來識別要取代的字元。 例如,假設輸入文字 「aa bb aa bb」 pattern 「 (aa) \s+ (bb) 」。,並取代 」$1#$2“,結果會是 ”aa#bb aa#bb“。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

pattern

string

正則表達式模式。

replacement

string

取代文字。

PatternTokenizer

使用 regex 模式比對來建構不同令牌的 Tokenizer。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

指定 Tokenizer 類型的 URI 片段。

flags

RegexFlags

正則表達式旗標。

group

integer

-1

正則表達式模式中相符群組以零起始的序數,以擷取至令牌。 如果您想要使用整個模式將輸入分割成令牌,不論相符的群組為何,請使用 -1。 預設值為 -1。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

pattern

string

\W+

符合標記分隔符的正則表達式模式。 預設值是符合一或多個非文字字元的表達式。

PhoneticEncoder

識別要與 PhoneticTokenFilter 搭配使用的注音編碼器類型。

名稱 類型 Description
beiderMorse

string

將令牌編碼為 Beider-Morse 值。

caverphone1

string

將令牌編碼為 Caverphone 1.0 值。

caverphone2

string

將令牌編碼為 Caverphone 2.0 值。

cologne

string

將令牌編碼為[文本注音] 值。

doubleMetaphone

string

將令牌編碼為雙中繼電話值。

haasePhonetik

string

使用 Kölner Phonetik 演算法的 Haase 精簡功能來編碼令牌。

koelnerPhonetik

string

使用 Kölner Phonetik 演演算法編碼令牌。

metaphone

string

將令牌編碼為 Metaphone 值。

nysiis

string

將令牌編碼為 NYSIIS 值。

refinedSoundex

string

將令牌編碼為 Refined Soundex 值。

soundex

string

將令牌編碼為 Soundex 值。

PhoneticTokenFilter

建立語音相符項目的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

指定令牌篩選類型的 URI 片段。

encoder

PhoneticEncoder

metaphone

要使用的注音編碼器。 預設值為 「metaphone」。。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

replace

boolean

True

值,指出編碼令牌是否應該取代原始令牌。 如果為 false,編碼的令牌會新增為同義字。 預設值為 true。

PrioritizedFields

描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。

名稱 類型 Description
prioritizedContentFields

SemanticField[]

定義要用於語意排名、標題、醒目提示和答案的內容欄位。 為了獲得最佳結果,選取的字段應該包含自然語言格式的文字。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會遭到截斷。

prioritizedKeywordsFields

SemanticField[]

定義要用於語意排名、標題、醒目提示和答案的關鍵詞欄位。 為了獲得最佳結果,選取的字段應該包含關鍵詞清單。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會遭到截斷。

titleField

SemanticField

定義要用於語意排名、標題、醒目提示和答案的標題字段。 如果您的索引中沒有標題字段,請將此欄位保留空白。

RegexFlags

定義旗標,這些旗標可以結合以控制如何在模式分析器和模式標記化程式中使用正則表達式。

名稱 類型 Description
CANON_EQ

string

啟用標準等價。

CASE_INSENSITIVE

string

啟用不區分大小寫的比對。

COMMENTS

string

允許模式中的空格元和批注。

DOTALL

string

啟用 dotall 模式。

LITERAL

string

啟用模式的常值剖析。

MULTILINE

string

啟用多行模式。

UNICODE_CASE

string

啟用 Unicode 感知大小寫折疊。

UNIX_LINES

string

啟用 Unix 行模式。

ScoringFunctionAggregation

定義匯總函式,用來結合評分配置檔中所有評分函式的結果。

名稱 類型 Description
average

string

依所有評分函式結果的平均值提升分數。

firstMatching

string

使用評分配置檔中第一個適用的評分函式來提升分數。

maximum

string

將所有評分函式結果的最大值提升分數。

minimum

string

將所有評分函式結果的最小值提升分數。

sum

string

依所有評分函式結果的總和來提升分數。

ScoringFunctionInterpolation

定義用來在一系列檔中插補分數提升的函式。

名稱 類型 Description
constant

string

以常數因素提升分數。

linear

string

以線性遞減的數量提升分數。 這是評分函式的預設插補。

logarithmic

string

藉由減少對數的數量提升分數。 針對較高的分數快速提升,且分數降低時速度較慢。 標記計分函數中不允許此插補選項。

quadratic

string

以四次減少的數量提升分數。 針對較高的分數,提升速度會變慢,而且分數降低時更快。 標記計分函數中不允許此插補選項。

ScoringProfile

定義影響搜尋查詢評分之搜尋索引的參數。

名稱 類型 Description
functionAggregation

ScoringFunctionAggregation

值,指出應該如何結合個別評分函式的結果。 預設為 「Sum」。 如果沒有評分函式,則會忽略。

functions ScoringFunction[]:

影響檔評分的函式集合。

name

string

評分配置檔的名稱。

text

TextWeights

根據特定索引欄位中文字相符專案提升評分的參數。

SearchError

描述 API 的錯誤狀況。

名稱 類型 Description
code

string

其中一組伺服器定義的錯誤碼。

details

SearchError[]

導致此錯誤之特定錯誤的詳細數據陣列。

message

string

人類可讀取的錯誤表示法。

SearchField

代表索引定義中的欄位,描述欄位的名稱、數據類型和搜尋行為。

名稱 類型 Description
analyzer

LexicalAnalyzerName

要用於欄位的分析器名稱。 此選項只可以搭配可搜尋的欄位使用,而無法與 searchAnalyzer 或 indexAnalyzer 一起設定。 選擇分析器之後,就無法針對此欄位進行變更。 複雜欄位必須是 Null。

dimensions

integer

向量欄位的維度。

facetable

boolean

值,指出是否要在Facet查詢中參考欄位。 通常用於搜尋結果的呈現中,包括依類別排序的點擊計數 (例如,搜尋數字相機,並查看依品牌叫用、依百萬像素、價格等) 。 複雜欄位的這個屬性必須是 Null。 Edm.GeographyPoint 或集合類型的字段 (Edm.GeographyPoint) 不可多面向。 所有其他簡單欄位的預設值為 true。

fields

SearchField[]

如果這是類型為 Edm.ComplexType 或 Collection (Edm.ComplexType) 的欄位,則為子字段的清單。 簡單欄位必須是 Null 或空白。

filterable

boolean

值,指出是否要在$filter查詢中參考欄位。 filterable 與可搜尋的字串處理方式不同。 Edm.String 或 Collection 類型的欄位 (可篩選的 Edm.String) 不會進行斷字,因此比較僅適用於完全相符專案。 例如,如果您將這類字段 f 設定為 “ny day”,$filter=f eq 'ny' 找不到相符專案,但$filter=f eq 'ny day' 會。 複雜欄位的這個屬性必須是 Null。 針對簡單欄位,預設值為 true,複雜欄位則為 null。

indexAnalyzer

LexicalAnalyzerName

用於欄位索引時間的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 searchAnalyzer 一起設定,而且不能與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 選擇分析器之後,就無法針對此欄位進行變更。 複雜欄位必須是 Null。

key

boolean

值,指出欄位是否可唯一識別索引中的檔。 每個索引中的最上層字段都必須選擇為索引鍵欄位,而且必須是Edm.String類型。 索引鍵欄位可用來直接查閱檔,並更新或刪除特定檔。 簡單欄位的預設值為 false,複雜欄位則為 null。

name

string

功能變數名稱,在索引或父字段的 fields 集合中必須是唯一的。

retrievable

boolean

值,指出是否可以在搜尋結果中傳回欄位。 如果您想要使用欄位 (,例如,邊界) 做為篩選、排序或評分機制,但不想讓使用者看到字段,則可以停用此選項。 對於索引鍵欄位,此屬性必須是 true,複雜字段必須為 Null。 這個屬性可以在現有的欄位上變更。 啟用此屬性不會造成索引記憶體需求增加。 針對簡單欄位,預設值為 true,複雜欄位則為 null。

searchAnalyzer

LexicalAnalyzerName

用於搜尋欄位的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 indexAnalyzer 一起設定,而且不能與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用分析器屬性。 此分析器可在現有欄位上更新。 複雜欄位必須是 Null。

searchable

boolean

值,指出欄位是否為全文搜索。 這表示它將在索引設定期間執行像是斷字的分析。 如果您為可搜尋的欄位設定像是「sunny day」的值,則系統會在內部將它分割為「sunny」和「day」這兩個個別的語彙基元。 這樣就能針對這些字詞進行全文檢索搜尋。 默認可搜尋類型為Edm.String或集合 (Edm.String) 的欄位。 對於其他非字串數據類型的簡單欄位,此屬性必須為 false,而且複雜欄位必須為 Null。 注意:可搜尋的欄位會耗用索引中的額外空間,以容納全文搜索的其他標記化域值版本。 如果您想要在索引中節省空間,而且不需要在搜尋中包含字段,請將 [可搜尋] 設定為 false。

sortable

boolean

值,指出是否要在$orderby運算式中參考字段。 根據預設,搜尋引擎會依分數排序結果,但在許多體驗中,使用者會想要依檔中的欄位排序。 只有在單一值 (父檔範圍內的單一值時,才能排序簡單字段) 。 簡單集合欄位無法排序,因為它們是多重值。 複雜集合的簡單子欄位也是多重值,因此無法排序。 不論是直接父欄位或上階字段,都是複雜的集合,都是如此。 複雜欄位無法排序,而且這類欄位的可排序屬性必須為 Null。 可排序的預設值為 true,針對單一值簡單欄位、針對多重值簡單欄位為 false,而複雜欄位則為 null。

synonymMaps

string[]

要與此欄位建立關聯的同義字名稱清單。 此選項只能與可搜尋的欄位搭配使用。 目前每個欄位只支援一個同義字對應。 將同義字對應指派給字段,可確保以該欄位為目標的查詢詞彙會在查詢時間使用同義字對應中的規則來展開。 這個屬性可以在現有的欄位上變更。 複雜欄位必須是 Null 或空白集合。

type

SearchFieldDataType

欄位的數據類型。

vectorSearchProfile

string

向量搜尋配置檔的名稱,指定搜尋向量字段時要使用的演算法。

SearchFieldDataType

定義搜尋索引中欄位的數據類型。

名稱 類型 Description
Edm.Boolean

string

表示欄位包含布爾值, (true 或 false) 。

Edm.ComplexType

string

表示欄位包含一或多個複雜物件,而該物件又具有其他類型的子字段。

Edm.DateTimeOffset

string

表示欄位包含日期/時間值,包括時區資訊。

Edm.Double

string

表示欄位包含 IEEE 雙精確度浮點數。

Edm.GeographyPoint

string

表示欄位包含經度和緯度的地理位置。

Edm.Int32

string

表示欄位包含32位帶正負號的整數。

Edm.Int64

string

表示欄位包含 64 位帶正負號的整數。

Edm.Single

string

表示欄位包含單精度浮點數。 這只有在搭配集合 (Edm.Single) 使用時才有效。

Edm.String

string

表示欄位包含字串。

SearchIndex

表示搜尋索引定義,描述索引的欄位和搜尋行為。

名稱 類型 Description
@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字元篩選。

corsOptions

CorsOptions

控制索引的跨原始來源資源分享 (CORS) 的選項。

defaultScoringProfile

string

如果在查詢中未指定評分配置檔,則為要使用的評分配置檔名稱。 如果未設定此屬性,而且查詢中未指定任何評分配置檔,則會使用預設評分 (tf-idf) 。

encryptionKey

SearchResourceEncryptionKey

您在 Azure 金鑰保存庫 中建立的加密金鑰描述。 當您想要完整保證,即使 Microsoft 也無法解密您的數據時,此密鑰可用來為您的資料提供額外的待用加密層級。 加密數據之後,它一律會保持加密狀態。 搜尋服務會忽略將此屬性設定為 Null 的嘗試。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的數據不會受到影響。 使用客戶管理的金鑰加密不適用於免費搜尋服務,而且僅適用於在 2019 年 1 月 1 日或之後建立的付費服務。

fields

SearchField[]

索引的欄位。

name

string

索引的名稱。

scoringProfiles

ScoringProfile[]

索引的評分配置檔。

semantic

SemanticSettings

定義影響語意功能的搜尋索引參數。

similarity Similarity:

評分和排名符合搜尋查詢的檔時,要使用的相似度演算法類型。 相似度演算法只能在建立索引時定義,而且無法在現有索引上修改。 如果為 null,則會使用 ClassicSimilarity 演算法。

suggesters

Suggester[]

索引的建議工具。

tokenFilters TokenFilter[]:

索引的令牌篩選。

tokenizers LexicalTokenizer[]:

索引的Tokenizer。

vectorSearch

VectorSearch

包含與向量搜尋相關的組態選項。

SearchResourceEncryptionKey

Azure 金鑰保存庫 中客戶管理的加密密鑰。 您建立和管理的金鑰可用來加密或解密搜尋服務上的待用數據,例如索引和同義字對應。

名稱 類型 Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

用來存取 Azure 金鑰保存庫 的選擇性 Azure Active Directory 認證。 若改用受控識別,則不需要。

keyVaultKeyName

string

用來加密待用數據的 Azure 金鑰保存庫 金鑰名稱。

keyVaultKeyVersion

string

要用來加密待用數據的 Azure 金鑰保存庫 金鑰版本。

keyVaultUri

string

Azure 金鑰保存庫 的 URI 也稱為 DNS 名稱,其中包含用來加密待用數據的密鑰。 範例 URI 可能是 https://my-keyvault-name.vault.azure.net

SemanticConfiguration

定義要用於語意功能內容的特定組態。

名稱 類型 Description
name

string

語意設定的名稱。

prioritizedFields

PrioritizedFields

描述要用於語意排名、標題、醒目提示和答案的標題、內容和關鍵詞欄位。 必須設定至少三個子屬性的其中一個 (titleField、優先順序的KeywordsFields 和 prioritizedContentFields) 。

SemanticField

做為語意組態一部分的欄位。

名稱 類型 Description
fieldName

string

SemanticSettings

定義影響語意功能的搜尋索引參數。

名稱 類型 Description
configurations

SemanticConfiguration[]

索引的語意設定。

defaultConfiguration

string

可讓您在索引中設定預設語意組態的名稱,使其選擇性地每次傳遞為查詢參數。

ShingleTokenFilter

將語彙基元的組合建立為單一語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

指定令牌篩選類型的 URI 片段。

filterToken

string

_

要針對沒有標記的每個位置插入的字串。 默認值為底線 (“_”) 。

maxShingleSize

integer

2

最大閃爍大小。 預設值和最小值為 2。

minShingleSize

integer

2

最小閃爍大小。 預設值和最小值為 2。 必須小於 maxShingleSize的值。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

outputUnigrams

boolean

True

值,指出輸出數據流是否將包含 (unigram) 以及 shingles 的輸入標記。 預設值為 true。

outputUnigramsIfNoShingles

boolean

False

值,指出當沒有隨機顯示可用時,是否要針對那些時間輸出 Unigram。 當 outputUnigrams 設定為 false 時,這個屬性會優先使用。 預設值為 false。

tokenSeparator

string

將相鄰標記聯結以形成閃爍時要使用的字串。 預設值為單一空格 (“) 。

SnowballTokenFilter

使用 Snowball 產生的字幹分析器進行字幹分析的篩選。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

指定令牌篩選類型的 URI 片段。

language

SnowballTokenFilterLanguage

要使用的語言。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

SnowballTokenFilterLanguage

用於 Snowball 令牌篩選的語言。

名稱 類型 Description
armenian

string

選取亞美尼亞文的 Lucene Snowball 字幹分析令牌化程式。

basque

string

選取 Basque 的 Lucene Snowball 字幹分析令牌化程式。

catalan

string

選取卡達尼亞文的 Lucene Snowball 字幹分析令牌化程式。

danish

string

選取丹麥文的 Lucene Snowball 字幹分析令牌化程式。

dutch

string

選取荷蘭文的 Lucene Snowball 字幹分析令牌化程式。

english

string

選取適用於英文的 Lucene Snowball 字幹分析令牌化程式。

finnish

string

選取芬蘭文的 Lucene Snowball 字幹分析令牌化程式。

french

string

選取法文的 Lucene Snowball 字幹分析 Tokenizer。

german

string

選取德文的 Lucene Snowball 字幹分析令牌化程式。

german2

string

選取使用德文變體演算法的 Lucene Snowball 字幹分析令牌化程式。

hungarian

string

為匈牙利文選取 Lucene Snowball 字幹分析標記工具。

italian

string

選取義大利文的 Lucene Snowball 字幹分析令牌化程式。

kp

string

針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene Snowball 字幹分析令牌化程式。

lovins

string

針對使用 Lovins 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析 Tokenizer。

norwegian

string

選取挪威文的 Lucene Snowball 字幹分析令牌化程式。

porter

string

針對使用 Porter 字幹分析演算法的英文,選取 Lucene Snowball 字幹分析 Tokenizer。

portuguese

string

選取葡萄牙文的 Lucene Snowball 字幹分析令牌化程式。

romanian

string

選取羅馬尼亞文的 Lucene Snowball 字幹分析令牌化程式。

russian

string

選取俄文的 Lucene Snowball 字幹分析令牌化程式。

spanish

string

選取西班牙文的 Lucene Snowball 字幹分析令牌化程式。

swedish

string

選取瑞典文的 Lucene Snowball 字幹分析令牌化程式。

turkish

string

選取土耳其文的 Lucene Snowball 字幹分析令牌化程式。

StemmerOverrideTokenFilter

提供使用自定義字典型字幹分析覆寫其他字幹篩選的功能。 任何字典詞幹字詞都會標示為關鍵詞,使其不會以詞幹分析器向下鏈結。 必須放在任何詞幹分析篩選器之前。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

rules

string[]

下列格式的字幹規則清單:「word => stem」。,例如:「ran => run」。。

StemmerTokenFilter

語言特定的詞幹篩選條件。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

指定令牌篩選類型的 URI 片段。

language

StemmerTokenFilterLanguage

要使用的語言。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

StemmerTokenFilterLanguage

要用於字幹分析器令牌篩選的語言。

名稱 類型 Description
arabic

string

選取阿拉伯文的 Lucene 字幹分析 Tokenizer。

armenian

string

選取亞美尼亞文的 Lucene 字幹分析令牌化程式。

basque

string

選取 Basque 的 Lucene 字幹分析 Tokenizer。

brazilian

string

選取葡萄牙文 (巴西) 的 Lucene 字幹分析令牌化程式。

bulgarian

string

為保加利亞文選取 Lucene 字幹分析令牌化程式。

catalan

string

選取卡達尼亞文的 Lucene 字幹分析令牌化程式。

czech

string

選取適用於捷克文的 Lucene 字幹分析令牌化程式。

danish

string

選取丹麥文的 Lucene 字幹分析令牌化程式。

dutch

string

選取荷蘭文的 Lucene 字幹分析 Tokenizer。

dutchKp

string

針對使用 Kraaij-Pohlmann 字幹分析演算法的荷蘭文,選取 Lucene 字幹分析令牌化程式。

english

string

選取英文的 Lucene 字幹分析令牌化程式。

finnish

string

選取芬蘭文的 Lucene 字幹分析 Tokenizer。

french

string

選取法文的 Lucene 字幹分析 Tokenizer。

galician

string

選取 Galician 的 Lucene 字幹分析令牌化程式。

german

string

選取德文的 Lucene 字幹分析 Tokenizer。

german2

string

選取使用德文變異演算法的 Lucene 字幹分析令牌化程式。

greek

string

選取希臘文的 Lucene 字幹分析令牌化程式。

hindi

string

選取印度文的 Lucene 字幹分析令牌化程式。

hungarian

string

選取匈牙利文的 Lucene 字幹分析令牌化程式。

indonesian

string

選取印尼文的 Lucene 字幹分析令牌化程式。

irish

string

為愛爾蘭選取 Lucene 字幹分析令牌化程式。

italian

string

選取義大利文的 Lucene 字幹分析 Tokenizer。

latvian

string

選取適用於拉脫維亞文的 Lucene 字幹分析令牌化程式。

lightEnglish

string

針對執行淺色字幹分析的英文,選取 Lucene 字幹分析標記化程式。

lightFinnish

string

為芬蘭文選取執行光幹分析的 Lucene 字幹分析令牌化工具。

lightFrench

string

針對執行淺色字幹分析的法文,選取 Lucene 字幹分析令牌化工具。

lightGerman

string

針對德文選取 Lucene 字幹分析令牌化程式,以執行淺色字幹分析。

lightHungarian

string

針對進行淺色字幹分析的匈牙利文,選取 Lucene 字幹分析標記化程式。

lightItalian

string

針對義大利文,選取執行淺色字幹分析的 Lucene 字幹分析令牌化程式。

lightNorwegian

string

選取挪威文 (Bokmål) 的 Lucene 字幹分析令牌化程式。

lightNynorsk

string

針對挪威文 (Nynorsk) 選取 Lucene 字幹分析令牌化程式。

lightPortuguese

string

針對執行光幹分析的葡萄牙文,選取 Lucene 字幹分析令牌化程式。

lightRussian

string

針對執行光幹分析的俄文,選取 Lucene 字幹分析令牌化工具。

lightSpanish

string

針對執行光幹分析的西班牙文,選取 Lucene 字幹分析 Tokenizer。

lightSwedish

string

針對執行淺色字幹分析的瑞典文,選取 Lucene 字幹分析令牌化程式。

lovins

string

針對使用 Lovins 字幹分析演算法的英文,選取 Lucene 字幹分析 Tokenizer。

minimalEnglish

string

針對執行最少字幹分析的英文,選取 Lucene 字幹分析 Tokenizer。

minimalFrench

string

針對執行最小字幹分析的法文,選取 Lucene 字幹分析 Tokenizer。

minimalGalician

string

針對執行最小字幹分析的 Galician,選取 Lucene 字幹分析令牌化程式。

minimalGerman

string

針對德文選取 Lucene 字幹分析令牌化程式,其會執行最少的字幹分析。

minimalNorwegian

string

針對挪威文 (Bokmål) 選取 Lucene 字幹分析令牌化程式,以執行最少的字幹分析。

minimalNynorsk

string

針對挪威文 (Nynorsk) 選取 Lucene 字幹分析令牌化程式,以執行最少的字幹分析。

minimalPortuguese

string

針對執行最少字幹分析的葡萄牙文,選取 Lucene 字幹分析令牌化程式。

norwegian

string

選取挪威文 (Bokmål) 的 Lucene 字幹分析令牌化程式。

porter2

string

針對使用 Porter2 字幹分析演算法的英文選取 Lucene 字幹分析 Tokenizer。

portuguese

string

選取葡萄牙文的 Lucene 字幹分析令牌化程式。

portugueseRslp

string

針對使用 RSLP 字幹分析演算法的葡萄牙文,選取 Lucene 字幹分析令牌化程式。

possessiveEnglish

string

針對英文選取 Lucene 字幹分析令牌化程式,以從單字中移除尾端擁有者。

romanian

string

選取羅馬尼亞文的 Lucene 字幹分析令牌化程式。

russian

string

選取俄文的 Lucene 字幹分析 Tokenizer。

sorani

string

選取 Sorani 的 Lucene 字幹分析 Tokenizer。

spanish

string

選取西班牙文的 Lucene 字幹分析令牌化程式。

swedish

string

選取瑞典文的 Lucene 字幹分析令牌化程式。

turkish

string

選取土耳其文的 Lucene 字幹分析令牌化程式。

StopAnalyzer

將文字除以非字母;套用小寫和停用字詞標記篩選。 此分析器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

指定分析器類型的 URI 片段。

name

string

分析器的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

stopwords

string[]

停用字詞清單。

StopwordsList

識別預先定義的語言特定停用字詞清單。

名稱 類型 Description
arabic

string

選取阿拉伯文的停用字詞清單。

armenian

string

選取亞美尼亞文的停用字詞清單。

basque

string

選取 Basque 的停用字詞清單。

brazilian

string

選取葡萄牙文 (巴西) 的停用字詞清單。

bulgarian

string

選取保加利亞文的停用字詞清單。

catalan

string

選取卡達尼亞文的停用字詞清單。

czech

string

選取捷克文的停用字詞清單。

danish

string

選取丹麥文的停用字詞清單。

dutch

string

選取荷蘭文的停用字詞清單。

english

string

選取英文的停用字詞清單。

finnish

string

選取芬蘭文的停用字詞清單。

french

string

選取法文的停用字詞清單。

galician

string

選取 Galician 的停用字詞清單。

german

string

選取德文的停用字詞清單。

greek

string

選取希臘文的停用字詞清單。

hindi

string

選取印度文的停用字詞清單。

hungarian

string

選取匈牙利文的停用字詞清單。

indonesian

string

選取印尼文的停用字詞清單。

irish

string

選取愛爾蘭的停用字詞清單。

italian

string

選取義大利文的停用字詞清單。

latvian

string

選取拉脫維亞文的停用字詞清單。

norwegian

string

選取挪威文的停用字詞清單。

persian

string

選取多國文的停用字詞清單。

portuguese

string

選取葡萄牙文的停用字詞清單。

romanian

string

選取羅馬尼亞文的停用字詞清單。

russian

string

選取俄文的停用字詞清單。

sorani

string

選取 Sorani 的停用字詞清單。

spanish

string

選取西班牙文的停用字詞清單。

swedish

string

選取瑞典文的停用字詞清單。

thai

string

選取泰文的停用字詞清單。

turkish

string

選取土耳其文的停用字詞清單。

StopwordsTokenFilter

從語彙基元資料流移除停用字詞。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

指定令牌篩選類型的 URI 片段。

ignoreCase

boolean

False

值,指出是否忽略大小寫。 如果為 true,則會先將所有字組轉換成小寫。 預設值為 false。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

removeTrailing

boolean

True

值,指出是否要忽略最後一個搜尋字詞是否為停用字詞。 預設值為 true。

stopwords

string[]

停用字詞清單。 無法同時設定此屬性和停用字詞清單屬性。

stopwordsList

StopwordsList

english

要使用的停用字詞預先定義清單。 無法同時設定此屬性和停用字詞屬性。 預設值為英文。

Suggester

定義建議 API 如何套用至索引中的欄位群組。

名稱 類型 Description
name

string

建議工具的名稱。

searchMode

SuggesterSearchMode

值,指出建議工具的功能。

sourceFields

string[]

建議工具要套用的域名清單。 每個欄位都必須可供搜尋。

SuggesterSearchMode

值,指出建議工具的功能。

名稱 類型 Description
analyzingInfixMatching

string

比對欄位中連續的整個字詞和前置詞。 例如,針對欄位 'The fastest brown fox',查詢 'fast' 和 'fastest brow' 都會相符。

SynonymTokenFilter

比對令牌數據流中的單一或多字同義字。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

指定令牌篩選類型的 URI 片段。

expand

boolean

True

值,指出如果未使用 => 表示法, (同義字清單中的所有單字,) 對應至彼此。 如果為 true,則同義字清單中的所有單字 (如果未使用 => 表示法,) 對應至彼此。 下列清單:令人讚歎、不可置信、令人讚歎的、令人讚歎的,相當於:令人讚歎、不具信力、驚歎=> 令人讚歎、無法理解、令人讚歎。 如果為 false,則下列清單:令人讚歎、不可理解、令人讚歎、令人讚歎的相當於:令人讚歎、不可理解、驚歎=> 令人讚歎。 預設值為 true。

ignoreCase

boolean

False

值,指出是否要進行比對的案例折疊輸入。 預設值為 false。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

synonyms

string[]

下列兩種格式之一的同義字清單:1。 unbelievable、一般 => 令人讚歎 - => 符號左邊的所有字詞都會取代為其右側的所有字詞;2. unbelievable、 unbelievable、 amazing - 逗號分隔的對等單字清單。 設定 expand 選項來變更此清單的解譯方式。

TagScoringFunction

定義函式,此函式會使用符合指定標籤清單的字串值來提升檔的分數。

名稱 類型 Description
boost

number

原始分數的乘數。 必須是正數不等於1.0。

fieldName

string

做為評分函式輸入的功能變數名稱。

interpolation

ScoringFunctionInterpolation

值,指出如何跨檔分數插補提升;預設為 “Linear”。

tag

TagScoringParameters

標記評分函式的參數值。

type string:

tag

指出要使用的函數類型。 有效值包括量級、有效性、距離和標記。 函式類型必須是小寫。

TagScoringParameters

提供標記評分函式的參數值。

名稱 類型 Description
tagsParameter

string

在搜尋查詢中傳遞的參數名稱,指定要與目標字段比較的標籤清單。

TextWeights

定義在搜尋查詢中應該提升評分的索引欄位權數。

名稱 類型 Description
weights

object

每個欄位權數的字典,可提升檔評分。 索引鍵是功能變數名稱,而值是每個欄位的權數。

TokenCharacterKind

表示令牌篩選可以運作的字元類別。

名稱 類型 Description
digit

string

將數位保留在令牌中。

letter

string

將字母保留在令牌中。

punctuation

string

將標點符號保留在令牌中。

symbol

string

將符號保留在令牌中。

whitespace

string

在令牌中保留空格符。

TokenFilterName

定義搜尋引擎所支援之所有令牌篩選的名稱。

名稱 類型 Description
apostrophe

string

去除單引號 (包括單引號本身) 之後的所有字元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

arabic_normalization

string

套用阿拉伯文標準化程式的語彙基元篩選器,用來標準化正字法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

asciifolding

string

如果這類對等專案存在,則會將前 127 個 ASCII 字元中的字母、數位和符號 Unicode 字元, (“Basic Latin” Unicode 區塊) 轉換成其 ASCII 對等專案。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

string

形成從標準Tokenizer產生的CJK詞彙 bigrams。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

string

標準化 CJK 寬度的差異。 將 fullwidth ASCII 變體折迭成對等的基本拉丁文,並將半角片假名變體折迭成對等的假名。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

string

拿掉英文擁有者,以及縮略字中的點。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

string

在編製索引時,建構常用字詞的雙字母組。 仍會編製單個字詞的索引,並與雙字母組重疊。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

string

從輸入標記的前端或背面開始,產生指定大小的 n-gram (s) 。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

string

移除元音省略。 例如,“l'avion” (平面) 將會轉換成 “avion” (平面) 。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

string

根據德文2 雪球演算法的啟發學習法,將德文字符正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

string

標準化印度文字,以移除拼字變化的一些差異。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

string

標準化印度語文字的 Unicode 表示法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

string

發出每個傳入令牌兩次,一次作為關鍵詞,一次作為非關鍵詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

string

適用於英文的高效能 kstem 篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

string

移除太長或太短的文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

string

限制編製索引時的語彙基元數目。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

string

將語彙基元文字標準化為小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm

nGram_v2

string

產生指定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

string

對波斯文套用標準化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

string

建立語音相符項目的語彙基元。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

string

使用 Porter 字幹分析演算法來轉換令牌數據流。 請參閱 http://tartarus.org/~martin/PorterStemmer

reverse

string

反轉語彙基元字串。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_folding

string

折疊斯堪的納維亞字元,åÅäæÄÆ->a 及 öÖøØ->o。 其也可以區分雙母音 aa、ae、ao、oe 和 oo 的使用,並且只保留第一個。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

scandinavian_normalization

string

標準化可交換的斯堪的納維亞字元用法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

shingle

string

將語彙基元的組合建立為單一語彙基元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

string

使用 Snowball 產生的字幹分析器進行字幹分析的篩選。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

string

標準化索拉尼 (Sorani) 文字的 Unicode 表示法。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

string

語言特定的詞幹篩選條件。 請參閱 https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

string

從語彙基元資料流移除停用字詞。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

string

修剪語彙基元的開頭及結尾空白字元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

string

將字詞截斷為特定長度。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

string

篩選出與前一個語彙基元使用相同文字的語彙基元。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

string

將語彙基元文字標準化為大寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

string

將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。

TruncateTokenFilter

將字詞截斷為特定長度。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

指定令牌篩選類型的 URI 片段。

length

integer

300

將截斷字詞的長度。 預設值和最大值為 300。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

UaxUrlEmailTokenizer

將 URL 和電子郵件 Token 化為一個語彙基元。 此 Tokenizer 是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

指定 Tokenizer 類型的 URI 片段。

maxTokenLength

integer

255

令牌長度上限。 預設值為 255。 超過長度上限的權杖會進行分割。 可使用的令牌長度上限為 300 個字元。

name

string

Tokenizer 的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

UniqueTokenFilter

篩選出與前一個語彙基元使用相同文字的語彙基元。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

指定令牌篩選類型的 URI 片段。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

onlyOnSamePosition

boolean

False

值,指出是否只移除相同位置的重複專案。 預設值為 false。

VectorSearch

包含與向量搜尋相關的組態選項。

名稱 類型 Description
algorithms VectorSearchAlgorithmConfiguration[]:

包含索引編製或查詢期間所使用演算法的特定組態選項。

profiles

VectorSearchProfile[]

定義要與向量搜尋搭配使用的組態組合。

VectorSearchAlgorithmKind

用於編製索引和查詢的演算法。

名稱 類型 Description
exhaustiveKnn

string

將執行暴力密碼破解搜尋的詳盡 KNN 演算法。

hnsw

string

HNSW (階層式導覽小型世界) ,這是近似近鄰演算法的類型。

VectorSearchAlgorithmMetric

用於向量比較的相似度計量。

名稱 類型 Description
cosine

string

dotProduct

string

euclidean

string

VectorSearchProfile

定義要與向量搜尋搭配使用的組態組合。

名稱 類型 Description
algorithm

string

指定演算法和選擇性參數的向量搜尋演算法組態名稱。

name

string

要與這個特定向量搜尋配置檔建立關聯的名稱。

WordDelimiterTokenFilter

將字組分割成部分字組,並對部分字組群組執行選擇性的轉換。 此令牌篩選器是使用 Apache Lucene 來實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

指定令牌篩選類型的 URI 片段。

catenateAll

boolean

False

值,指出是否要停用所有子字詞部分。 例如,如果此值設定為 true,“Azure-Search-1” 會變成 “AzureSearch1”。 預設值為 false。

catenateNumbers

boolean

False

值,指出是否要減少數目部分的最大執行次數。 例如,如果此值設定為 true,“1-2” 會變成 “12”。 預設值為 false。

catenateWords

boolean

False

值,指出字組部分的運行時間上限是否會被貓化。 例如,如果此值設定為 true,“Azure-Search” 會變成 “AzureSearch”。 預設值為 false。

generateNumberParts

boolean

True

值,指出是否要產生數位子字詞。 預設值為 true。

generateWordParts

boolean

True

值,指出是否要產生部分字組。 如果設定,會導致產生部分字組;例如,“AzureSearch” 會變成 “Azure” “Search”。 預設值為 true。

name

string

令牌篩選的名稱。 名稱必須包含字母、數字、空格、虛線或底線,同時開頭必須是英數字元,而且不得超過 128 個字元。

preserveOriginal

boolean

False

值,指出是否要保留原始字組並新增至子字詞清單。 預設值為 false。

protectedWords

string[]

要防止分隔的令牌清單。

splitOnCaseChange

boolean

True

值,指出是否要在caseChange上分割單字。 例如,如果此值設定為 true,“AzureSearch” 會變成 “Azure” “Search”。 預設值為 true。

splitOnNumerics

boolean

True

值,指出是否要分割數位。 例如,如果此值設定為 true,“Azure1Search” 會變成 “Azure” “1” “Search”。 預設值為 true。

stemEnglishPossessive

boolean

True

值,指出是否要移除每個子字詞的尾端 「s」。。 預設值為 true。