共用方式為


Indexes - Create Or Update

建立新的搜尋索引,或更新索引 (如果已存在)。

PUT {endpoint}/indexes('{indexName}')?api-version=2025-09-01
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2025-09-01

URI 參數

名稱 位於 必要 類型 Description
endpoint
path True

string

搜尋服務的端點 URL。

indexName
path True

string

要建立或更新的索引定義。

api-version
query True

string

用戶端 API 版本。

allowIndexDowntime
query

boolean

允許將索引離線至少幾秒鐘,將新的分析器、標記器、權杖篩選器或字元篩選器新增至索引。 這暫時會導致索引和查詢請求失敗。 索引的效能及寫入可用性可能會在索引更新之後數分鐘受損,或對於非常大的索引,可能會更長時間。

要求標頭

名稱 必要 類型 Description
x-ms-client-request-id

string (uuid)

隨請求一起傳送的追蹤 ID,以協助偵錯。

If-Match

string

定義 If-Match 條件。 只有在伺服器上的 ETag 符合此值時,才會執行作業。

If-None-Match

string

定義 If-None-Match 條件。 只有在伺服器上的 ETag 不符合此值時,才會執行作業。

Prefer True

string

針對 HTTP PUT 要求,指示服務在成功時傳回建立/更新的資源。

要求本文

名稱 必要 類型 Description
fields True

SearchField[]

索引的欄位。

name True

string

索引的名稱。

@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字元篩選器。

corsOptions

CorsOptions

控制索引跨來源資源共用 (CORS) 的選項。

defaultScoringProfile

string

如果查詢中未指定任何項目,則要使用的評分設定檔名稱。 如果未設定此內容,且未在查詢中指定評分設定檔,則會使用預設評分 (tf-idf)。

description

string

索引的描述。

encryptionKey

SearchResourceEncryptionKey

您在 Azure 金鑰保存庫中建立的加密金鑰描述。 當您想要完全保證沒有人 (甚至 Microsoft) 無法解密您的數據時,此金鑰可用來為您的數據提供額外的待用加密層級。 加密資料後,資料將始終保持加密狀態。 搜尋服務會忽略嘗試將此屬性設定為 Null。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的資料不會受到影響。 使用客戶管理的金鑰進行加密不適用於免費搜尋服務,且僅適用於 2019 年 1 月 1 日或之後建立的付費服務。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的正規化器。

scoringProfiles

ScoringProfile[]

索引的評分設定檔。

semantic

SemanticSettings

定義影響語意功能的搜尋索引參數。

similarity Similarity:

對符合搜尋查詢的文件進行評分和排名時要使用的相似性演算法類型。 相似性演算法只能在索引建立時定義,無法在現有索引上修改。 如果為 Null,則會使用 ClassicSimilarity 演算法。

suggesters

Suggester[]

索引的建議。

tokenFilters TokenFilter[]:

索引的權杖篩選。

tokenizers LexicalTokenizer[]:

索引的標記器。

vectorSearch

VectorSearch

包含與向量搜尋相關的組態選項。

回應

名稱 類型 Description
200 OK

SearchIndex

201 Created

SearchIndex

Other Status Codes

ErrorResponse

錯誤回應。

範例

SearchServiceCreateOrUpdateIndex

範例要求

PUT https://stableexampleservice.search.windows.net/indexes('temp-stable-test')?allowIndexDowntime=&api-version=2025-09-01





{
  "name": "temp-stable-test",
  "description": "description",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "key": true,
      "sortable": true
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 20,
      "vectorSearchProfile": "config1"
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 5,
      "vectorSearchProfile": "config3"
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "retrievable": true,
      "searchable": true,
      "dimensions": 10,
      "vectorSearchProfile": "config2"
    },
    {
      "name": "name",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    },
    {
      "name": "description",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "standard.lucene"
    },
    {
      "name": "category",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene",
      "normalizer": "standard"
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "retrievable": true,
      "searchable": true,
      "filterable": true,
      "sortable": true,
      "facetable": true,
      "analyzer": "en.lucene"
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "tag": {
            "tagsParameter": "categoryTag"
          },
          "type": "tag",
          "fieldName": "category",
          "boost": 2
        }
      ]
    }
  ],
  "defaultScoringProfile": "stringFieldBoost",
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer"
    }
  ],
  "tokenizers": [
    {
      "maxTokenLength": 100,
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer"
    }
  ],
  "tokenFilters": [
    {
      "preserveOriginal": false,
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter"
    }
  ],
  "charFilters": [
    {
      "mappings": [
        ".=>,",
        "_=>-"
      ],
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping"
    }
  ],
  "normalizers": [
    {
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ],
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer"
    }
  ],
  "similarity": {
    "k1": 10,
    "b": 0.1,
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity"
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        },
        "rankingOrder": "BoostedRerankerScore"
      }
    ]
  },
  "vectorSearch": {
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "algorithms": [
      {
        "hnswParameters": {
          "metric": "cosine"
        },
        "name": "cosine",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "euclidean"
        },
        "name": "euclidean",
        "kind": "hnsw"
      },
      {
        "hnswParameters": {
          "metric": "dotProduct"
        },
        "name": "dotProduct",
        "kind": "hnsw"
      }
    ],
    "vectorizers": [
      {
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com/",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        },
        "name": "openai",
        "kind": "azureOpenAI"
      },
      {
        "customWebApiParameters": {
          "uri": "https://my-custom-endpoint.org/",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "httpMethod": "POST",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        },
        "name": "custom-web-api",
        "kind": "customWebApi"
      }
    ],
    "compressions": [
      {
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2
      }
    ]
  },
  "@odata.etag": "0x1234568AE7E58A1"
}

範例回覆

{
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}
{
  "name": "temp-stable-test",
  "description": "description",
  "defaultScoringProfile": "stringFieldBoost",
  "fields": [
    {
      "name": "id",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": true,
      "synonymMaps": []
    },
    {
      "name": "vector1",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 20,
      "vectorSearchProfile": "config1",
      "synonymMaps": []
    },
    {
      "name": "vector1b",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "vector2",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector3",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 5,
      "vectorSearchProfile": "config3",
      "synonymMaps": []
    },
    {
      "name": "vector22",
      "type": "Collection(Edm.Single)",
      "searchable": true,
      "filterable": false,
      "retrievable": true,
      "stored": true,
      "sortable": false,
      "facetable": false,
      "key": false,
      "dimensions": 10,
      "vectorSearchProfile": "config2",
      "synonymMaps": []
    },
    {
      "name": "name",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    },
    {
      "name": "description",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "standard.lucene",
      "synonymMaps": []
    },
    {
      "name": "category",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "normalizer": "standard",
      "synonymMaps": []
    },
    {
      "name": "ownerId",
      "type": "Edm.String",
      "searchable": true,
      "filterable": true,
      "retrievable": true,
      "stored": true,
      "sortable": true,
      "facetable": true,
      "key": false,
      "analyzer": "en.lucene",
      "synonymMaps": []
    }
  ],
  "scoringProfiles": [
    {
      "name": "stringFieldBoost",
      "functionAggregation": "sum",
      "text": {
        "weights": {
          "name": 3,
          "description": 1,
          "category": 2,
          "ownerId": 1
        }
      },
      "functions": [
        {
          "fieldName": "category",
          "interpolation": "linear",
          "type": "tag",
          "boost": 2,
          "tag": {
            "tagsParameter": "categoryTag"
          }
        }
      ]
    }
  ],
  "corsOptions": {
    "allowedOrigins": [
      "https://www.example.com/foo"
    ],
    "maxAgeInSeconds": 10
  },
  "suggesters": [
    {
      "name": "sg",
      "searchMode": "analyzingInfixMatching",
      "sourceFields": [
        "category",
        "ownerId"
      ]
    }
  ],
  "analyzers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
      "name": "tagsAnalyzer",
      "tokenizer": "standard_v2",
      "tokenFilters": [
        "common_grams"
      ],
      "charFilters": [
        "html_strip"
      ]
    }
  ],
  "normalizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.CustomNormalizer",
      "name": "tagsNormalizer",
      "tokenFilters": [
        "asciifolding"
      ],
      "charFilters": [
        "my_mapping"
      ]
    }
  ],
  "tokenizers": [
    {
      "@odata.type": "#Microsoft.Azure.Search.StandardTokenizerV2",
      "name": "my_tokenizer",
      "maxTokenLength": 100
    }
  ],
  "tokenFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.AsciiFoldingTokenFilter",
      "name": "my_tokenFilter",
      "preserveOriginal": false
    }
  ],
  "charFilters": [
    {
      "@odata.type": "#Microsoft.Azure.Search.MappingCharFilter",
      "name": "my_mapping",
      "mappings": [
        ".=>,",
        "_=>-"
      ]
    }
  ],
  "similarity": {
    "@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
    "k1": 10,
    "b": 0.1
  },
  "semantic": {
    "defaultConfiguration": "testconfig",
    "configurations": [
      {
        "name": "testconfig",
        "rankingOrder": "BoostedRerankerScore",
        "prioritizedFields": {
          "titleField": {
            "fieldName": "category"
          },
          "prioritizedContentFields": [
            {
              "fieldName": "description"
            }
          ],
          "prioritizedKeywordsFields": [
            {
              "fieldName": "ownerId"
            }
          ]
        }
      }
    ]
  },
  "vectorSearch": {
    "algorithms": [
      {
        "name": "cosine",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "cosine",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "euclidean",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "euclidean",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      },
      {
        "name": "dotProduct",
        "kind": "hnsw",
        "hnswParameters": {
          "metric": "dotProduct",
          "m": 4,
          "efConstruction": 400,
          "efSearch": 500
        }
      }
    ],
    "profiles": [
      {
        "name": "config1",
        "algorithm": "cosine",
        "vectorizer": "openai",
        "compression": "mySQ8"
      },
      {
        "name": "config2",
        "algorithm": "euclidean",
        "vectorizer": "custom-web-api",
        "compression": "mySQ8"
      },
      {
        "name": "config3",
        "algorithm": "dotProduct",
        "vectorizer": "custom-web-api",
        "compression": "myBQC"
      }
    ],
    "vectorizers": [
      {
        "name": "openai",
        "kind": "azureOpenAI",
        "azureOpenAIParameters": {
          "resourceUri": "https://test-sample.openai.azure.com",
          "deploymentId": "model",
          "apiKey": "api-key",
          "modelName": "text-embedding-3-large"
        }
      },
      {
        "name": "custom-web-api",
        "kind": "customWebApi",
        "customWebApiParameters": {
          "httpMethod": "POST",
          "uri": "https://my-custom-endpoint.org/",
          "timeout": "PT1M",
          "authResourceId": "api://f89d1c93-58a7-4b07-9a5b-5f89048b927b",
          "httpHeaders": {
            "header1": "value1",
            "header2": "value2"
          },
          "authIdentity": {
            "@odata.type": "#Microsoft.Azure.Search.DataNoneIdentity"
          }
        }
      }
    ],
    "compressions": [
      {
        "name": "mySQ8",
        "kind": "scalarQuantization",
        "truncationDimension": 2,
        "scalarQuantizationParameters": {
          "quantizedDataType": "int8"
        },
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      },
      {
        "name": "myBQC",
        "kind": "binaryQuantization",
        "truncationDimension": 2,
        "rescoringOptions": {
          "enableRescoring": true,
          "defaultOversampling": 4,
          "rescoreStorageMethod": "preserveOriginals"
        }
      }
    ]
  }
}

定義

名稱 Description
AsciiFoldingTokenFilter

將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 此權杖篩選器是使用 Apache Lucene 實作的。

AzureActiveDirectoryApplicationCredentials

針對搜尋服務建立之已註冊應用程式認證,用於對儲存在 Azure 金鑰保存庫中的加密金鑰進行驗證存取。

AzureOpenAIEmbeddingSkill

可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。

AzureOpenAIModelName

將呼叫的 Azure Open AI 模型名稱。

AzureOpenAIParameters

指定連線到 Azure OpenAI 資源的參數。

AzureOpenAIVectorizer

指定用來向量化查詢字串的 Azure OpenAI 資源。

BinaryQuantizationVectorSearchCompressionConfiguration

包含索引和查詢期間所使用的二進位量化壓縮方法特有的組態選項。

BM25Similarity

基於Okapi BM25相似度演算法的排名函數。 BM25 是一種類似 TF-IDF 的演算法,包括長度歸一化 (由 'b' 參數控制) 以及項頻率飽和度 (由 'k1' 參數控制)。

CharFilterName

定義搜尋引擎支援的所有字元篩選器的名稱。

CjkBigramTokenFilter

形成從標準標記器產生的 CJK 術語的二元組。 此權杖篩選器是使用 Apache Lucene 實作的。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的腳本。

ClassicSimilarity

使用 TF-IDF 的 Lucene TFIDFSimilarity 實現的遺留相似性算法。 這種 TF-IDF 變體引入了靜態文檔長度正規化,以及懲罰僅部分匹配搜索查詢的文件的協調因素。

ClassicTokenizer

基於語法的分詞器,適用於處理大多數歐洲語言文檔。 此分詞器是使用 Apache Lucene 實作的。

CommonGramTokenFilter

在索引時為經常出現的術語建構二元組。 單個術語也仍然被索引,二元組疊加。 此權杖篩選器是使用 Apache Lucene 實作的。

CorsOptions

定義控制索引跨來源資源共用 (CORS) 的選項。

CustomAnalyzer

允許您控制將文本轉換為可索引/可搜索標記的過程。 它是使用者定義的設定,由單一預先定義的標記器和一或多個篩選器組成。 分詞器負責將文本分成標記,過濾器用於修改分詞器發出的標記。

CustomNormalizer

可讓您設定可篩選、可排序和可多面向欄位的正規化,這些欄位預設會以嚴格比對的方式運作。 這是使用者定義的配置,由至少一或多個過濾器組成,這些過濾器會修改儲存的記號。

DictionaryDecompounderTokenFilter

分解許多日耳曼語言中的複合詞。 此權杖篩選器是使用 Apache Lucene 實作的。

DistanceScoringFunction

定義一個函數,根據與地理位置的距離提高分數。

DistanceScoringParameters

提供距離評分函數的參數值。

EdgeNGramTokenFilter

從輸入記號的正面或背面開始產生給定大小的 n 克。 此權杖篩選器是使用 Apache Lucene 實作的。

EdgeNGramTokenFilterSide

指定應從輸入的哪一側產生 n-gram。

EdgeNGramTokenFilterV2

從輸入記號的正面或背面開始產生給定大小的 n 克。 此權杖篩選器是使用 Apache Lucene 實作的。

EdgeNGramTokenizer

將來自邊緣的輸入標記化為給定大小的 n-gram。 此分詞器是使用 Apache Lucene 實作的。

ElisionTokenFilter

刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 此權杖篩選器是使用 Apache Lucene 實作的。

ErrorAdditionalInfo

資源管理錯誤其他資訊。

ErrorDetail

錯誤詳細數據。

ErrorResponse

錯誤回應

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含查詢期間使用的詳盡 KNN 演算法特定的組態選項,該演算法將在整個向量索引中執行暴力搜尋。

FreshnessScoringFunction

定義一個函數,根據日期時間欄位的值來提升分數。

FreshnessScoringParameters

提供鮮度評分函數的參數值。

HnswParameters

包含 HNSW 演算法特定的參數。

HnswVectorSearchAlgorithmConfiguration

包含索引和查詢期間使用的 HNSW 近似最近鄰演算法特有的組態選項。 HNSW 演算法在搜尋速度和準確性之間提供了可調整的權衡。

InputFieldMappingEntry

技能的輸入欄位對應。

KeepTokenFilter

權杖篩選器,僅保留指定單字清單中包含文字的權杖。 此權杖篩選器是使用 Apache Lucene 實作的。

KeywordMarkerTokenFilter

將術語標記為關鍵字。 此權杖篩選器是使用 Apache Lucene 實作的。

KeywordTokenizer

將整個輸入作為單一記號發出。 此分詞器是使用 Apache Lucene 實作的。

KeywordTokenizerV2

將整個輸入作為單一記號發出。 此分詞器是使用 Apache Lucene 實作的。

LengthTokenFilter

刪除太長或太短的單字。 此權杖篩選器是使用 Apache Lucene 實作的。

LexicalAnalyzerName

定義搜尋引擎支援的所有文字分析器的名稱。

LexicalNormalizerName

定義搜尋引擎支援的所有文字正規化程式的名稱。

LexicalTokenizerName

定義搜尋引擎支援的所有標記器的名稱。

LimitTokenFilter

限制索引時的權杖數目。 此權杖篩選器是使用 Apache Lucene 實作的。

LuceneStandardAnalyzer

標準 Apache Lucene 分析器;由標準分詞器、小寫過濾器和停止過濾器組成。

LuceneStandardTokenizer

按照 Unicode 文字分割規則中斷文字。 此分詞器是使用 Apache Lucene 實作的。

LuceneStandardTokenizerV2

按照 Unicode 文字分割規則中斷文字。 此分詞器是使用 Apache Lucene 實作的。

MagnitudeScoringFunction

定義一個函數,根據數值欄位的大小來提升分數。

MagnitudeScoringParameters

提供大小評分函數的參數值。

MappingCharFilter

套用使用 mappings 選項定義的對應的字元過濾器。 匹配是貪婪的(在給定點上最長的模式匹配獲勝)。 允許取代為空字串。 此字元篩選器是使用 Apache Lucene 實作。

MicrosoftLanguageStemmingTokenizer

使用特定語言的規則分割文字,並將單字簡化為基本形式。

MicrosoftLanguageTokenizer

使用語言特定的規則來分割文字。

MicrosoftStemmingTokenizerLanguage

列出 Microsoft 語言詞幹標記器所支援的語言。

MicrosoftTokenizerLanguage

列出 Microsoft 語言權杖建立器所支援的語言。

NGramTokenFilter

產生給定大小的 n-gram。 此權杖篩選器是使用 Apache Lucene 實作的。

NGramTokenFilterV2

產生給定大小的 n-gram。 此權杖篩選器是使用 Apache Lucene 實作的。

NGramTokenizer

將輸入標記為給定大小的 n-gram。 此分詞器是使用 Apache Lucene 實作的。

OutputFieldMappingEntry

技能的輸出欄位對應。

PathHierarchyTokenizerV2

路徑式階層的分詞器。 此分詞器是使用 Apache Lucene 實作的。

PatternAnalyzer

透過正則表達式模式靈活地將文字分隔為術語。 此分析器是使用 Apache Lucene 實作。

PatternCaptureTokenFilter

使用 Java 規則運算式發出多個記號 - 一個或多個模式中的每個擷取群組一個。 此權杖篩選器是使用 Apache Lucene 實作的。

PatternReplaceCharFilter

取代輸入字串中字元的字元篩選器。 它使用正則表達式來識別要保留的字符序列,並使用替換模式來識別要替換的字符。 例如,給定輸入文字「aa bb aa bb」、模式「(aa)\s+(bb)」和替換「$1#$2」,結果將是「aa#bb aa#bb」。 此字元篩選器是使用 Apache Lucene 實作。

PatternReplaceTokenFilter

取代輸入字串中字元的字元篩選器。 它使用正則表達式來識別要保留的字符序列,並使用替換模式來識別要替換的字符。 例如,給定輸入文字「aa bb aa bb」、模式「(aa)\s+(bb)」和替換「$1#$2」,結果將是「aa#bb aa#bb」。 此權杖篩選器是使用 Apache Lucene 實作的。

PatternTokenizer

使用正則表達式模式比對來建構不同權杖的標記器。 此分詞器是使用 Apache Lucene 實作的。

PhoneticEncoder

識別要與 PhoneticTokenFilter 搭配使用的語音編碼器類型。

PhoneticTokenFilter

為語音匹配創建令牌。 此權杖篩選器是使用 Apache Lucene 實作的。

PrioritizedFields

描述要用於語意排名、標題、重點和答案的標題、內容和關鍵字欄位。

RankingOrder

代表用於文件排序順序的分數。

RegexFlags

定義可組合的旗標,以控制在型樣分析器和型樣記號器中使用正規表示式的方式。

RescoringOptions

包含重新評分的選項。

ScalarQuantizationParameters

包含純量量化特有的參數。

ScalarQuantizationVectorSearchCompressionConfiguration

包含索引和查詢期間所使用的純量量化壓縮方法特有的組態選項。

ScoringFunctionAggregation

定義用來合併評分設定檔中所有評分函數結果的彙總函數。

ScoringFunctionInterpolation

定義用來在一系列文件中插補分數提升的函數。

ScoringProfile

定義影響搜尋查詢評分的搜尋索引參數。

SearchField

代表索引定義中的欄位,描述欄位的名稱、資料類型及搜尋行為。

SearchFieldDataType

定義搜尋索引中欄位的資料類型。

SearchIndex

代表搜尋索引定義,描述索引的欄位和搜尋行為。

SearchIndexerDataNoneIdentity

清除資料來源的身分識別屬性。

SearchIndexerDataUserAssignedIdentity

指定要使用的資料來源身分識別。

SearchResourceEncryptionKey

Azure Key Vault 中的客戶管理加密金鑰。 您建立和管理的金鑰可用來加密或解密靜態資料,例如索引和同義字對映。

SemanticConfiguration

定義要在語意功能內容中使用的特定組態。

SemanticField

用作語意配置一部分的欄位。

SemanticSettings

定義影響語意功能的搜尋索引參數。

ShingleTokenFilter

將權杖組合建立為單一權杖。 此權杖篩選器是使用 Apache Lucene 實作的。

SnowballTokenFilter

使用 Snowball 產生的詞幹分析器對單字進行字幹的篩選器。 此權杖篩選器是使用 Apache Lucene 實作的。

SnowballTokenFilterLanguage

要用於 Snowball 權杖篩選器的語言。

StemmerOverrideTokenFilter

提供使用自訂字典型詞幹取代其他詞幹篩選器的功能。 任何字典詞幹詞都將被標記為關鍵字,這樣它們就不會被鏈條下游的詞幹詞幹。 必須放置在任何詞幹過濾器之前。 此權杖篩選器是使用 Apache Lucene 實作的。

StemmerTokenFilter

特定語言詞幹篩選器。 此權杖篩選器是使用 Apache Lucene 實作的。

StemmerTokenFilterLanguage

用於詞幹計算器權杖篩選器的語言。

StopAnalyzer

將文字分割為非字母;套用小寫和停用字詞記號篩選器。 此分析器是使用 Apache Lucene 實作。

StopwordsList

識別語言特定停用字詞的預先定義清單。

StopwordsTokenFilter

從權杖串流中移除停用字。 此權杖篩選器是使用 Apache Lucene 實作的。

Suggester

定義建議 API 應如何套用至索引中的一組欄位。

SuggesterSearchMode

指出建議者功能的值。

SynonymTokenFilter

比對權杖串流中的單一或多字同義字。 此權杖篩選器是使用 Apache Lucene 實作的。

TagScoringFunction

定義一個函數,用於提升字串值符合給定標籤清單的文件分數。

TagScoringParameters

提供參數值給標籤評分函數。

TextWeights

定義索引欄位的權重,其相符項目應提高搜尋查詢的評分。

TokenCharacterKind

代表權杖過濾器可以操作的字元類別。

TokenFilterName

定義搜尋引擎支援的所有權杖篩選器的名稱。

TruncateTokenFilter

將項截斷為特定長度。 此權杖篩選器是使用 Apache Lucene 實作的。

UaxUrlEmailTokenizer

將 URL 和電子郵件標記為一個標記。 此分詞器是使用 Apache Lucene 實作的。

UniqueTokenFilter

篩選出與前一個權杖具有相同文字的權杖。 此權杖篩選器是使用 Apache Lucene 實作的。

VectorEncodingFormat

解譯向量欄位內容的編碼格式。

VectorSearch

包含與向量搜尋相關的組態選項。

VectorSearchAlgorithmKind

用於索引和查詢的演算法。

VectorSearchAlgorithmMetric

用於向量比較的相似性指標。 建議選擇與內嵌模型訓練時相同的相似度指標。

VectorSearchCompressionKind

用於索引和查詢的壓縮方法。

VectorSearchCompressionRescoreStorageMethod

用於重新評分和內部索引操作的原始全精度向量的儲存方法。

VectorSearchCompressionTargetDataType

壓縮向量值的量化資料類型。

VectorSearchProfile

定義要與向量搜尋搭配使用的組態組合。

VectorSearchVectorizerKind

查詢期間要使用的向量化方法。

WebApiParameters

指定連接至使用者定義向量化程式的屬性。

WebApiVectorizer

指定使用者定義的向量化器,以產生查詢字串的向量內嵌。 外部向量化器的整合是使用技能組的自訂 Web API 介面來達成。

WordDelimiterTokenFilter

將單字分割成子字,並對子單字群組執行可選的轉換。 此權杖篩選器是使用 Apache Lucene 實作的。

AsciiFoldingTokenFilter

將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

指定權杖篩選類型的 URI 片段。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

preserveOriginal

boolean

False

指示是否保留原始權杖的值。 預設值為 false。

AzureActiveDirectoryApplicationCredentials

針對搜尋服務建立之已註冊應用程式認證,用於對儲存在 Azure 金鑰保存庫中的加密金鑰進行驗證存取。

名稱 類型 Description
applicationId

string

已授與 Azure 金鑰保存庫所需存取權限的 AAD 應用程式識別碼,可在加密待用資料時使用。 應用程式識別碼不應與 AAD 應用程式的物件識別碼混淆。

applicationSecret

string

指定 AAD 應用程式的驗證金鑰。

AzureOpenAIEmbeddingSkill

可讓您使用 Azure OpenAI 資源為指定的文字輸入產生向量內嵌。

名稱 類型 Description
@odata.type string:

#Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill

指定技能類型的 URI 片段。

apiKey

string

指定 Azure OpenAI 資源的 API 金鑰。

authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。

context

string

代表作業發生的層級,例如文件根目錄或文件內容 (例如,/document 或 /document/content)。 預設值為 /document。

deploymentId

string

指定資源上 Azure OpenAI 模型部署的識別碼。

description

string

技能的描述,描述技能的輸入、輸出和使用方式。

dimensions

integer (int32)

產生的輸出內嵌應具有的維度數目。 僅在 text-embedding-3 和更新版本中支援。

inputs

InputFieldMappingEntry[]

技能的輸入可以是來源資料集中的資料行,也可以是上游技能的輸出。

modelName

AzureOpenAIModelName

部署在提供的 deploymentId 路徑上的內嵌模型名稱。

name

string

在技能集中唯一識別技能的技能名稱。 未定義名稱的技能將在技能陣列中獲得其從 1 開始的索引的預設名稱,並以字元「#」為前綴。

outputs

OutputFieldMappingEntry[]

技能的輸出是搜尋索引中的欄位,或可作為另一個技能輸入使用的值。

resourceUri

string (uri)

Azure OpenAI 資源的資源 URI。

AzureOpenAIModelName

將呼叫的 Azure Open AI 模型名稱。

Description
text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small

AzureOpenAIParameters

指定連線到 Azure OpenAI 資源的參數。

名稱 類型 Description
apiKey

string

指定 Azure OpenAI 資源的 API 金鑰。

authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。

deploymentId

string

指定資源上 Azure OpenAI 模型部署的識別碼。

modelName

AzureOpenAIModelName

部署在提供的 deploymentId 路徑上的內嵌模型名稱。

resourceUri

string (uri)

Azure OpenAI 資源的資源 URI。

AzureOpenAIVectorizer

指定用來向量化查詢字串的 Azure OpenAI 資源。

名稱 類型 Description
azureOpenAIParameters AzureOpenAIParameters:

AzureOpenAIEmbeddingSkill

包含 Azure OpenAI 內嵌向量化的特定參數。

kind string:

azureOpenAI

要設定為與向量搜尋搭配使用的向量化方法類型的名稱。

name

string

要與此特定向量化方法相關聯的名稱。

BinaryQuantizationVectorSearchCompressionConfiguration

包含索引和查詢期間所使用的二進位量化壓縮方法特有的組態選項。

名稱 類型 Description
kind string:

binaryQuantization

設定為與向量搜尋搭配使用的壓縮方法類型的名稱。

name

string

要與此特定組態相關聯的名稱。

rescoringOptions

RescoringOptions

包含重新評分的選項。

truncationDimension

integer (int32)

要截斷向量的維度數。 截斷向量可減少向量的大小,以及搜尋期間需要傳輸的資料量。 這可以節省儲存成本並提高搜尋效能,但代價是召回率。 它只能用於使用套娃表示學習 (MRL) 訓練的嵌入,例如 OpenAI text-embedding-3-large (small)。 預設值為 null,表示沒有截斷。

BM25Similarity

基於Okapi BM25相似度演算法的排名函數。 BM25 是一種類似 TF-IDF 的演算法,包括長度歸一化 (由 'b' 參數控制) 以及項頻率飽和度 (由 'k1' 參數控制)。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number (double)

此屬性會控制文件長度如何影響相關性分數。 依預設,會使用值 0.75。 值 0.0 表示不套用長度正規化,而值 1.0 表示分數已完全依文件長度正規化。

k1

number (double)

此屬性控制每個相符字詞的字詞頻率與文件查詢配對的最終相關性分數之間的縮放函數。 依預設,會使用值 1.2。 值 0.0 表示分數不會隨著術語頻率的增加而縮放。

CharFilterName

定義搜尋引擎支援的所有字元篩選器的名稱。

Description
html_strip

嘗試去除 HTML 建構的字元篩選器。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html

CjkBigramTokenFilter

形成從標準標記器產生的 CJK 術語的二元組。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

指定權杖篩選類型的 URI 片段。

ignoreScripts

CjkBigramTokenFilterScripts[]

要忽略的腳本。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

outputUnigrams

boolean

False

一個值,指出是否要同時輸出單元組和二元組 (如果為真),或只輸出二元組 (如果為假)。 預設值為 false。

CjkBigramTokenFilterScripts

CjkBigramTokenFilter 可以忽略的腳本。

Description
han

在形成中日韓術語的二元組時忽略漢文字。

hiragana

在形成 CJK 術語的二元組時忽略平假名腳本。

katakana

在形成 CJK 術語的二元組時忽略片假名腳本。

hangul

在形成 CJK 術語的二元組時忽略韓文文字。

ClassicSimilarity

使用 TF-IDF 的 Lucene TFIDFSimilarity 實現的遺留相似性算法。 這種 TF-IDF 變體引入了靜態文檔長度正規化,以及懲罰僅部分匹配搜索查詢的文件的協調因素。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

基於語法的分詞器,適用於處理大多數歐洲語言文檔。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

指定分詞器類型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
255

權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

CommonGramTokenFilter

在索引時為經常出現的術語建構二元組。 單個術語也仍然被索引,二元組疊加。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

指定權杖篩選類型的 URI 片段。

commonWords

string[]

常用詞集。

ignoreCase

boolean

False

指出常用單字比對是否不區分大小寫的值。 預設值為 false。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

queryMode

boolean

False

指出權杖篩選器是否處於查詢模式的值。 在查詢模式中時,權杖篩選會產生二元組,然後移除常用單字和單一字詞,後面接著一個通用單字。 預設值為 false。

CorsOptions

定義控制索引跨來源資源共用 (CORS) 的選項。

名稱 類型 Description
allowedOrigins

string[]

JavaScript 程式碼將從中獲得索引存取權的來源清單。 可以包含 {protocol}://{fully-qualified-domain-name}[:{port#}] 形式的主機清單,或單一 '*' 以允許所有來源 (不建議)。

maxAgeInSeconds

integer (int64)

瀏覽器應快取 CORS 預檢回應的持續時間。 預設為 5 分鐘。

CustomAnalyzer

允許您控制將文本轉換為可索引/可搜索標記的過程。 它是使用者定義的設定,由單一預先定義的標記器和一或多個篩選器組成。 分詞器負責將文本分成標記,過濾器用於修改分詞器發出的標記。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

指定分析器類型的 URI 片段。

charFilters

CharFilterName[]

在分詞器處理輸入文字之前,用來準備輸入文字的字元篩選器清單。 例如,它們可以替換某些字元或符號。 過濾器會依其列出的順序執行。

name

string

分析器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

tokenFilters

TokenFilterName[]

權杖篩選器清單,用來篩選或修改權杖化器所產生的權杖。 例如,您可以指定將所有字元轉換為小寫的小寫篩選器。 過濾器會依其列出的順序執行。

tokenizer

LexicalTokenizerName

用來將連續文字分割成一系列標記的標記器的名稱,例如將句子分成單字。

CustomNormalizer

可讓您設定可篩選、可排序和可多面向欄位的正規化,這些欄位預設會以嚴格比對的方式運作。 這是使用者定義的配置,由至少一或多個過濾器組成,這些過濾器會修改儲存的記號。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.CustomNormalizer

指定正規化程式類型的 URI 片段。

charFilters

CharFilterName[]

用於在處理輸入文字之前準備輸入文字的字元篩選器清單。 例如,它們可以替換某些字元或符號。 過濾器會依其列出的順序執行。

name

string

正規化工具的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。 它不能以 '.microsoft' 或 '.lucene' 結尾,也不能命名為 'asciifolding'、'standard'、'lowercase'、'uppercase' 或 'elision'。

tokenFilters

TokenFilterName[]

用來篩選或修改輸入權杖的權杖篩選器清單。 例如,您可以指定將所有字元轉換為小寫的小寫篩選器。 過濾器會依其列出的順序執行。

DictionaryDecompounderTokenFilter

分解許多日耳曼語言中的複合詞。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

指定權杖篩選類型的 URI 片段。

maxSubwordSize

integer (int32)

maximum: 300
15

子字大小上限。 只會輸出短於此的子字。 預設值為 15。 最大值為 300。

minSubwordSize

integer (int32)

maximum: 300
2

子字大小下限。 只輸出比此長度長的子字。 預設值為 2。 最大值為 300。

minWordSize

integer (int32)

maximum: 300
5

最小字數大小。 只有比這更長的單詞才會被處理。 預設值為 5。 最大值為 300。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

onlyLongestMatch

boolean

False

一個值,指出是否只將最長的相符子字新增至輸出。 預設值為 false。

wordList

string[]

要比對的單字清單。

DistanceScoringFunction

定義一個函數,根據與地理位置的距離提高分數。

名稱 類型 Description
boost

number (double)

原始分數的乘數。 必須是不等於 1.0 的正數。

distance

DistanceScoringParameters

距離評分函數的參數值。

fieldName

string

用作評分函數輸入的欄位名稱。

interpolation

ScoringFunctionInterpolation

一個值,指出如何在文件分數之間插值提升;預設為「線性」。

type string:

distance

指出要使用的函數類型。 有效值包括大小、新鮮度、距離和標籤。 函數類型必須是小寫。

DistanceScoringParameters

提供距離評分函數的參數值。

名稱 類型 Description
boostingDistance

number (double)

與提升範圍結束的參考位置的距離(以公里為單位)。

referencePointParameter

string

在搜尋查詢中傳遞的參數名稱,以指定參考位置。

EdgeNGramTokenFilter

從輸入記號的正面或背面開始產生給定大小的 n 克。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

指定權杖篩選類型的 URI 片段。

maxGram

integer (int32)

2

n-gram 長度上限。 預設值為 2。

minGram

integer (int32)

1

最小 n-gram 長度。 預設 為 1。 必須小於 maxGram 的值。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

side

EdgeNGramTokenFilterSide

front

指定應從輸入的哪一端產生 n-gram。 預設值為「front」。

EdgeNGramTokenFilterSide

指定應從輸入的哪一側產生 n-gram。

Description
front

指定應該從輸入的前面產生 n-gram。

back

指定應該從輸入的背面產生 n-gram。

EdgeNGramTokenFilterV2

從輸入記號的正面或背面開始產生給定大小的 n 克。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

指定權杖篩選類型的 URI 片段。

maxGram

integer (int32)

maximum: 300
2

n-gram 長度上限。 預設值為 2。 最大值為 300。

minGram

integer (int32)

maximum: 300
1

最小 n-gram 長度。 預設 為 1。 最大值為 300。 必須小於 maxGram 的值。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

side

EdgeNGramTokenFilterSide

front

指定應從輸入的哪一端產生 n-gram。 預設值為「front」。

EdgeNGramTokenizer

將來自邊緣的輸入標記化為給定大小的 n-gram。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

指定分詞器類型的 URI 片段。

maxGram

integer (int32)

maximum: 300
2

n-gram 長度上限。 預設值為 2。 最大值為 300。

minGram

integer (int32)

maximum: 300
1

最小 n-gram 長度。 預設 為 1。 最大值為 300。 必須小於 maxGram 的值。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字元類別。

ElisionTokenFilter

刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

指定權杖篩選類型的 URI 片段。

articles

string[]

要移除的文章集。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

ErrorAdditionalInfo

資源管理錯誤其他資訊。

名稱 類型 Description
info

object

其他資訊。

type

string

其他信息類型。

ErrorDetail

錯誤詳細數據。

名稱 類型 Description
additionalInfo

ErrorAdditionalInfo[]

錯誤其他資訊。

code

string

錯誤碼。

details

ErrorDetail[]

錯誤詳細數據。

message

string

錯誤訊息。

target

string

錯誤目標。

ErrorResponse

錯誤回應

名稱 類型 Description
error

ErrorDetail

error 物件。

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

名稱 類型 Description
metric

VectorSearchAlgorithmMetric

用於向量比較的相似性指標。

ExhaustiveKnnVectorSearchAlgorithmConfiguration

包含查詢期間使用的詳盡 KNN 演算法特定的組態選項,該演算法將在整個向量索引中執行暴力搜尋。

名稱 類型 Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

包含詳盡 KNN 演算法特有的參數。

kind string:

exhaustiveKnn

設定為與向量搜尋搭配使用的演算法類型的名稱。

name

string

要與此特定組態相關聯的名稱。

FreshnessScoringFunction

定義一個函數,根據日期時間欄位的值來提升分數。

名稱 類型 Description
boost

number (double)

原始分數的乘數。 必須是不等於 1.0 的正數。

fieldName

string

用作評分函數輸入的欄位名稱。

freshness

FreshnessScoringParameters

新鮮度評分函數的參數值。

interpolation

ScoringFunctionInterpolation

一個值,指出如何在文件分數之間插值提升;預設為「線性」。

type string:

freshness

指出要使用的函數類型。 有效值包括大小、新鮮度、距離和標籤。 函數類型必須是小寫。

FreshnessScoringParameters

提供鮮度評分函數的參數值。

名稱 類型 Description
boostingDuration

string (duration)

特定文件的加強推廣將停止的到期期間。

HnswParameters

包含 HNSW 演算法特定的參數。

名稱 類型 預設值 Description
efConstruction

integer (int32)

minimum: 100
maximum: 1000
400

包含最近鄰居的動態清單大小,在索引時間期間使用。 增加此參數可能會改善索引品質,但代價是索引時間增加。 在某個時刻,增加該參數會導致收益遞減。

efSearch

integer (int32)

minimum: 100
maximum: 1000
500

包含最近鄰接項的動態清單大小,在搜尋期間使用。 增加此參數可能會改善搜尋結果,但會降低搜尋速度。 在某個時刻,增加該參數會導致收益遞減。

m

integer (int32)

minimum: 4
maximum: 10
4

在建構期間為每個新元素建立的雙向連結數目。 增加此參數值可能會改善召回率,並減少具有高內在維度的資料集的擷取時間,但代價是記憶體耗用量增加和索引時間延長。

metric

VectorSearchAlgorithmMetric

用於向量比較的相似性指標。

HnswVectorSearchAlgorithmConfiguration

包含索引和查詢期間使用的 HNSW 近似最近鄰演算法特有的組態選項。 HNSW 演算法在搜尋速度和準確性之間提供了可調整的權衡。

名稱 類型 Description
hnswParameters

HnswParameters

包含 HNSW 演算法特有的參數。

kind string:

hnsw

設定為與向量搜尋搭配使用的演算法類型的名稱。

name

string

要與此特定組態相關聯的名稱。

InputFieldMappingEntry

技能的輸入欄位對應。

名稱 類型 Description
inputs

InputFieldMappingEntry[]

建立複雜類型時使用的遞迴輸入。

name

string

輸入的名稱。

source

string

輸入的來源。

sourceContext

string

用於選取遞迴輸入的來源內容。

KeepTokenFilter

權杖篩選器,僅保留指定單字清單中包含文字的權杖。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

指定權杖篩選類型的 URI 片段。

keepWords

string[]

要保留的單字清單。

keepWordsCase

boolean

False

指出是否先將所有單字小寫的值。 預設值為 false。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

KeywordMarkerTokenFilter

將術語標記為關鍵字。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

指定權杖篩選類型的 URI 片段。

ignoreCase

boolean

False

指出是否忽略大小文字的值。 如果為true,則所有單字都會先轉換為小寫。 預設值為 false。

keywords

string[]

要標示為關鍵字的單字清單。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

KeywordTokenizer

將整個輸入作為單一記號發出。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

指定分詞器類型的 URI 片段。

bufferSize

integer (int32)

256

讀取緩衝區大小 (以位元組為單位)。 預設值為 256。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

KeywordTokenizerV2

將整個輸入作為單一記號發出。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

指定分詞器類型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
256

權杖長度上限。 預設值為 256。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

LengthTokenFilter

刪除太長或太短的單字。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

指定權杖篩選類型的 URI 片段。

max

integer (int32)

maximum: 300
300

字元長度上限。 預設值和最大值為 300。

min

integer (int32)

maximum: 300
0

字元長度下限。 預設值為 0。 最大值為 300。 必須小於 max 的值。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

LexicalAnalyzerName

定義搜尋引擎支援的所有文字分析器的名稱。

Description
ar.microsoft

適用於阿拉伯文的 Microsoft 分析器。

ar.lucene

阿拉伯語的 Lucene 分析儀。

hy.lucene

亞美尼亞語的 Lucene 分析儀。

bn.microsoft

適用於孟加拉語的 Microsoft 分析器。

eu.lucene

巴斯克語的 Lucene 分析儀。

bg.microsoft

保加利亞文的 Microsoft 分析器。

bg.lucene

保加利亞語的 Lucene 分析儀。

ca.microsoft

適用於加泰隆尼亞語的 Microsoft 分析器。

ca.lucene

加泰羅尼亞語的 Lucene 分析儀。

zh-Hans.microsoft

中文版 Microsoft 分析器 (簡體)。

zh-Hans.lucene

Lucene 中文分析儀(簡體)。

zh-Hant.microsoft

中文 (繁體) 的 Microsoft 分析器。

zh-Hant.lucene

Lucene 中文分析儀(繁體)。

hr.microsoft

克羅埃西亞語的 Microsoft 分析器。

cs.microsoft

捷克語的 Microsoft 分析器。

cs.lucene

捷克語的 Lucene 分析儀。

da.microsoft

丹麥文的 Microsoft 分析器。

da.lucene

丹麥語的 Lucene 分析儀。

nl.microsoft

荷蘭語的 Microsoft 分析器。

nl.lucene

荷蘭語的 Lucene 分析儀。

en.microsoft

英文版 Microsoft 分析器。

en.lucene

英語的 Lucene 分析儀。

et.microsoft

愛沙尼亞語的 Microsoft 分析器。

fi.microsoft

芬蘭文的 Microsoft 分析器。

fi.lucene

芬蘭語的 Lucene 分析儀。

fr.microsoft

法文的 Microsoft 分析器。

fr.lucene

法語的 Lucene 分析儀。

gl.lucene

加利西亞的 Lucene 分析儀。

de.microsoft

德文的 Microsoft 分析器。

de.lucene

德語 Lucene 分析儀。

el.microsoft

希臘語的 Microsoft 分析器。

el.lucene

希臘語的 Lucene 分析儀。

gu.microsoft

古吉拉特語的 Microsoft 分析器。

he.microsoft

希伯來語的 Microsoft 分析器。

hi.microsoft

Microsoft analyzer for Hindi.

hi.lucene

印地語的 Lucene 分析儀。

hu.microsoft

匈牙利文的 Microsoft 分析器。

hu.lucene

匈牙利語的 Lucene 分析儀。

is.microsoft

適用於冰島語的 Microsoft 分析器。

id.microsoft

印尼文 (印尼語) 的 Microsoft 分析器。

id.lucene

印尼語 Lucene 分析儀。

ga.lucene

愛爾蘭的 Lucene 分析儀。

it.microsoft

Microsoft Analyzer for Italian。

it.lucene

意大利語的 Lucene 分析儀。

ja.microsoft

日文的 Microsoft 分析器。

ja.lucene

日語 Lucene 分析儀。

kn.microsoft

適用於卡納達語的 Microsoft 分析器。

ko.microsoft

韓文的 Microsoft 分析器。

ko.lucene

韓語 Lucene 分析儀。

lv.microsoft

Microsoft Analyzer for Latvian。

lv.lucene

拉脫維亞語的 Lucene 分析儀。

lt.microsoft

適用於立陶宛文的 Microsoft 分析器。

ml.microsoft

適用於馬拉雅拉姆語的 Microsoft 分析器。

ms.microsoft

適用於馬來文的 Microsoft 分析器 (拉丁文)。

mr.microsoft

適用於馬拉地語的 Microsoft 分析器。

nb.microsoft

Microsoft analyzer for Norwegian (Bokmål).

no.lucene

挪威語的 Lucene 分析儀。

fa.lucene

波斯語的 Lucene 分析儀。

pl.microsoft

適用於波蘭文的 Microsoft 分析器。

pl.lucene

用於波蘭語的 Lucene 分析儀。

pt-BR.microsoft

適用於葡萄牙語 (巴西) 的 Microsoft 分析器。

pt-BR.lucene

葡萄牙語(巴西)的 Lucene 分析儀。

pt-PT.microsoft

葡萄牙語的 Microsoft 分析器 (葡萄牙)。

pt-PT.lucene

葡萄牙語的 Lucene 分析儀(葡萄牙)。

pa.microsoft

旁遮普語的 Microsoft 分析器。

ro.microsoft

羅馬尼亞文的 Microsoft 分析器。

ro.lucene

羅馬尼亞語的 Lucene 分析儀。

ru.microsoft

俄語的 Microsoft 分析器。

ru.lucene

俄語 Lucene 分析儀。

sr-cyrillic.microsoft

Microsoft 分析器適用於塞爾維亞文 (西里爾文)。

sr-latin.microsoft

Microsoft Analyzer for Serbian (Latin)。

sk.microsoft

Microsoft analyzer for Slovak.

sl.microsoft

Microsoft analyzer for Slovenian.

es.microsoft

西班牙文的 Microsoft 分析器。

es.lucene

西班牙語的 Lucene 分析儀。

sv.microsoft

瑞典文的 Microsoft 分析器。

sv.lucene

瑞典語 Lucene 分析儀。

ta.microsoft

適用於泰米爾語的 Microsoft 分析器。

te.microsoft

適用於泰盧固語的 Microsoft 分析器。

th.microsoft

適用於泰文的 Microsoft 分析器。

th.lucene

泰語 Lucene 分析儀。

tr.microsoft

土耳其語的 Microsoft 分析器。

tr.lucene

土耳其語的 Lucene 分析儀。

uk.microsoft

烏克蘭文的 Microsoft 分析器。

ur.microsoft

烏爾都語的 Microsoft 分析器。

vi.microsoft

越南語的 Microsoft 分析器。

standard.lucene

標準 Lucene 分析儀。

standardasciifolding.lucene

標準 ASCII 折疊 Lucene 分析儀。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers

keyword

將欄位的整個內容視為單一權杖。 這對於郵遞區號、ID 和某些產品名稱等資料很有用。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html

pattern

透過正則表達式模式靈活地將文字分隔為術語。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html

simple

將非字母處的文字分割並轉換為小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html

stop

將文字分割為非字母;套用小寫和停用字詞記號篩選器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html

whitespace

使用空格標記器的分析器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html

LexicalNormalizerName

定義搜尋引擎支援的所有文字正規化程式的名稱。

Description
asciifolding

將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

elision

刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

lowercase

將權杖文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

standard

標準歸一化器,由小寫和 asciifolding 組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

uppercase

將權杖文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

LexicalTokenizerName

定義搜尋引擎支援的所有標記器的名稱。

Description
classic

基於語法的分詞器,適用於處理大多數歐洲語言文檔。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html

edgeNGram

將來自邊緣的輸入標記化為給定大小的 n-gram。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html

keyword_v2

將整個輸入作為單一記號發出。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html

letter

在非字母處分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html

lowercase

將非字母處的文字分割並轉換為小寫。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html

microsoft_language_tokenizer

使用語言特定的規則來分割文字。

microsoft_language_stemming_tokenizer

使用特定語言的規則分割文字,並將單字簡化為基本形式。

nGram

將輸入標記為給定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html

path_hierarchy_v2

路徑式階層的分詞器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html

pattern

使用正則表達式模式比對來建構不同權杖的標記器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html

standard_v2

標準Lucene分析儀;由標準分詞器、小寫過濾器和停止過濾器組成。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html

uax_url_email

將 URL 和電子郵件標記為一個標記。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html

whitespace

在空格處分割文字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

LimitTokenFilter

限制索引時的權杖數目。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

指定權杖篩選類型的 URI 片段。

consumeAllTokens

boolean

False

一個值,指出即使達到 maxTokenCount,是否也必須耗用輸入中的所有記號。 預設值為 false。

maxTokenCount

integer (int32)

1

要產生的權杖數目上限。 預設 為 1。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

LuceneStandardAnalyzer

標準 Apache Lucene 分析器;由標準分詞器、小寫過濾器和停止過濾器組成。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

指定分析器類型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
255

權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。

name

string

分析器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

stopwords

string[]

停用詞清單。

LuceneStandardTokenizer

按照 Unicode 文字分割規則中斷文字。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

指定分詞器類型的 URI 片段。

maxTokenLength

integer (int32)

255

權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

LuceneStandardTokenizerV2

按照 Unicode 文字分割規則中斷文字。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

指定分詞器類型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
255

權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

MagnitudeScoringFunction

定義一個函數,根據數值欄位的大小來提升分數。

名稱 類型 Description
boost

number (double)

原始分數的乘數。 必須是不等於 1.0 的正數。

fieldName

string

用作評分函數輸入的欄位名稱。

interpolation

ScoringFunctionInterpolation

一個值,指出如何在文件分數之間插值提升;預設為「線性」。

magnitude

MagnitudeScoringParameters

幅度評分函數的參數值。

type string:

magnitude

指出要使用的函數類型。 有效值包括大小、新鮮度、距離和標籤。 函數類型必須是小寫。

MagnitudeScoringParameters

提供大小評分函數的參數值。

名稱 類型 Description
boostingRangeEnd

number (double)

加強推廣結束的欄位值。

boostingRangeStart

number (double)

開始加強推廣的欄位值。

constantBoostBeyondRange

boolean

一個值,指出是否要對超出範圍結束值的欄位值套用常數提升;預設值為 false。

MappingCharFilter

套用使用 mappings 選項定義的對應的字元過濾器。 匹配是貪婪的(在給定點上最長的模式匹配獲勝)。 允許取代為空字串。 此字元篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

指定字元篩選類型的 URI 片段。

mappings

string[]

下列格式的對應清單:「a=>b」(字元 “a” 的所有出現都將取代為字元 “b”)。

name

string

char 過濾器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

MicrosoftLanguageStemmingTokenizer

使用特定語言的規則分割文字,並將單字簡化為基本形式。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

指定分詞器類型的 URI 片段。

isSearchTokenizer

boolean

False

指出如何使用分詞器的值。 如果用作搜尋分詞器,請設定為 true,如果用作索引分詞器,則設為 false。 預設值為 false。

language

MicrosoftStemmingTokenizerLanguage

要使用的語言。 預設值為英文。

maxTokenLength

integer (int32)

maximum: 300
255

權杖長度上限。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 超過 300 個字元的權杖會先分割成長度為 300 的權杖,然後根據設定的最大權杖長度來分割每個權杖。 預設值為 255。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

MicrosoftLanguageTokenizer

使用語言特定的規則來分割文字。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

指定分詞器類型的 URI 片段。

isSearchTokenizer

boolean

False

指出如何使用分詞器的值。 如果用作搜尋分詞器,請設定為 true,如果用作索引分詞器,則設為 false。 預設值為 false。

language

MicrosoftTokenizerLanguage

要使用的語言。 預設值為英文。

maxTokenLength

integer (int32)

maximum: 300
255

權杖長度上限。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。 超過 300 個字元的權杖會先分割成長度為 300 的權杖,然後根據設定的最大權杖長度來分割每個權杖。 預設值為 255。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

MicrosoftStemmingTokenizerLanguage

列出 Microsoft 語言詞幹標記器所支援的語言。

Description
arabic

選取阿拉伯文的 Microsoft 詞幹記號。

bangla

選取孟加拉語的 Microsoft 詞幹記號器。

bulgarian

選取保加利亞文的 Microsoft 詞幹記號。

catalan

選取 Catalan 的 Microsoft 詞幹記號。

croatian

選取克羅埃西亞文的 Microsoft 詞幹記號器。

czech

選取捷克文的 Microsoft 詞幹記號器。

danish

選取丹麥文的 Microsoft 詞幹記號。

dutch

選取荷蘭語的 Microsoft 詞幹記號化記號器。

english

選取英文的 Microsoft 詞幹記號化。

estonian

選取愛沙尼亞文的 Microsoft 詞幹記號。

finnish

選取芬蘭文的 Microsoft 詞幹記號。

french

選取法文的 Microsoft 詞幹記號產生器。

german

選取德文的 Microsoft 詞幹記號化記號器。

greek

選取希臘文的 Microsoft 詞幹記號。

gujarati

選取古吉拉特語的 Microsoft 詞幹記號建立器。

hebrew

選取希伯來文的 Microsoft 詞幹記號器。

hindi

選取印地文的 Microsoft 詞幹記號。

hungarian

選取匈牙利文的 Microsoft 詞幹記號。

icelandic

選取冰島文的 Microsoft 詞幹標記器。

indonesian

選取印尼文的 Microsoft 詞幹記號。

italian

選取義大利文的 Microsoft 詞幹記號。

kannada

選取卡納達語的 Microsoft 詞幹記號。

latvian

選取拉脫維亞文的 Microsoft 詞幹記號建立器。

lithuanian

選取立陶宛文的 Microsoft 詞幹記號化記號器。

malay

選取馬來文的 Microsoft 詞幹記號器。

malayalam

選取馬拉雅拉姆語的 Microsoft 詞幹記號化記號器。

marathi

選取馬拉地文的 Microsoft 詞幹記號。

norwegianBokmaal

選取挪威文 (Bokmål) 的 Microsoft 詞幹記號器。

polish

選取波蘭文的 Microsoft 詞幹記號。

portuguese

選取葡萄牙文的 Microsoft 詞幹記號。

portugueseBrazilian

選取葡萄牙文 (巴西) 的 Microsoft 詞幹記號化記號器。

punjabi

選取旁遮普文的 Microsoft 詞幹記號化記號器。

romanian

選取羅馬尼文的 Microsoft 詞幹記號器。

russian

選取俄文的 Microsoft 詞幹記號器。

serbianCyrillic

選取塞爾維亞文 (西里爾文) 的 Microsoft 詞幹記號器。

serbianLatin

選取塞爾維亞文 (拉丁文) 的 Microsoft 詞幹記號化記號器。

slovak

選取斯洛伐克語的 Microsoft 詞幹記號。

slovenian

選取斯洛文尼亞文的 Microsoft 詞幹記號。

spanish

選取西班牙文的 Microsoft 詞幹記號。

swedish

選取瑞典文的 Microsoft 詞幹記號。

tamil

選取泰米爾語的 Microsoft 詞幹記號。

telugu

選取泰盧固語的 Microsoft 詞幹記號產生器。

turkish

選取土耳其文的 Microsoft 詞幹記號器。

ukrainian

選取烏克蘭文的 Microsoft 詞幹記號化記號器。

urdu

選取烏爾都語的 Microsoft 詞幹記號。

MicrosoftTokenizerLanguage

列出 Microsoft 語言權杖建立器所支援的語言。

Description
bangla

選取孟加拉語的 Microsoft 權杖化器。

bulgarian

選取保加利亞文的 Microsoft 權杖化器。

catalan

選取加泰隆隆語的 Microsoft 權杖化器。

chineseSimplified

選取中文的 Microsoft 權杖化器 (簡體)。

chineseTraditional

選取中文 (繁體) 的 Microsoft 分詞器。

croatian

選取克羅埃西亞文的 Microsoft 權杖設定器。

czech

選取捷克文的 Microsoft 權杖化器。

danish

選取丹麥文的 Microsoft 權杖化器。

dutch

選取荷蘭文的 Microsoft 權杖化器。

english

選取英文的 Microsoft 權杖設定器。

french

選取法文的 Microsoft 權杖化器。

german

選取德文的 Microsoft 權杖化器。

greek

選取希臘文的 Microsoft 權杖化器。

gujarati

選取古吉拉特語的 Microsoft 權杖化器。

hindi

選取印地文的 Microsoft 權杖化器。

icelandic

選取冰島文的 Microsoft 權杖建立器。

indonesian

選取印尼文的 Microsoft 權杖設定器。

italian

選取義大利文的 Microsoft 權杖化器。

japanese

選取日文的 Microsoft 分詞器。

kannada

選取卡納達語的 Microsoft 權杖化器。

korean

選取韓文的 Microsoft 權杖化器。

malay

選取馬來文的 Microsoft 權杖建立器。

malayalam

選取馬拉雅拉姆語的 Microsoft 權杖化器。

marathi

選取馬拉地語的 Microsoft 權杖設定器。

norwegianBokmaal

選取挪威文 (Bokmål) 的 Microsoft 權杖化器。

polish

選取波蘭文的 Microsoft 權杖化器。

portuguese

選取葡萄牙文的 Microsoft 權杖化器。

portugueseBrazilian

選取葡萄牙文 (巴西) 的 Microsoft 權杖化器。

punjabi

選取旁遮普文的 Microsoft 權杖化器。

romanian

選取羅馬尼亞文的 Microsoft 權杖化器。

russian

選取俄文的 Microsoft 分詞器。

serbianCyrillic

選取塞爾維亞文 (西里爾文) 的 Microsoft 權杖化器。

serbianLatin

選取塞爾維亞文 (拉丁文) 的 Microsoft 權杖化器。

slovenian

選取斯洛文尼亞文的 Microsoft 權杖化器。

spanish

選取西班牙文的 Microsoft 權杖化器。

swedish

選取瑞典文的 Microsoft 權杖建立器。

tamil

選取泰米爾語的 Microsoft 分詞器。

telugu

選取泰盧固語的 Microsoft 權杖建立器。

thai

選取泰文的 Microsoft 權杖化器。

ukrainian

選取烏克蘭文的 Microsoft 權杖化器。

urdu

選取烏爾都語的 Microsoft 權杖化器。

vietnamese

選取越南文的 Microsoft 權杖建立器。

NGramTokenFilter

產生給定大小的 n-gram。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

指定權杖篩選類型的 URI 片段。

maxGram

integer (int32)

2

n-gram 長度上限。 預設值為 2。

minGram

integer (int32)

1

最小 n-gram 長度。 預設 為 1。 必須小於 maxGram 的值。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

NGramTokenFilterV2

產生給定大小的 n-gram。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

指定權杖篩選類型的 URI 片段。

maxGram

integer (int32)

maximum: 300
2

n-gram 長度上限。 預設值為 2。 最大值為 300。

minGram

integer (int32)

maximum: 300
1

最小 n-gram 長度。 預設 為 1。 最大值為 300。 必須小於 maxGram 的值。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

NGramTokenizer

將輸入標記為給定大小的 n-gram。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

指定分詞器類型的 URI 片段。

maxGram

integer (int32)

maximum: 300
2

n-gram 長度上限。 預設值為 2。 最大值為 300。

minGram

integer (int32)

maximum: 300
1

最小 n-gram 長度。 預設 為 1。 最大值為 300。 必須小於 maxGram 的值。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

tokenChars

TokenCharacterKind[]

要保留在令牌中的字元類別。

OutputFieldMappingEntry

技能的輸出欄位對應。

名稱 類型 Description
name

string

技能所定義的輸出名稱。

targetName

string

輸出的目標名稱。 它是選用的,預設為名稱。

PathHierarchyTokenizerV2

路徑式階層的分詞器。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

指定分詞器類型的 URI 片段。

delimiter

string (char)

/

要使用的分隔字元。 預設值為 “/”。

maxTokenLength

integer (int32)

maximum: 300
300

權杖長度上限。 預設值和最大值為 300。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

replacement

string (char)

/

如果設定,則會取代分隔字元的值。 預設值為 “/”。

reverse

boolean

False

指出是否以相反順序產生權杖的值。 預設值為 false。

skip

integer (int32)

0

要略過的初始權杖數目。 預設值為 0。

PatternAnalyzer

透過正則表達式模式靈活地將文字分隔為術語。 此分析器是使用 Apache Lucene 實作。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

指定分析器類型的 URI 片段。

flags

RegexFlags

正規表示式旗標。

lowercase

boolean

True

指出字詞是否應該小寫的值。 預設值是「true」。

name

string

分析器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

pattern

string

\W+

比對權杖分隔符號的正規表示式模式。 預設值是符合一或多個非單字字元的運算式。

stopwords

string[]

停用詞清單。

PatternCaptureTokenFilter

使用 Java 規則運算式發出多個記號 - 一個或多個模式中的每個擷取群組一個。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

指定權杖篩選類型的 URI 片段。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

patterns

string[]

要與每個權杖比對的模式清單。

preserveOriginal

boolean

True

一個值,指出是否要傳回原始記號,即使其中一個模式相符。 預設值是「true」。

PatternReplaceCharFilter

取代輸入字串中字元的字元篩選器。 它使用正則表達式來識別要保留的字符序列,並使用替換模式來識別要替換的字符。 例如,給定輸入文字「aa bb aa bb」、模式「(aa)\s+(bb)」和替換「$1#$2」,結果將是「aa#bb aa#bb」。 此字元篩選器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

指定字元篩選類型的 URI 片段。

name

string

char 過濾器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

pattern

string

正規表示式模式。

replacement

string

替換文本。

PatternReplaceTokenFilter

取代輸入字串中字元的字元篩選器。 它使用正則表達式來識別要保留的字符序列,並使用替換模式來識別要替換的字符。 例如,給定輸入文字「aa bb aa bb」、模式「(aa)\s+(bb)」和替換「$1#$2」,結果將是「aa#bb aa#bb」。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

指定權杖篩選類型的 URI 片段。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

pattern

string

正規表示式模式。

replacement

string

替換文本。

PatternTokenizer

使用正則表達式模式比對來建構不同權杖的標記器。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

指定分詞器類型的 URI 片段。

flags

RegexFlags

正規表示式旗標。

group

integer (int32)

-1

正則運算式模式中比對群組的從零開始的序數,要擷取到權杖中。 如果您想要使用整個模式將輸入分割成記號,而不論相符的群組為何,請使用 -1。 預設值為 -1。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

pattern

string

\W+

比對權杖分隔符號的正規表示式模式。 預設值是符合一或多個非單字字元的運算式。

PhoneticEncoder

識別要與 PhoneticTokenFilter 搭配使用的語音編碼器類型。

Description
metaphone

將權杖編碼為 Metaphone 值。

doubleMetaphone

將記號編碼為雙元音值。

soundex

將權杖編碼為 Soundex 值。

refinedSoundex

將權杖編碼為精簡的 Soundex 值。

caverphone1

將權杖編碼為 Caverphone 1.0 值。

caverphone2

將權杖編碼為 Caverphone 2.0 值。

cologne

將記號編碼為科隆語音值。

nysiis

將代幣編碼為 NYSIIS 值。

koelnerPhonetik

使用 Kölner Phonetik 算法對令牌進行編碼。

haasePhonetik

使用 Kölner Phonetik 算法的 Haase 細化對標記進行編碼。

beiderMorse

將權杖編碼為 Beider-Morse 值。

PhoneticTokenFilter

為語音匹配創建令牌。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

指定權杖篩選類型的 URI 片段。

encoder

PhoneticEncoder

metaphone

要使用的語音編碼器。 預設為「metaphone」。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

replace

boolean

True

指出編碼權杖是否應該取代原始權杖的值。 如果為 false,則會將編碼的權杖新增為同義字。 預設值是「true」。

PrioritizedFields

描述要用於語意排名、標題、重點和答案的標題、內容和關鍵字欄位。

名稱 類型 Description
prioritizedContentFields

SemanticField[]

定義要用於語意排名、標題、重點和答案的內容欄位。 為了獲得最佳結果,所選欄位應包含自然語言形式的文字。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會被截斷。

prioritizedKeywordsFields

SemanticField[]

定義要用於語意排名、標題、亮點和答案的關鍵字欄位。 為了獲得最佳結果,所選欄位應包含關鍵字清單。 陣列中欄位的順序代表其優先順序。 如果內容很長,優先順序較低的欄位可能會被截斷。

titleField

SemanticField

定義要用於語意排名、標題、醒目提示和答案的標題欄位。 如果您的索引中沒有標題欄位,請將此欄位留空。

RankingOrder

代表用於文件排序順序的分數。

Description
BoostedRerankerScore

將排序順序設定為 BoostedRerankerScore

RerankerScore

將排序順序設定為 ReRankerScore

RegexFlags

定義可組合的旗標,以控制在型樣分析器和型樣記號器中使用正規表示式的方式。

Description
CANON_EQ

啟用標準對等。

CASE_INSENSITIVE

啟用不區分大小寫的比對。

COMMENTS

允許模式中的空格和註解。

DOTALL

啟用點模式。

LITERAL

啟用模式的文字剖析。

MULTILINE

啟用多行模式。

UNICODE_CASE

啟用 Unicode 感知大小寫折疊。

UNIX_LINES

啟用 Unix 線路模式。

RescoringOptions

包含重新評分的選項。

名稱 類型 預設值 Description
defaultOversampling

number (double)

預設過取樣係數。 過取樣會擷取一組更大的潛在文件,以抵消量化所造成的解析度損失。 這會增加將在全精度向量上重新評分的結果集。 最小值為 1,表示沒有過度取樣 (1x)。 只有在 'enableRescoring' 為 true 時,才能設定此參數。 較高的值會以延遲為代價來改善召回率。

enableRescoring

boolean

True

如果設為 true,則在對壓縮向量進行初始搜尋之後,會使用全精確度向量重新計算相似性分數。 這將以延遲為代價提高召回率。

rescoreStorageMethod

VectorSearchCompressionRescoreStorageMethod

preserveOriginals

控制原始向量的儲存方法。 此設定是不可變的。

ScalarQuantizationParameters

包含純量量化特有的參數。

名稱 類型 Description
quantizedDataType

VectorSearchCompressionTargetDataType

壓縮向量值的量化資料類型。

ScalarQuantizationVectorSearchCompressionConfiguration

包含索引和查詢期間所使用的純量量化壓縮方法特有的組態選項。

名稱 類型 Description
kind string:

scalarQuantization

設定為與向量搜尋搭配使用的壓縮方法類型的名稱。

name

string

要與此特定組態相關聯的名稱。

rescoringOptions

RescoringOptions

包含重新評分的選項。

scalarQuantizationParameters

ScalarQuantizationParameters

包含純量量化特有的參數。

truncationDimension

integer (int32)

要截斷向量的維度數。 截斷向量可減少向量的大小,以及搜尋期間需要傳輸的資料量。 這可以節省儲存成本並提高搜尋效能,但代價是召回率。 它只能用於使用套娃表示學習 (MRL) 訓練的嵌入,例如 OpenAI text-embedding-3-large (small)。 預設值為 null,表示沒有截斷。

ScoringFunctionAggregation

定義用來合併評分設定檔中所有評分函數結果的彙總函數。

Description
sum

通過所有評分函數結果的總和來提高分數。

average

通過所有評分函數結果的平均值來提高分數。

minimum

將分數提高到所有評分函數結果的最小值。

maximum

將分數提高到所有評分函數結果的最大值。

firstMatching

使用評分設定檔中第一個適用的評分函數來提升分數。

ScoringFunctionInterpolation

定義用來在一系列文件中插補分數提升的函數。

Description
linear

將分數線性遞減。 這是評分函數的預設插補。

constant

通過恆定係數提高分數。

quadratic

將分數提高二次方遞減的量。 分數越高,提升會緩慢減少,而分數越低,就會越快。 標籤評分函數不允許使用此插補選項。

logarithmic

將分數提高對數遞減的量。 分數越高,提升會迅速減少,而隨著分數的下降,提升會越慢。 標籤評分函數不允許使用此插補選項。

ScoringProfile

定義影響搜尋查詢評分的搜尋索引參數。

名稱 類型 Description
functionAggregation

ScoringFunctionAggregation

指出如何組合個別評分函式結果的值。 預設為「總和」。 如果沒有評分函數,則忽略。

functions ScoringFunction[]:

影響文件評分的函數集合。

name

string

評分設定檔的名稱。

text

TextWeights

根據特定索引欄位中的文字相符來提升評分的參數。

SearchField

代表索引定義中的欄位,描述欄位的名稱、資料類型及搜尋行為。

名稱 類型 Description
analyzer

LexicalAnalyzerName

要用於欄位的分析器名稱。 此選項只能與可搜尋的欄位搭配使用,且無法與 searchAnalyzer 或 indexAnalyzer 一起設定。 選擇分析器後,就無法針對欄位進行變更。 對於複雜欄位,必須為 Null。

dimensions

integer (int32)

minimum: 2
maximum: 4096

向量場的維度。

facetable

boolean

指出是否要在 Facet 查詢中參考欄位的值。 通常用於搜尋結果的呈現方式,其中包括依類別排序的點閱數 (例如,搜尋數位相機,然後依照品牌、百萬像素、價格等項目來查看點閱數)。 對於複雜欄位,此屬性必須為 Null。 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint) 類型的欄位無法是可分面的。 所有其他簡單欄位的預設值為 true。

fields

SearchField[]

如果這是類型為 Edm.ComplexType 或 Collection(Edm.ComplexType) 的欄位,則為子欄位清單。 對於簡單欄位,必須為 Null 或空白。

filterable

boolean

指出是否要在$filter查詢中參考欄位的值。 filterable 與 searchable 在字串的處理方式上有所不同。 可篩選的 Edm.String 或 Collection(Edm.String) 類型的欄位不會進行斷詞,因此比較僅針對完全相符。 例如,如果您將這樣的欄位 f 設定為 “sunny day”,則 $filter=f eq 'sunny' 將找不到匹配項,但 $filter=f eq 'sunny day' 會找到匹配項。 對於複雜欄位,此屬性必須為 Null。 簡單欄位的預設值為 true,複雜欄位的預設值為 null。

indexAnalyzer

LexicalAnalyzerName

在欄位索引時使用的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 searchAnalyzer 一起設定,且無法與分析器選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用 Analyzer 屬性。 選擇分析器後,就無法針對欄位進行變更。 對於複雜欄位,必須為 Null。

key

boolean

指出欄位是否唯一識別索引中文件的值。 每個索引中必須選擇一個最上層欄位作為索引鍵欄位,而且它必須是 Edm.String 類型。 索引鍵欄位可以用來直接查閱文件,並更新或刪除特定文件。 簡單欄位的預設值為 false,複雜欄位的預設值為 null。

name

string

欄位的名稱,在索引或父欄位的欄位集合中必須是唯一的。

normalizer

LexicalNormalizerName

要用於欄位的正規化程式名稱。 此選項只能用於已啟用可篩選、可排序或可多面的欄位。 選擇正規化器之後,就無法針對欄位變更它。 對於複雜欄位,必須為 Null。

retrievable

boolean

指出是否可以在搜尋結果中傳回欄位的值。 如果您想要使用欄位 (例如邊界) 作為篩選器、排序或評分機制,但不想讓一般使用者看到該欄位,則可以停用此選項。 對於索引鍵欄位,此屬性必須為 true,對於複雜欄位,此屬性必須為 null。 可以在現有欄位上變更此屬性。 啟用此內容不會導致索引儲存需求增加。 簡單欄位的預設值為 true,向量欄位的預設值為 false,複雜欄位的預設值為 null。

searchAnalyzer

LexicalAnalyzerName

搜尋欄位時使用的分析器名稱。 此選項只能與可搜尋的欄位搭配使用。 它必須與 indexAnalyzer 一起設定,而且不能與 analyzer 選項一起設定。 此屬性無法設定為語言分析器的名稱;如果您需要語言分析器,請改用 Analyzer 屬性。 此分析器可以在現有欄位上更新。 對於複雜欄位,必須為 Null。

searchable

boolean

指出欄位是否可全文檢索搜尋的值。 這意味著它將在索引過程中進行分詞等分析。 如果您將可搜尋欄位設定為「晴天」等值,則在內部它會分割成個別標記「晴天」和「天」。 這樣就能針對這些字詞進行全文檢索搜尋。 依預設,Edm.String 或 Collection(Edm.String) 類型的欄位是可搜尋的。 對於其他非字串資料類型的簡單欄位,此屬性必須為 false,對於複雜欄位,此屬性必須為 null。 附註: 可搜尋欄位會耗用索引中的額外空間,以容納欄位值的其他權杖化版本,以進行全文檢索搜尋。 如果您想要節省索引中的空間,且不需要在搜尋中包含欄位,請將 searchable 設定為 false。

sortable

boolean

指出是否啟用在$orderby運算式中參照欄位的值。 默認情況下,搜索引擎會按分數對結果進行排序,但在許多體驗中,用戶會想要按文檔中的字段進行排序。 只有當簡單欄位是單一值時,它才能排序 (它在父文件的範圍內具有單一值)。 簡單集合欄位無法排序,因為它們是多值的。 複雜集合的簡單子欄位也是多值的,因此無法排序。 不論其為直接父欄位或上階欄位,都是如此,這就是複雜集合。 複雜欄位無法排序,且這類欄位的 sortable 屬性必須為 Null。 對於單值簡單欄位,可排序的預設值為 true,對於多值簡單欄位為 false,對於複雜欄位為 null。

stored

boolean

不可變值,指出欄位是否會個別保存在磁碟上,以傳回在搜尋結果中。 如果您不打算在搜尋回應中傳回欄位內容,以節省儲存額外負荷,則可以停用此選項。 這只能在建立索引期間設定,且只能針對向量欄位設定。 無法針對現有欄位變更此屬性,也無法針對新欄位設定為 false。 如果此屬性設定為 false,則屬性 'retrievable' 也必須設定為 false。 對於索引鍵欄位、新欄位和非向量欄位,此屬性必須為 true 或未設定,對於複雜欄位,它必須為 null。 停用此屬性會減少索引儲存需求。 向量欄位的預設值為 true。

synonymMaps

string[]

要與此欄位建立關聯的同義字對應名稱清單。 此選項只能與可搜尋的欄位搭配使用。 目前只支援每個欄位一個同義字對應。 將同義字對應指派給欄位可確保將該欄位設為目標的查詢字詞會使用同義字對應中的規則在查詢時展開。 這個屬性可以在現有的欄位上變更。 對於複雜欄位,必須為 Null 或空白集合。

type

SearchFieldDataType

欄位的資料類型。

vectorEncoding

VectorEncodingFormat

解譯欄位內容的編碼格式。

vectorSearchProfile

string

向量搜尋設定檔的名稱,指定搜尋向量欄位時要使用的演算法和向量化器。

SearchFieldDataType

定義搜尋索引中欄位的資料類型。

Description
Edm.String

表示欄位包含字串。

Edm.Int32

表示欄位包含 32 位帶正負號整數。

Edm.Int64

表示欄位包含 64 位帶正負號整數。

Edm.Double

表示欄位包含 IEEE 雙精確度浮點數。

Edm.Boolean

表示欄位包含布林值 (true 或 false)。

Edm.DateTimeOffset

表示欄位包含日期/時間值,包括時區資訊。

Edm.GeographyPoint

表示欄位包含經度和緯度方面的地理位置。

Edm.ComplexType

表示欄位包含一或多個複雜物件,而這些物件又具有其他類型的子欄位。

Edm.Single

指出欄位包含單精確度浮點數。 這只有在與 Collection(Edm.Single) 搭配使用時才有效。

Edm.Half

指出欄位包含半精確度浮點數。 這只有在與 Collection(Edm.Half) 搭配使用時才有效。

Edm.Int16

表示欄位包含 16 位帶正負號整數。 這只有在與 Collection(Edm.Int16) 搭配使用時才有效。

Edm.SByte

表示欄位包含 8 位帶正負號整數。 這只有在與 Collection(Edm.SByte) 搭配使用時才有效。

Edm.Byte

表示欄位包含 8 位元不帶正負號整數。 這只有在與 Collection(Edm.Byte) 搭配使用時才有效。

SearchIndex

代表搜尋索引定義,描述索引的欄位和搜尋行為。

名稱 類型 Description
@odata.etag

string

索引的 ETag。

analyzers LexicalAnalyzer[]:

索引的分析器。

charFilters CharFilter[]:

索引的字元篩選器。

corsOptions

CorsOptions

控制索引跨來源資源共用 (CORS) 的選項。

defaultScoringProfile

string

如果查詢中未指定任何項目,則要使用的評分設定檔名稱。 如果未設定此內容,且未在查詢中指定評分設定檔,則會使用預設評分 (tf-idf)。

description

string

索引的描述。

encryptionKey

SearchResourceEncryptionKey

您在 Azure 金鑰保存庫中建立的加密金鑰描述。 當您想要完全保證沒有人 (甚至 Microsoft) 無法解密您的數據時,此金鑰可用來為您的數據提供額外的待用加密層級。 加密資料後,資料將始終保持加密狀態。 搜尋服務會忽略嘗試將此屬性設定為 Null。 如果您想要輪替加密金鑰,您可以視需要變更此屬性;您的資料不會受到影響。 使用客戶管理的金鑰進行加密不適用於免費搜尋服務,且僅適用於 2019 年 1 月 1 日或之後建立的付費服務。

fields

SearchField[]

索引的欄位。

name

string

索引的名稱。

normalizers LexicalNormalizer[]:

CustomNormalizer[]

索引的正規化器。

scoringProfiles

ScoringProfile[]

索引的評分設定檔。

semantic

SemanticSettings

定義影響語意功能的搜尋索引參數。

similarity Similarity:

對符合搜尋查詢的文件進行評分和排名時要使用的相似性演算法類型。 相似性演算法只能在索引建立時定義,無法在現有索引上修改。 如果為 Null,則會使用 ClassicSimilarity 演算法。

suggesters

Suggester[]

索引的建議。

tokenFilters TokenFilter[]:

索引的權杖篩選。

tokenizers LexicalTokenizer[]:

索引的標記器。

vectorSearch

VectorSearch

包含與向量搜尋相關的組態選項。

SearchIndexerDataNoneIdentity

清除資料來源的身分識別屬性。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.DataNoneIdentity

指定身分類型的 URI 片段。

SearchIndexerDataUserAssignedIdentity

指定要使用的資料來源身分識別。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.DataUserAssignedIdentity

指定身分類型的 URI 片段。

userAssignedIdentity

string

使用者指派受控識別的完整 Azure 資源識別碼,通常採用「/subscriptions/12345678-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId」格式,應該已指派給搜尋服務。

SearchResourceEncryptionKey

Azure Key Vault 中的客戶管理加密金鑰。 您建立和管理的金鑰可用來加密或解密靜態資料,例如索引和同義字對映。

名稱 類型 Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

用來存取 Azure 金鑰保存庫的選擇性 Azure Active Directory 認證。 如果改用受控識別,則不需要。

keyVaultKeyName

string

要用來加密待用資料的 Azure 金鑰保存庫名稱。

keyVaultKeyVersion

string

要用來加密待用資料的 Azure 金鑰版本。

keyVaultUri

string

Azure 金鑰保存庫的 URI,也稱為 DNS 名稱,其中包含要用來加密待用資料的金鑰。 範例 URI 可能是 https://my-keyvault-name.vault.azure.net

SemanticConfiguration

定義要在語意功能內容中使用的特定組態。

名稱 類型 Description
name

string

語意組態的名稱。

prioritizedFields

PrioritizedFields

描述要用於語意排名、標題、重點和答案的標題、內容和關鍵字欄位。 至少需要設定三個子屬性(titleField、prioritizedKeywordsFields 和 prioritizedContentFields)中的一個。

rankingOrder

RankingOrder

指定要用於搜尋結果排序順序的分數類型。

SemanticField

用作語意配置一部分的欄位。

名稱 類型 Description
fieldName

string

SemanticSettings

定義影響語意功能的搜尋索引參數。

名稱 類型 Description
configurations

SemanticConfiguration[]

索引的語意組態。

defaultConfiguration

string

可讓您在索引中設定預設語意組態的名稱,讓每次都能選擇性地將其作為查詢參數傳遞。

ShingleTokenFilter

將權杖組合建立為單一權杖。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

指定權杖篩選類型的 URI 片段。

filterToken

string

_

要針對沒有權杖的每個位置插入的字串。 預設值為底線 (“_”)。

maxShingleSize

integer (int32)

minimum: 2
2

最大木瓦尺寸。 預設值和最小值為 2。

minShingleSize

integer (int32)

minimum: 2
2

最小木瓦尺寸。 預設值和最小值為 2。 必須小於 maxShingleSize 的值。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

outputUnigrams

boolean

True

指出輸出資料流程是否包含輸入記號 (unigram) 以及 shingles 的值。 預設值是「true」。

outputUnigramsIfNoShingles

boolean

False

一個值,指示是否在沒有帶狀皰疹可用時輸出 unigram。 當 outputUnigrams 設定為 false 時,此屬性優先。 預設值為 false。

tokenSeparator

string

連接相鄰標記以形成木瓦時要使用的字符串。 預設值為單一空格 (“ ”)。

SnowballTokenFilter

使用 Snowball 產生的詞幹分析器對單字進行字幹的篩選器。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

指定權杖篩選類型的 URI 片段。

language

SnowballTokenFilterLanguage

要使用的語言。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

SnowballTokenFilterLanguage

要用於 Snowball 權杖篩選器的語言。

Description
armenian

選取亞美尼亞語的 Lucene Snowball 詞幹標記器。

basque

選取巴斯克語的 Lucene Snowball 詞幹標記器。

catalan

選取加泰隆尼亞語的 Lucene Snowball 詞幹標記器。

danish

選取丹麥文的 Lucene Snowball 詞幹標記器。

dutch

選取 Dutch 的 Lucene Snowball 詞幹標記器。

english

選取英文的 Lucene Snowball 詞幹標記器。

finnish

選取芬蘭文的 Lucene Snowball 詞幹標記器。

french

選取法文的 Lucene Snowball 詞幹標記器。

german

選取德文的 Lucene Snowball 詞幹標記器。

german2

選取使用德語變體演算法的 Lucene Snowball 詞幹記號器。

hungarian

選取匈牙利文的 Lucene Snowball 詞幹標記器。

italian

選取義大利文的 Lucene Snowball 詞幹標記器。

kp

選取使用 Kraaij-Pohlmann 詞幹分析演算法的荷蘭語的 Lucene Snowball 詞幹記詞器。

lovins

選取使用 Lovins 詞幹提取演算法的英文 Lucene Snowball 詞幹記詞器。

norwegian

選取挪威文的 Lucene Snowball 詞幹記號器。

porter

選取使用 Porter 詞幹提取演算法的英文 Lucene Snowball 詞幹記詞器。

portuguese

選取葡萄牙文的 Lucene Snowball 詞幹標記器。

romanian

選取羅馬尼亞文的 Lucene Snowball 詞幹標記器。

russian

選取俄語的 Lucene Snowball 詞幹標記器。

spanish

選取西班牙文的 Lucene Snowball 詞幹標記器。

swedish

選取瑞典文的 Lucene Snowball 詞幹標記器。

turkish

選取土耳其文的 Lucene Snowball 詞幹標記器。

StemmerOverrideTokenFilter

提供使用自訂字典型詞幹取代其他詞幹篩選器的功能。 任何字典詞幹詞都將被標記為關鍵字,這樣它們就不會被鏈條下游的詞幹詞幹。 必須放置在任何詞幹過濾器之前。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

指定權杖篩選類型的 URI 片段。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

rules

string[]

下列格式的詞幹刪除規則清單:「word => stem」,例如:「ran => run」。

StemmerTokenFilter

特定語言詞幹篩選器。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

指定權杖篩選類型的 URI 片段。

language

StemmerTokenFilterLanguage

要使用的語言。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

StemmerTokenFilterLanguage

用於詞幹計算器權杖篩選器的語言。

Description
arabic

選取阿拉伯文的 Lucene 詞幹標記器。

armenian

選取亞美尼亞文的 Lucene 詞幹標記器。

basque

選取巴斯克語的 Lucene 詞幹標記器。

brazilian

選取葡萄牙文 (巴西) 的 Lucene 詞幹標記器。

bulgarian

選取保加利亞文的 Lucene 詞幹標記器。

catalan

選取加泰隆尼亞語的 Lucene 詞幹標記器。

czech

選取捷克文的 Lucene 詞幹記號器。

danish

選取丹麥文的 Lucene 詞幹標記器。

dutch

選取荷蘭語的 Lucene 詞幹記號器。

dutchKp

選取使用 Kraaij-Pohlmann 詞幹分析演算法的荷蘭語的 Lucene 詞幹記號化記號器。

english

選取英文的 Lucene 詞幹標記器。

lightEnglish

選取執行淺色詞幹的英文 Lucene 詞幹標記器。

minimalEnglish

選取執行最小詞幹處理的英文 Lucene 詞幹記詞器。

possessiveEnglish

選取英文的 Lucene 詞幹標記器,以移除單字中的尾端所有格。

porter2

選取使用 Porter2 詞幹轉換演算法的英文 Lucene 詞幹標記器。

lovins

選取使用 Lovins 詞幹提取演算法的英文 Lucene 詞幹標記器。

finnish

選取芬蘭文的 Lucene 詞幹標記器。

lightFinnish

選取執行輕詞幹的芬蘭文的 Lucene 詞幹記號器。

french

選取法文的 Lucene 詞幹標記器。

lightFrench

選取執行輕型詞幹的法語的 Lucene 詞幹標記器。

minimalFrench

選取法文的 Lucene 詞幹記詞器,以執行最小的詞幹處理。

galician

選取 Galician 的 Lucene 詞幹標記器。

minimalGalician

為加利西亞語選擇執行最小詞幹的 Lucene 詞幹標記器。

german

選取德文的 Lucene 詞幹記號器。

german2

選取使用德文變體演算法的 Lucene 詞幹記號化記號器。

lightGerman

為執行輕型詞幹提取的德文選取 Lucene 詞幹標記器。

minimalGerman

為德文選取執行最小詞幹處理的 Lucene 詞幹標記器。

greek

選取希臘文的 Lucene 詞幹標記器。

hindi

選取印地文的 Lucene 詞幹標記器。

hungarian

選取匈牙利文的 Lucene 詞幹標記器。

lightHungarian

選取執行輕型詞幹的匈牙利文的 Lucene 詞幹標記器。

indonesian

選取印尼文的Lucene詞幹記號器。

irish

選取愛爾蘭文的 Lucene 詞幹記號器。

italian

選取義大利文的 Lucene 詞幹標記器。

lightItalian

選取義大利語的 Lucene 詞幹標記器,以執行輕型詞幹處理。

sorani

選取 Sorani 的 Lucene 詞幹標記器。

latvian

選取拉脫維亞文的 Lucene 詞幹標記器。

norwegian

選取挪威文 (Bokmål) 的 Lucene 詞幹記號器。

lightNorwegian

選取挪威文 (Bokmål) 的 Lucene 詞幹記號器,以執行輕量詞幹處理。

minimalNorwegian

選取挪威文 (Bokmål) 的 Lucene 詞幹記號化程式,以執行最少的詞幹處理。

lightNynorsk

選取挪威語 (Nynorsk) 的 Lucene 詞幹標記器,以執行光詞幹處理。

minimalNynorsk

選取挪威文 (Nynorsk) 的 Lucene 詞幹標記器,以執行最少的詞幹處理。

portuguese

選取葡萄牙文的 Lucene 詞幹標記器。

lightPortuguese

為葡萄牙語選擇執行輕型詞幹的 Lucene 詞幹記號器。

minimalPortuguese

為葡萄牙語選擇執行最小詞幹的 Lucene 詞幹標記器。

portugueseRslp

選取使用 RSLP 詞幹分析演算法的葡萄牙文的 Lucene 詞幹記號化詞器。

romanian

選取羅馬尼亞文的 Lucene 詞幹記號器。

russian

選取俄語的 Lucene 詞幹標記器。

lightRussian

選取俄語的 Lucene 詞幹標記器,以執行輕型詞幹處理。

spanish

選取西班牙文的 Lucene 詞幹標記器。

lightSpanish

選取西班牙文的 Lucene 詞幹標記器,以執行輕色詞幹處理。

swedish

選取瑞典文的 Lucene 詞幹標記器。

lightSwedish

選取瑞典文的 Lucene 詞幹標記器,以執行輕型詞幹。

turkish

選取土耳其文的 Lucene 詞幹標記器。

StopAnalyzer

將文字分割為非字母;套用小寫和停用字詞記號篩選器。 此分析器是使用 Apache Lucene 實作。

名稱 類型 Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

指定分析器類型的 URI 片段。

name

string

分析器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

stopwords

string[]

停用詞清單。

StopwordsList

識別語言特定停用字詞的預先定義清單。

Description
arabic

選取阿拉伯文的停用字詞清單。

armenian

選取亞美尼亞文的停用詞清單。

basque

選取巴斯克語的停用詞清單。

brazilian

選取葡萄牙文 (巴西) 的停用字詞清單。

bulgarian

選取保加利亞文的停用詞清單。

catalan

選取加泰隆尼亞語的停用詞清單。

czech

選取捷克文的停用字詞清單。

danish

選取丹麥文的停用詞清單。

dutch

選取荷蘭語的停用字詞清單。

english

選取英文的停用詞清單。

finnish

選取芬蘭文的停用詞清單。

french

選取法文的停用詞清單。

galician

選取 Galician 的停用字詞清單。

german

選取德文的停用字詞清單。

greek

選取希臘文的停用字詞清單。

hindi

選取印地文的停用詞清單。

hungarian

選取匈牙利文的停用詞清單。

indonesian

選取印尼文的停用詞清單。

irish

選取愛爾蘭語的停用詞清單。

italian

選取義大利文的停用字詞清單。

latvian

選取拉脫維亞文的停用詞清單。

norwegian

選取挪威文的停用詞清單。

persian

選取波斯文的停用字詞清單。

portuguese

選取葡萄牙文的停用詞清單。

romanian

選取羅馬尼亞文的停用字詞清單。

russian

選取俄語的停用字詞清單。

sorani

選取 Sorani 的停用詞清單。

spanish

選取西班牙文的停用字詞清單。

swedish

選取瑞典文的停用詞清單。

thai

選取泰文的停用詞清單。

turkish

選取土耳其語的停用字詞清單。

StopwordsTokenFilter

從權杖串流中移除停用字。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

指定權杖篩選類型的 URI 片段。

ignoreCase

boolean

False

指出是否忽略大小文字的值。 如果為true,則所有單字都會先轉換為小寫。 預設值為 false。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

removeTrailing

boolean

True

一個值,指出如果最後一個搜尋字詞是停用字詞,是否要忽略它。 預設值是「true」。

stopwords

string[]

停用詞列表。 無法同時設定此屬性和停用詞清單屬性。

stopwordsList

StopwordsList

english

要使用的停用字詞的預先定義清單。 無法同時設定此屬性和停用詞屬性。 預設為英文。

Suggester

定義建議 API 應如何套用至索引中的一組欄位。

名稱 類型 Description
name

string

建議者的名稱。

searchMode

SuggesterSearchMode

指出建議者功能的值。

sourceFields

string[]

建議器所套用的欄位名稱清單。 每個欄位都必須是可搜尋的。

SuggesterSearchMode

指出建議者功能的值。

Description
analyzingInfixMatching

比對欄位中連續的完整術語和字首。 例如,對於欄位 'The fastest brown fox',查詢 'fast' 和 'fastest brow' 都會相符。

SynonymTokenFilter

比對權杖串流中的單一或多字同義字。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

指定權杖篩選類型的 URI 片段。

expand

boolean

True

一個值,指出同義字清單中的所有單字(如果未使用 => 表示法)是否會彼此對應。 如果為 true,則同義字清單中的所有單字 (如果未使用 => 表示法) 都會彼此對應。 以下列表:不可思議、難以置信、精彩、驚人相當於:不可思議、難以置信、精彩、驚人 => 不可思議、難以置信、精彩、驚人。 如果為假,則以下列表:不可思議、難以置信、精彩、驚人將等同於:不可思議、難以置信、精彩、驚人 => 不可思議。 預設值是「true」。

ignoreCase

boolean

False

指出是否要大小寫折疊輸入以進行比對的值。 預設值為 false。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

synonyms

string[]

以下兩種格式之一的同義詞列表: 1. 不可思議、難以置信、神話般的 => 驚人 - => 符號左側的所有術語都將替換為其右側的所有術語;2. 不可思議、難以置信、神話般的、驚人的 - 逗號分隔的等效單詞列表。 設定展開選項以變更此清單的解譯方式。

TagScoringFunction

定義一個函數,用於提升字串值符合給定標籤清單的文件分數。

名稱 類型 Description
boost

number (double)

原始分數的乘數。 必須是不等於 1.0 的正數。

fieldName

string

用作評分函數輸入的欄位名稱。

interpolation

ScoringFunctionInterpolation

一個值,指出如何在文件分數之間插值提升;預設為「線性」。

tag

TagScoringParameters

標籤評分函式的參數值。

type string:

tag

指出要使用的函數類型。 有效值包括大小、新鮮度、距離和標籤。 函數類型必須是小寫。

TagScoringParameters

提供參數值給標籤評分函數。

名稱 類型 Description
tagsParameter

string

在搜尋查詢中傳遞的參數名稱,以指定要與目標欄位比較的標籤清單。

TextWeights

定義索引欄位的權重,其相符項目應提高搜尋查詢的評分。

名稱 類型 Description
weights

object

每個欄位權重的字典,可提升文件評分。 索引鍵是欄位名稱,值是每個欄位的權重。

TokenCharacterKind

代表權杖過濾器可以操作的字元類別。

Description
letter

將字母保存在令牌中。

digit

在權杖中保留數字。

whitespace

在權杖中保留空格。

punctuation

在標記中保留標點符號。

symbol

將符號保留在令牌中。

TokenFilterName

定義搜尋引擎支援的所有權杖篩選器的名稱。

Description
arabic_normalization

套用阿拉伯文正規化器來正規化正字法的權杖篩選器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html

apostrophe

去除撇號後面的所有字元 (包括撇號本身)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html

asciifolding

將不在前 127 個 ASCII 字元 (「基本拉丁文」Unicode 區塊) 中的字母、數字和符號 Unicode 字元轉換為其 ASCII 對等字元 (如果存在此類對等字元)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html

cjk_bigram

形成從標準標記器產生的 CJK 術語的二元組。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html

cjk_width

將 CJK 寬度差異正規化。 將全角 ASCII 變體折疊成對等的基本拉丁文,並將半角片假名變體折疊成對等的假名。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html

classic

從首字母縮略詞中刪除英語所有格和點。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html

common_grams

在索引時為經常出現的術語建構二元組。 單個術語也仍然被索引,二元組疊加。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html

edgeNGram_v2

從輸入記號的正面或背面開始產生給定大小的 n 克。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html

elision

刪除省略。 例如,“l'avion”(飛機)將轉換為“avion”(飛機)。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html

german_normalization

根據 German2 雪球演算法的啟發式方法對德語字元進行正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html

hindi_normalization

將印地語文本正規化,以消除拼寫變化中的一些差異。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html

indic_normalization

將印度語言中文字的 Unicode 表示法正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html

keyword_repeat

發出每個傳入的權杖兩次,一次作為關鍵字,一次作為非關鍵字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html

kstem

適用於英語的高性能 kstem 過濾器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html

length

刪除太長或太短的單字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html

limit

限制索引時的權杖數目。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html

lowercase

將權杖文字正規化為小寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html

nGram_v2

產生給定大小的 n-gram。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html

persian_normalization

套用波斯文的正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html

phonetic

為語音匹配創建令牌。 請參閱 https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html

porter_stem

使用 Porter 詞幹分析演算法來轉換權杖流。 請參閱 http://tartarus.org/~martin/PorterStemmer

reverse

反轉權杖字串。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html

scandinavian_normalization

標準化可互換的斯堪的納維亞字符的使用。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html

scandinavian_folding

折疊斯堪的納維亞字符 åÅäæÄÆ-a> 和 öÖøØ-o>。 它還歧視使用雙元音 aa、ae、ao、oe 和 oo,只留下第一個元音。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html

shingle

將權杖組合建立為單一權杖。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html

snowball

使用 Snowball 產生的詞幹分析器對單字進行字幹的篩選器。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html

sorani_normalization

將 Sorani 文字的 Unicode 表示法正規化。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html

stemmer

特定語言詞幹篩選器。 請參閱 https://learn.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters

stopwords

從權杖串流中移除停用字。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html

trim

從標記中修剪前導和尾隨空格。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html

truncate

將項截斷為特定長度。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html

unique

篩選出與前一個權杖具有相同文字的權杖。 請參閱 http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html

uppercase

將權杖文字正規化為大寫。 請參閱 https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html

word_delimiter

將單字分割成子字,並對子單字群組執行可選的轉換。

TruncateTokenFilter

將項截斷為特定長度。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

指定權杖篩選類型的 URI 片段。

length

integer (int32)

maximum: 300
300

將截斷術語的長度。 預設值和最大值為 300。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

UaxUrlEmailTokenizer

將 URL 和電子郵件標記為一個標記。 此分詞器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

指定分詞器類型的 URI 片段。

maxTokenLength

integer (int32)

maximum: 300
255

權杖長度上限。 預設值為 255。 超過最大長度的權杖會分割。 可以使用的權杖長度上限為 300 個字元。

name

string

標記器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

UniqueTokenFilter

篩選出與前一個權杖具有相同文字的權杖。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

指定權杖篩選類型的 URI 片段。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

onlyOnSamePosition

boolean

False

指出是否只移除相同位置的重複項的值。 預設值為 false。

VectorEncodingFormat

解譯向量欄位內容的編碼格式。

Description
packedBit

編碼格式,代表封裝成更廣泛資料類型的位。

VectorSearch

包含與向量搜尋相關的組態選項。

名稱 類型 Description
algorithms VectorSearchAlgorithmConfiguration[]:

包含索引或查詢期間所使用演算法的特定組態選項。

compressions VectorSearchCompressionConfiguration[]:

包含索引或查詢期間所使用的壓縮方法特定的組態選項。

profiles

VectorSearchProfile[]

定義要與向量搜尋搭配使用的組態組合。

vectorizers VectorSearchVectorizer[]:

包含如何向量化文字向量查詢的組態選項。

VectorSearchAlgorithmKind

用於索引和查詢的演算法。

Description
hnsw

HNSW(Hierarchical Navigable Small World),一種近似最近鄰演算法。

exhaustiveKnn

詳盡的 KNN 演算法,將執行暴力搜尋。

VectorSearchAlgorithmMetric

用於向量比較的相似性指標。 建議選擇與內嵌模型訓練時相同的相似度指標。

Description
cosine

測量向量之間的角度以量化它們的相似性,而不考慮大小。 角度越小,相似度越近。

euclidean

計算多維空間中向量之間的直線距離。 距離越小,相似度越近。

dotProduct

計算元素乘積的總和,以測量對齊和大小相似性。 越大、越積極,相似度越接近。

hamming

僅適用於位元封裝的二進位資料類型。 透過計算二進位向量中的不同位置來判斷差異性。 差異越少,相似性越接近。

VectorSearchCompressionKind

用於索引和查詢的壓縮方法。

Description
scalarQuantization

標量量化,一種壓縮方法。 在純量量化中,原始向量值通過使用一組減少的量化值離散化和表示向量的每個組件,將原始向量值壓縮為更窄的類型,從而減小整體數據大小。

binaryQuantization

二進位量化,一種壓縮方法。 在二進位量化中,原始向量值透過使用二進位值離散化和表示向量的每個分量,將原始向量值壓縮為較窄的二進位類型,從而減小整體資料大小。

VectorSearchCompressionRescoreStorageMethod

用於重新評分和內部索引操作的原始全精度向量的儲存方法。

Description
preserveOriginals

此選項會保留原始的全精確度向量。 選擇此選項可獲得最大的靈活性和最高品質的壓縮搜尋結果。 這會消耗更多儲存空間,但允許重新評分和過度取樣。

discardOriginals

此選項會捨棄原始的全精確向量。 選擇此選項可最大程度地節省儲存空間。 由於此選項不允許重新評分和過度取樣,因此通常會導致品質略有下降。

VectorSearchCompressionTargetDataType

壓縮向量值的量化資料類型。

Description
int8

VectorSearchProfile

定義要與向量搜尋搭配使用的組態組合。

名稱 類型 Description
algorithm

string

指定演算法和選用參數的向量搜尋演算法組態名稱。

compression

string

指定壓縮方法及選用參數的壓縮方法配置名稱。

name

string

要與此特定向量搜尋設定檔相關聯的名稱。

vectorizer

string

設定為與向量搜尋搭配使用的向量化名稱。

VectorSearchVectorizerKind

查詢期間要使用的向量化方法。

Description
azureOpenAI

在查詢時使用 Azure OpenAI 資源產生內嵌。

customWebApi

在查詢時使用自訂 Web 端點產生內嵌。

WebApiParameters

指定連接至使用者定義向量化程式的屬性。

名稱 類型 Description
authIdentity SearchIndexerDataIdentity:

用於輸出連線的使用者指派受控識別。 如果提供 authResourceId 且未指定,則會使用系統指派的受控識別。 在索引子更新時,如果未指定身分識別,則值會保持不變。 如果設定為 “none”,則會清除此屬性的值。

authResourceId

string

適用於連線到 Azure 函式中外部程式碼的自訂端點,或提供轉換的其他應用程式。 此值應該是向 Azure Active Directory 註冊時針對函式或應用程式建立的應用程式識別碼。 指定時,向量化會使用搜尋服務的受控識別碼 (系統或使用者指派) 和函式或應用程式的存取權杖連線到函式或應用程式,並使用此值作為建立存取權杖範圍的資源識別碼。

httpHeaders

object

提出 HTTP 要求所需的標頭。

httpMethod

string

HTTP 要求的方法。

timeout

string (duration)

要求所需的逾時。 預設值為 30 秒。

uri

string (uri)

提供向量化器的 Web API 的 URI。

WebApiVectorizer

指定使用者定義的向量化器,以產生查詢字串的向量內嵌。 外部向量化器的整合是使用技能組的自訂 Web API 介面來達成。

名稱 類型 Description
customWebApiParameters

WebApiParameters

指定使用者定義向量化程式的屬性。

kind string:

customWebApi

要設定為與向量搜尋搭配使用的向量化方法類型的名稱。

name

string

要與此特定向量化方法相關聯的名稱。

WordDelimiterTokenFilter

將單字分割成子字,並對子單字群組執行可選的轉換。 此權杖篩選器是使用 Apache Lucene 實作的。

名稱 類型 預設值 Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

指定權杖篩選類型的 URI 片段。

catenateAll

boolean

False

指出是否要串連所有子字部分的值。 例如,如果設定為 true,則 “Azure-Search-1” 會變成 “AzureSearch1”。 預設值為 false。

catenateNumbers

boolean

False

此值指出是否要串聯編號零件的最大執行次數。 例如,如果設定為 true,則 “1-2” 會變成 “12”。 預設值為 false。

catenateWords

boolean

False

指出是否要串聯的字組件執行次數上限的值。 例如,如果設定為 true,則 “Azure-Search” 會變成 “AzureSearch”。 預設值為 false。

generateNumberParts

boolean

True

指出是否產生數字子字的值。 預設值是「true」。

generateWordParts

boolean

True

指出是否要產生部分單字的值。 如果設定,則會產生部分單字;例如,“AzureSearch” 會變成 “Azure” “Search”。 預設值是「true」。

name

string

權杖篩選器的名稱。 它只能包含字母、數字、空格、破折號或底線,只能以字母數字字元開頭和結尾,並且限制為 128 個字元。

preserveOriginal

boolean

False

此值指出是否會保留原始單字並新增至子單字清單。 預設值為 false。

protectedWords

string[]

要防止分隔的權杖清單。

splitOnCaseChange

boolean

True

指出是否要分割 caseChange 上的單字的值。 例如,如果設定為 true,則 “AzureSearch” 會變成 “Azure” “Search”。 預設值是「true」。

splitOnNumerics

boolean

True

指出是否要分割數字的值。 例如,如果將此設定為 true,則 “Azure1Search” 會變成 “Azure” “1” “Search”。 預設值是「true」。

stemEnglishPossessive

boolean

True

指出是否要移除每個子字的尾端 “'s” 的值。 預設值是「true」。