新增評分設定檔以提高搜尋分數
評分設定檔可讓您根據準則提升比對文件的排名。 在本文中,了解如何指定及指派評分設定檔,以根據您提供的參數來提升搜尋分數。
您可以使用評分設定檔進行關鍵字搜尋、向量搜尋和混合式搜尋。 不過,評分設定檔僅適用於非函式欄位,因此請確定您的索引具有可用於評分設定檔中的文字或數值欄位。 向量和混合式搜尋的評分設定檔支援可在 2024-05-01-preview 和 2024-07-01 REST API 以及以這些版本為目標的 Azure SDK 套件中取得。
評分設定檔的要點
評分設定檔參數為:
加權欄位,其中會在特定字串欄位中找到相符項目。 例如,您可能想要在 [摘要] 欄位中找到的相符項目比在 [內容] 欄位中找到的同一相符項目更有相關性。
數值資料的函式,包括日期、範圍和地理座標。 另外還有一個 Tags 函式,可在提供任意字串集合的欄位上運作。 如果您要根據標籤欄位中是否找到相符項目來提升分數,則可以透過加權欄位選擇此方法。
您可以建立多個設定檔,然後修改查詢邏輯以選擇要使用哪一個設定檔。
一個索引內最多可以有 100 個評分設定檔 (請參閱服務限制 (英文)),但在任何特定查詢中,一次只能指定一個設定檔。
您可以使用 語意排名器 搭配評分配置檔。 當有多個排名或相關性功能正在播放時,語意排名是最後一個步驟。 搜尋評分的運作 方式提供圖例。
注意
不熟悉相關性概念嗎? 請造訪 Azure AI 搜尋服務中的相關性和評分 (英文),以取得背景資訊。 您也可以在 YouTube 上觀看這段影片 (英文),以取得 BM25 排名結果的評分設定檔。
評分設定檔定義
評分設定檔是在索引結構描述中定義的具名物件。 評分設定檔是由加權欄位、函式和參數組成。
下列定義顯示名為 "geo" 的簡單設定檔。 此範例會提升 hotelName 欄位中有搜尋字詞的結果。 也會使用 distance
函式,優先列出與目前位置相距 10 公里以內的結果。 如果有人搜尋 'inn' 一詞,而 'inn' 剛好是飯店名稱的一部分,則文件中只要包含具有 'inn'、且位於目前所在位置半徑 10 公里範圍內的飯店,就會出現在搜尋結果中的較高位置。
"scoringProfiles": [
{
"name":"geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
]
若要使用此評分設定檔,系統會編寫您的查詢,以在要求中指定 scoringProfile 參數。 如果您使用 REST API,則會透過 GET 和 POST 要求來指定查詢。 在下列範例中,"currentLocation" 具有單一破折號的分隔符號 (-
)。 其後面接著經度和緯度座標,其中經度是負值。
GET /indexes/hotels/docs?search+inn&scoringProfile=geo&scoringParameter=currentLocation--122.123,44.77233&api-version=2024-07-01
請注意使用 POST 時的語法差異。 在 POST 中,「scoringParameters」是複數且為陣列。
POST /indexes/hotels/docs&api-version=2024-07-01
{
"search": "inn",
"scoringProfile": "geo",
"scoringParameters": ["currentLocation--122.123,44.77233"]
}
此查詢會搜尋「inn」一詞,並傳入目前的位置。 請注意這個查詢包括其他參數,例如 scoringParameter。 如需包括「scoringParameter」在內的查詢參數說明,請參閱搜尋文件 (REST API)。
如需更多案例,請參閱向量和混合式搜尋的延伸範例 (英文) 和關鍵字搜尋的延伸範例 (英文)。
搜尋評分在 Azure AI 搜尋服務中的運作方式
評分設定檔會提升符合設定檔準則的相符項目分數,藉此補充預設評分演算法。 評分函式適用於:
- 文字 (關鍵詞) 搜尋
- 純向量查詢
- 混合式查詢,文字和向量子查詢會以平行方式執行
針對獨立文字查詢,評分配置檔會識別 BM25 排名搜尋中最多 1,000 個相符專案,而前 50 名會在結果中傳回。
對於純向量,查詢是向量專用的,但如果 k 比對檔 包含評分配置檔可以處理的英數位元欄位,則會套用評分配置檔。 評分配置檔會藉由提升符合配置檔中準則的檔來修訂結果集。
針對混合式查詢中的文字查詢,評分配置檔會識別 BM25 排名搜尋中最多 1,000 個相符專案。 不過,一旦識別出這 1,000 個結果之後,它們就會還原到原始的 BM25 順序,以便與向量一起重新記錄結果,最後的倒數排名函數 (RRF) 排序,其中評分配置檔(在圖中識別為「最終檔提升調整」)會套用至合併的結果,以及向量加權,以及語意排名作為最後一個步驟。
將評分設定檔新增至搜尋索引
您應該反覆運作,使用資料集協助您證明或反駁設定檔的效力。
評分設定檔可以在 Azure 入口網站中定義,如下列螢幕擷取畫面所示,或是透過 REST API 或在 Azure SDK 中以程式設計方式定義,例如 Azure SDK for .NET 中的 ScoringProfile 類別。
使用文字加權欄位
當欄位內容很重要且查詢包含 searchable
字串欄位時,請使用文字加權欄位。 例如,如果查詢包含「airport」一詞,您可能希望「airport」在 [描述] 欄位中比在 HotelName 中的權數還多。
加權欄位是由 searchable
欄位與做為乘數的正數組成的名稱/值對。 如果 HotelName 的原始欄位分數為 3,該欄位的提升分數會變成 6,因而讓父文件本身的整體分數提高。
"scoringProfiles": [
{
"name": "boostSearchTerms",
"text": {
"weights": {
"HotelName": 2,
"Description": 5
}
}
}
]
使用函式
當簡單相對權數不足或不適用時,請使用函式,如同距離和時效性的情況,需對數值資料進行計算。 您可以為每個評分設定檔指定多個函式。 如需 Azure AI 搜尋服務中所用 EDM 資料類型的詳細資訊,請參閱支援的資料類型。
函式 | 描述 | 使用案例 |
---|---|---|
distance | 依鄰近性或地理位置提升。 此函數僅適用於 Edm.GeographyPoint 欄位。 |
用於「尋找我附近」案例。 |
時效性 | 依日期時間欄位 (Edm.DateTimeOffset ) 中的值提升。 設定 boostingDuration 以指定值,代表發生提升的時間範圍。 |
請在您要依較新或較舊的日期來提升時使用。 對未來日期行事曆事件這類項目進行排名,因此,越接近目前日期的項目排名會高於未來日期較遠的項目。 範圍的一端固定為目前時間。 若要提升過去的某個時間範圍,請使用正數的 boostingDuration。 若要提升未來的某個時間範圍,請使用負數的 boostingDuration。 |
範圍 | 根據數值欄位的值範圍改變排名。 此值必須是整數或浮點數。 就 1 到 4 的星級評等而言,這會是 1。 就超過 50% 的利潤而言,這會是 50。 此函數僅適用於 Edm.Double 和 Edm.Int 欄位。 使用 magnitude 函式時,若您想要反轉模式 (例如將價格低的項目提升為高於價格高的項目),可將高至低的範圍反轉。 假設價格範圍為 $100 美元到 $1 美元,您會將 boostingRangeStart 設定為 100,並將 boostingRangeEnd 設定為 1,以在較低的價格項目提升。 |
請在您要依獲利率、評等、點選連結計數、下載次數、最高價格、最低價格或下載計數來提升時使用。 當兩個項目相關時,會先顯示具有更高評等的項目。 |
標籤 | 依搜尋文件和查詢字串共通的標記提升。 標籤會在 tagsParameter 中提供。 此函式只能與 Edm.String 和 Collection(Edm.String) 類型的搜尋欄位搭配使用。 |
請在您有標籤欄位時使用。 如果清單中的指定標記本身是逗號分隔清單,您可以對欄位使用文字正規化程式,在查詢時移除逗號 (將逗號字元對應至空格)。 此方法會將清單「壓平合併」,讓所有字詞都變成以逗號分隔的單一長字串。 |
使用函數的規則
- 函式只能套用至屬性為
filterable
的欄位。 - 函式類型 ("freshness"、"magnitude"、"distance"、"tag") 必須是小寫。
- 函式不可包含 null 或空值。
- 函式的每個函式定義只能有一個欄位。 若要在同一個設定檔中使用範圍兩次,請提供兩個定義範圍,每個欄位各一個。
範本
本節說明評分設定檔的語法與範本。 如需屬性的描述,請參閱 REST API 參考。
"scoringProfiles": [
{
"name": "name of scoring profile",
"text": (optional, only applies to searchable fields) {
"weights": {
"searchable_field_name": relative_weight_value (positive #'s),
...
}
},
"functions": (optional) [
{
"type": "magnitude | freshness | distance | tag",
"boost": # (positive number used as multiplier for raw score != 1),
"fieldName": "(...)",
"interpolation": "constant | linear (default) | quadratic | logarithmic",
"magnitude": {
"boostingRangeStart": #,
"boostingRangeEnd": #,
"constantBoostBeyondRange": true | false (default)
}
// ( - or -)
"freshness": {
"boostingDuration": "..." (value representing timespan over which boosting occurs)
}
// ( - or -)
"distance": {
"referencePointParameter": "...", (parameter to be passed in queries to use as reference location)
"boostingDistance": # (the distance in kilometers from the reference location where the boosting range ends)
}
// ( - or -)
"tag": {
"tagsParameter": "..."(parameter to be passed in queries to specify a list of tags to compare against target field)
}
}
],
"functionAggregation": (optional, applies only when functions are specified) "sum (default) | average | minimum | maximum | firstMatching"
}
],
"defaultScoringProfile": (optional) "...",
設定內插補點
插補會設定用於評分的斜率圖形。 因為評分會由高至低排序,因此斜率一律為遞減,但插補可決定向下斜率的曲線。 可用的內插補點如下:
插補 | 描述 |
---|---|
linear |
對於在最大和最小範圍內的項目,會在已持續遞減的量中套用提升。 線性是評分設定檔的預設插補。 |
constant |
對於在開始和結束範圍內的項目,會對排名結果套用常數提升。 |
quadratic |
相較於採用持續遞減提升的線性插補,二次方程式一開始會以較小的步調減少,待接近結束範圍時,再以較大的間隔減少。 tag 計分函式不允許使用此插補選項。 |
logarithmic |
相較於採用持續遞減提升的線性插補,對數一開始會以較大的步調減少,待接近結束範圍時,再以較小的間隔減少。 tag 計分函式不允許使用此插補選項。 |
設定 boostingDuration for freshness 函式
boostingDuration
是 freshness
函式的屬性。 您可以用它來設定要開始停止對特定文件進行提升的到期時間。 例如,若要在為期 10 天的促銷期間提升某個產品系列或品牌,您可以為這些文件指定 10 天的期間 "P10D"。
boostingDuration
必須格式化為 XSD "dayTimeDuration" 值 (ISO 8601 持續時間值的限定子集)。 其模式為:"P[nD][T[nH][nM][nS]]"。
下表提供數個範例。
期間 | boostingDuration |
---|---|
1 天 | "P1D" |
2 天又 12 個小時 | "P2DT12H" |
15 分鐘 | "PT15M" |
30 天 5 小時 10 分鐘又 6.334 秒 | "P30DT5H10M6.334S" |
如需更多範例,請參閱 XML 結構描述:資料類型 (W3.org 網站)。
向量和混合式搜尋的延伸範例
請參閱此部落格文章 (英文) 和筆記本 (英文),以取得使用評分設定檔的示範,以及記錄向量和生成式 AI 案例中的提升。
關鍵字搜尋的延伸範例
下列範例說明具有兩個評分設定檔 (boostGenre
、newAndHighlyRated
) 的索引結構描述。 任何以其中一個設定檔做為查詢參數而對此索引所做的查詢,都將使用該設定檔為結果集評分。
boostGenre
設定檔使用加權文字欄位,提升在 albumTitle、genre 和 musicName 欄位中找到的相符項目。 欄位分別提升了 1.5、5 和 2。 為何內容類型提升的程度遠比其他多? 如果是對同質的資料進行搜尋 (如同 musicstoreindex 中的 'genre'),相對加權可能會需要較大的變異數。 例如,在 musicstoreindex 中,'rock' 不僅顯示為內容類型,也出現在措詞相同的內容類型說明中。 如果您要讓類型的權數高於類型說明,則類型欄位需要更高的相對權數。
{
"name": "musicstoreindex",
"fields": [
{ "name": "key", "type": "Edm.String", "key": true },
{ "name": "albumTitle", "type": "Edm.String" },
{ "name": "albumUrl", "type": "Edm.String", "filterable": false },
{ "name": "genre", "type": "Edm.String" },
{ "name": "genreDescription", "type": "Edm.String", "filterable": false },
{ "name": "artistName", "type": "Edm.String" },
{ "name": "orderableOnline", "type": "Edm.Boolean" },
{ "name": "rating", "type": "Edm.Int32" },
{ "name": "tags", "type": "Collection(Edm.String)" },
{ "name": "price", "type": "Edm.Double", "filterable": false },
{ "name": "margin", "type": "Edm.Int32", "retrievable": false },
{ "name": "inventory", "type": "Edm.Int32" },
{ "name": "lastUpdated", "type": "Edm.DateTimeOffset" }
],
"scoringProfiles": [
{
"name": "boostGenre",
"text": {
"weights": {
"albumTitle": 1.5,
"genre": 5,
"artistName": 2
}
}
},
{
"name": "newAndHighlyRated",
"functions": [
{
"type": "freshness",
"fieldName": "lastUpdated",
"boost": 10,
"interpolation": "quadratic",
"freshness": {
"boostingDuration": "P365D"
}
},
{
"type": "magnitude",
"fieldName": "rating",
"boost": 10,
"interpolation": "linear",
"magnitude": {
"boostingRangeStart": 1,
"boostingRangeEnd": 5,
"constantBoostBeyondRange": false
}
}
]
}
],
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [ "albumTitle", "artistName" ]
}
]
}