共用方式為


如何在 Azure AI Studio 中檢視評估結果

重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

Azure AI Studio 評估頁面是一個多功能中樞,不僅可讓您視覺化和評估結果,還能做為最佳化、疑難排解的控制中心,並選取適合您部署需求的理想 AI 模型。 這是 AI Studio 專案中資料驅動決策和效能增強的一站式解決方案。 您可以順暢地存取和解譯來自各種來源的結果,包括您的流程、遊樂場快速測試工作階段、評估提交 UI 和 SDK.。 此彈性可確保您能夠以最符合工作流程和喜好設定的方式與結果互動。

一旦您將評估結果視覺化,您就可以深入完整檢查。 這包括不僅能夠檢視個別結果,還能比較多次評估執行的結果。 如此一來,您就可以識別趨勢、模式和差異,並取得各種條件下 AI 系統效能的寶貴深入解析。

在本文中,您將了解:

  • 檢視評估結果和計量。
  • 比較評估結果。
  • 了解內建評估計量。
  • 改善效能。
  • 檢視評估結果和計量。

尋找您的評估結果

提交評估之後,您可以導覽至 [評估] 頁面,在執行清單中找出已提交的評估執行。

您可以在執行清單中監視和管理評估執行。 有了使用資料行編輯器修改資料行並實作篩選條件的彈性,您可以自訂並建立自己的執行清單版本。 此外,您也能夠快速檢閱整個執行中的彙總評估計量,讓您能夠進行快速比較。

評估執行清單的螢幕擷取畫面。

若要深入了解評評估計量的衍生方式,您可以選取 [深入了解計量] 選項來存取全面的說明。 此詳細資源對於評估流程中所使用計量,提供計算和解譯的寶貴深入解析。

評估計量詳細資料的螢幕擷取畫面。

您可以選擇特定的執行,這會帶您前往 [執行詳細資料] 頁面。 您可以在這裡存取全面的資訊,包括測試資料集、工作類型、提示、溫度等評估詳細資料。 此外,您可以檢視與每個資料樣本相關聯的計量。 計量分數圖表提供整個資料集中,每個計量的分數如何散發的視覺表示法。

在計量詳細資料的資料表中,您可以全面檢查每個個別資料樣本。 您可以在此處仔細檢查產生的輸出,以及其所對應的評估計量分數。 這種程度的詳細資料可讓您做出資料驅動決策,並採取特定動作來改善模型的效能。

一些根據評估計量的可進行的潛在動作項目包括:

  • 模式辨識:藉由篩選數值和計量,您可以向下鑽研分數較低的樣本。 調查這些樣本以識別模型回應中的週期性模式或問題。 例如,您可能會注意到模型在特定主題上生成內容時經常會出現低分。
  • 模型調整:使用較低評分樣本的深入解析來改善系統提示指示或微調您的模型。 如果您觀察到一致的問題,例如連貫性或相關性問題,您也可以據此調整模型的定型資料或參數。
  • 自訂資料行:資料行編輯器可讓您建立資料表的自訂檢視,著重於與評估目標最相關的計量和資料。 這可簡化您的分析,並協助您更有效率地找出趨勢。
  • 關鍵詞搜尋:搜尋方塊可讓您在生成的輸出中尋找特定字組或片語。 這適用於找出與特定主題或關鍵字相關的問題或模式,並具體解決這些問題。

計量詳細資料表提供許多資料可輔助您改善模型的工作,從辨識模式到自訂檢視,讓您有效率地分析和根據已識別的問題調整模型。

我們會依據 [效能和品質] 和 [風險和安全性計量] 來細分彙總檢視或計量。 您可以檢視評估資料集中分數的分佈,並查看每個計量的彙總分數。

  • 針對效能和品質計量,我們會透過計算每個計量所有分數的平均值來彙總。 效能和品質計量儀表板索引標籤的螢幕擷取畫面。
  • 針對風險和安全性計量,我們會計算每個計量的瑕疵率來進行彙總。
    • 對於內容損害計量,瑕疵率定義為測試資料集中超出嚴重性級別閾值的執行個體佔整個資料集大小的百分比。 根據預設,閾值為「中等」。
    • 針對受保護的材料和間接攻擊,瑕疵率會計算為輸出為 'true' 的執行個體百分比 (瑕疵率 = (#trues / #instances) × 100)。 風險與安全計量儀表板索引標籤的螢幕擷取畫面。

以下是一些問題解答案例的計量結果範例:

問題解答案例的計量結果的螢幕擷取畫面。

以下是一些交談案例計量結果的範例:

交談案例的計量結果的螢幕擷取畫面。

針對多回合交談案例,您可以選取「檢視每個回合的評估結果」來檢查交談中每個回合的評估計量。

顯示輸入訊息中每回合連結檢視評估結果的螢幕擷取畫面。

每回合評估結果的螢幕擷取畫面。

針對風險和安全性計量,評估會為每個分數提供嚴重性分數和推理。 以下是一些問題解答案例的風險和安全性計量結果範例:

問題解答案例的風險和安全性計量結果的螢幕擷取畫面。

評估結果對於不同的受衆可能有不同的意義。 例如,安全評估可能會為暴力內容產生「低」嚴重性的標籤,該標籤可能與人工檢閱者對特定暴力內容定義的嚴重程度不一致。 在檢閱您的評估結果時,我們會提供一個人工意見反應資料行,其中包含贊成和反對的選項,以顯示哪些實例被人工檢閱者批准或標記為不正確。

具有人工意見反應的風險與安全計量結果的螢幕擷取畫面。

了解每個內容風險計量時,您可以藉由選取圖表上方的計量名稱來輕鬆檢視每個計量定義和嚴重性級別,以查看彈出視窗中的詳細說明。

風險與安全計量詳細說明彈出視窗的螢幕擷取畫面。

如果執行發生問題,您也可以使用記錄和追蹤對評估執行進行偵錯。

以下是可用來偵錯評估執行的一些記錄範例:

可用來偵錯評估執行之記錄的螢幕擷取畫面。

以下是追蹤和偵錯檢視的範例:

可用來偵錯評估執行之追蹤的螢幕擷取畫面。

如果您要評估提示流程,您可以選取 [在流程中檢視] 按鈕,以瀏覽至評估流程頁面,以更新流程。 例如,新增其他中繼提示指令,或變更某些參數並重新評估。

比較評估結果

若要輔助兩次或多次執行之間的全面比較,您可以選取所需的執行並選取 [比較] 按鈕來起始流程,或若要一般詳細儀表板檢視,則選 [切換至儀表板檢視] 按鈕。 這項功能可讓您分析和對比多次執行的效能和結果,以做出更深思熟慮的決策和針對性改善項目。

比較評估選項的螢幕擷取畫面。

在儀表板檢視中,您可以存取兩個很有價值的元件:計量分佈比較圖表和比較資料表。 這些工具可讓您執行所選評估執行的並存分析,讓您輕鬆且精確地比較每個資料樣本的各個層面。

計量評估頁面的螢幕擷取畫面,其中包含選取手動評估的選項。

在比較資料表中,您可以藉由將滑鼠暫留在您想要作為參考點並設為基準的特定執行上,來建立用於比較的基準。 此外,藉由啟用 [顯示差異] 切換,您就可以輕鬆視覺化基準執行與其他執行之間的數值差異。 此外,啟用 [只顯示差異] 切換時,資料表只會顯示所選執行之間不同的資料列,有助於識別相異的變化。

您可以使用這些比較功能,做出深思熟慮的決策來選取最佳版本:

  • 比較基準:藉由設定基準執行,您可以識別用於比較其他執行的參考點。 這可讓您查看每個執行如何偏離您所選擇的標準。
  • 數值評估:啟用 [顯示差異] 選項可協助您了解基準與其他執行之間的差異程度。 這很適合用於評估各種執行在特定評估計量方面的執行表現。
  • 差異隔離:「只顯示差異」功能將只在執行有差異時才醒目提示區域,以此簡化您的分析。 這有助於找出需要改善或調整的位置。

藉由有效地使用這些比較工具,您可以識別模型或系統在哪個版本中能針對您定義的準則和計量有最佳表現,最終協助您為應用程式選取最理想的選項。

並排評估結果的螢幕擷取畫面。

測量越獄弱點

評估越獄是個比較度量,而不是 AI 輔助計量。 在兩個不同紅色小組資料集上執行評估:基準對抗式測試資料集與第一回合越獄插入的相同對抗式測試資料集。 您可以使用對抗式資料模擬器,來產生帶或不帶越獄插入的資料集。

若要了解您的應用程式是否容易受到越獄攻擊,您可以指定基準是什麽,然後在比較資料表中開啟「越獄瑕疵率」開關。 越獄瑕疵率定義為測試資料集中越獄插入相對於整個資料集大小的基準為任何內容風險計量產生更高嚴重性分數的實例的百分比。 您可以在比較儀表板中選取多個評估,以檢視瑕疵率的差異。

開啟越獄瑕疵之並排評估結果的螢幕擷取畫面。

提示

越獄瑕疵率只會針對相同大小的資料集計算,而且只有在所有執行都包含內容風險和安全計量時才計算。

了解內建評估計量

了解內建計量對於評估 AI 應用程式的效能和有效性至關重要。 藉由深入了解這些關鍵測量工具,您可以更充分地解譯結果、做出深思熟慮的決策,以及微調您的應用程式以達到最佳結果。 若要深入了解每個計量的意義、其計算方式、其在評估模型各個層面的角色,以及如何解譯結果以進行資料驅動改善,請參閱 評估與監視計量

下一步

深入了解如何評估您的生成式 AI 應用程式:

深入了解損害風險降低技巧