自訂文字分類中使用的字詞和定義
使用此文章了解使用自訂文字分類時可能遇到的一些定義和詞彙。
類別
類別是使用者定義的類別,可表示文字的整體分類。 開發人員會先標示資料的類別,然後再傳送給模型進行定型。
F1 分數
F1 分數是精確度和重新叫用率的函數。 當您尋求精確度與召回率的平衡時,需要此項目。
模型
模型是經過定型以執行特定工作 (在這個案例中為文字分類工作) 的物件。 模型的定型方式是提供用來學習的標記資料,以便稍後用於分類工作。
- 模型定型是根據您標記的資料,教導模型如何分類文件的流程。
- 模型評估是在定型之後立即進行的程序,可了解您模型執行的效果。
- 「部署」是將模型指派給部署以透過預測 API 使用該模型的程序。
精確度
測量模型的精確/正確程度。 這是正確識別到的肯定 (確判為真) 與所有識別到的肯定之間的比率。 精確度計量會顯示已正確標示的預測類別數目。
Project
專案是一個工作區域,用於根據您的資料建置自訂 ML 模型。 專案只能由您和其他具有所使用 Azure 資源存取權的人員存取。
當您建立新專案時,您必須將資源連接至含有資料集的儲存體帳戶,作為建立自訂文字分類專案的先決條件。 您的專案會自動包含容器中可用的所有 .txt
檔案。
在您的專案中,您可以執行下列動作:
- 標示資料:此程序會標示資料,以在定型模型時學習您想要擷取的內容。
- 建置和定型模型:專案的核心步驟,您的模型會從您所標示的資料開始學習。
- 檢視模型評估詳細資料:檢閱您的模型效能,以確定是否有改進空間,或者您對結果是否感到滿意。
- 部署:檢閱模型效能並決定是否適合用於環境之後,您必須將模型指派給部署,才能進行查詢。 將模型指派給部署時,可透過預測 API 使用該模型。
- 測試模型:在部署模型之後,您可以在 Language Studio 中使用此作業來試用您的部署,並查看在生產環境中執行的成效。
專案類型
自訂文字分類支援兩種類型的專案
- 單一標籤分類:您只能為資料集中的每一個文件指派一個類別。 例如,電影腳本只能分類為「愛情片」或「喜劇」。
- 多重標籤分類:您可以為資料集中的每一個文件指派多個類別。 例如,電影腳本可以分類為 「喜劇」,或「愛情片」和「喜劇」。
重新叫用
測量模型預測實際肯定類別的能力。 這是所預測確判為真與實際標記項目之間的比率。 召回率計量會顯示有多少預測類別是正確的。