如何對自訂文字分類使用自動標記
標記程序是在準備資料集時的重要部分。 由於此流程需要花費大量的時間和精力,您可以使用自動標記功能自動為檔案標記要將其分類至的類別。 您目前可以以使用 GPT 模型為基礎的模型啟動自動標記作業,其中您可以在沒有任何模型定型的情况下立即觸發自動標記作業。 此功能可以節省手動標記文件的時間和精力。
必要條件
在您搭配 GPT 使用自動標記之前,您需要:
- 使用已設定 Azure Blob 儲存體帳戶成功建立的專案。
- 已上傳至儲存體帳戶的文字資料。
- 有意義的類別名稱。 GPT 模型根據您提供的類別之名稱來標記文件。
- 不需要已標記的資料。
- Azure OpenAI 資源和部署。
觸發自動標記作業
當您使用 GPT 觸發自動標記作業時,系統會根據使用量向您收取 Azure OpenAI 資源的費用。 系統會向您收取進行自動標記的每份文件中權杖數目的估計費用。 如需不同模型的每個權杖的定價詳細明細,請參閱 Azure OpenAI 定價頁面。
從左側導覽功能表,選取 [資料標記]。
選取頁面右側 [活動] 窗格底下的 [自動標籤] 按鈕。
選擇 [使用 GPT 自動標記],然後選取 [下一步]。
選擇 Azure OpenAI 資源和部署。 您必須建立 Azure OpenAI 資源並部署模型,才能繼續進行。
選取要包含在自動標記作業中的類別。 根據預設,會選取所有類別。 建議為類別提供描述性名稱,並為每個類別提供範例,以實現 GPT 的良好品質標記。
選擇要自動標記的文件。 建議您從篩選條件中選擇未標記的文件。
注意
- 如果文件已自動標記,但此標籤已由使用者定義,則僅使用使用者定義的標籤。
- 您可以按一下文件名稱來檢視文件。
選取 [啟動作業] 以觸發自動標記作業。 您應該導向至自動標記頁面,其中顯示起始的自動標記作業。 自動標記作業可能需要幾秒鐘到幾分鐘的時間,視您包含的文件數目而定。
檢閱已自動標記的文件
當自動標記作業完成時,您可以在 Language Studio 的 [資料標記] 頁面中看到輸出文件。 選取 [檢閱具有自動標記的文件],以檢視已套用已自動標記篩選條件的文件。
已自動分類的檔案在活動窗格中的建議標籤以紫色醒目提示。 每個建議的標籤都有兩個選取器 (一個勾選記號和一個取消圖示),允許您接受或拒絕自動標籤。
接受標籤後,紫色將變為預設的藍色,並且標籤將包含在任何後續模型定型中,成為使用者定義的標籤。
接受或拒絕自動標記文件的標籤後,請選取 [儲存標籤] 以套用變更。
注意
- 我們建議在接受自動標記的文件之前對其進行驗證。
- 當您定型模型時,所有未接受的標籤都會遭到刪除。
下一步
- 深入了解如何標記資料。