什麼是自訂文字分類?
自訂文字分類是 Azure AI 語言所提供的其中一項自訂功能。 其是一項雲端式 API 服務,可套用機器學習智慧,讓您為文字分類工作建立自訂模型。
自訂文字分類可讓使用者建置自訂的 AI 模型,以將文字分類為使用者預先定義的自訂類別。 建立自訂文字分類專案,開發人員即可先反覆標示資料、定型、評估以及改善模型效能,再使其可供取用。 已標示資料的品質會大幅影響模型效能。 為了簡化模型的建立和自訂,服務提供可透過語言工作室存取的自訂入口網站。 您可以遵循本快速入門中的步驟,輕鬆地開始使用服務。
自訂文字分類支援兩種類型的專案:
- 單一標籤分類:您只能為資料集中的每一個文件指派一個類別。 例如,電影腳本只能分類為「愛情片」或「喜劇」。
- 多重標籤分類:您可以為資料集中的每一個文件指派多個類別。 例如,電影腳本可以分類為 「喜劇」,或「愛情片」和「喜劇」。
此文件包含下列類型的文章:
使用案例範例
自訂文字分類可以用於各種產業的多個案例:
自動電子郵件或票證分級
所有類型的支援中心都會收到大量電子郵件或票證,其中包含非結構化、自由格式的文字和附件。 及時檢閱、確認及路由傳送至內部團隊內部的主題專家至關重要。 這種規模的電子郵件分級需要有人檢閱再轉送到正確部門,這會花上許多時間和資源。 您可以使用自訂文字分類來分析傳入的文字,然後加以分級,並將內容分類以便能夠自動轉送至相關部門,以供採取進一步的動作。
增強/擴充語義搜尋的知識挖掘
搜尋是任何向使用者呈現文字內容的應用程式的基礎。 常見的案例包括目錄或文件搜尋、零售產品搜尋,或資料科學的知識挖掘。 許多不同產業的企業都想要跨私人異質內容 (包括結構化和非結構化文件) 來建置豐富的搜尋體驗。 開發人員可以使用自訂文字分類將其文字分類為與產業相關的類別,以作為管線的一部分。 預測類別可用於擴充檔案的索引,以提供更多自訂的搜尋體驗。
專案開發生命週期
建立自訂文字分類專案通常牽涉到幾個不同的步驟。
遵循下列步驟以充分運用您的模型:
定義您的結構描述:了解您的資料,並找出您想要區分的類別,避免混淆。
標記您的資料:資料標記的品質是決定模型效能的關鍵因素。 如果您有一個可分成兩個類別的文件使用多重標籤分類專案,則屬於相同類別的文件應該一律具有相同的類別。 避免類別不明確的情況,請確定您的類別清楚地彼此分離,尤其是單一標籤分類專案。
定型模型:您的模型會從已標示資料開始學習。
檢視模型的效能:檢視模型的評估詳細資料,以判斷引進新資料時所執行的程度。
部署模型:部署模型使其可以透過分析 API 來使用。
分類文字:使用您的自訂模型來進行自訂文字分類工作。
參考文件和程式碼範例
當您使用自訂文字分類時,請參閱下列 Azure AI 語言參考文件和範例:
開發選項/語言 | 參考文件 | 範例 |
---|---|---|
REST API (撰寫) | REST API 文件 (英文) | |
REST API (執行階段) | REST API 文件 (英文) | |
C# (執行階段) | C# 文件 | C# 範例 - 單一標籤分類C# 範例 - 多重標籤分類 |
Java (執行階段) | Java 文件 | Java 範例 - 單一標籤分類Java 範例 - 多重標籤分類 |
JavaScript (執行階段) | JavaScript 文件 | JavaScript 範例 - 單一標籤分類JavaScript 範例 - 多重標籤分類 |
Python (執行階段) | Python 文件 | Python 範例 - 單一標籤分類Python 範例 - 多重標籤分類 |
負責 AI
AI 系統不僅包括技術,還包括將使用該技術的人員、將受其影響的人員,以及部署所在的環境。 閱讀自訂文字分類的透明度資訊,了解系統中負責的 AI 使用和部署。 如需詳細資訊,您也可以參閱下列文章: