什麼是自訂具名實體辨識?
自訂 NER 是 Azure AI 語言所提供的其中一項自訂功能。 其是一項雲端式 API 服務,可套用機器學習智慧,讓您為自訂具名實體辨識工作建置自訂模型。
自訂 NER 可讓使用者建置自訂 AI 模型,以從非結構化文字 (例如合約或財務文件) 擷取特定領域的實體。 建立自訂 NER 專案,開發人員即可先反覆標示資料、定型、評估以及改善模型效能,再使其可供取用。 已標示資料的品質會大幅影響模型效能。 為了簡化模型的建立和自訂,服務提供可透過語言工作室存取的自訂入口網站。 您可以遵循本快速入門中的步驟,輕鬆地開始使用服務。
此文件包含下列類型的文章:
使用案例範例
自訂具名實體辨識可以用於各種產業的多個案例:
資訊擷取
許多財務和法律組織每天都會擷取和標準化來自數千個複雜非結構化文字來源的資料。 這類來源包括銀行對帳單、法律合約或銀行表單。 例如,人類檢閱者手動進行的抵押應用程式資料擷取可能需要數天的時間才能完成擷取。 建置自訂 NER 模型來自動化這些步驟,可簡化程序,以及節省成本、時間和精力。
增強/擴充語義搜尋的知識挖掘
搜尋是任何向使用者呈現文字內容的應用程式的基礎。 常見的案例包括目錄或文件搜尋、零售產品搜尋,或資料科學的知識挖掘。 許多不同產業的企業都想要跨私人異質內容 (包括結構化和非結構化文件) 來建置豐富的搜尋體驗。 開發人員可以使用自訂 NER,從與產業相關的文字中擷取實體,以作為管線的一部分。 這些實體可以用來擴充檔案的索引,以提供更多自訂的搜尋體驗。
稽核和合規性
與其手動檢閱很長的文字檔來稽核和套用原則,財務或法律企業中的 IT 部門可以使用自訂 NER 來建立自動化的解決方案。 這些解決方案有助於強制執行合規性原則,並根據處理結構化和非結構化內容的知識挖掘管線來設定必要的商務規則。
專案開發生命週期
使用自訂 NER 通常牽涉到幾個不同的步驟。
定義結構描述:了解您的資料,並找出您想要擷取的實體。 避免模稜兩可。
標示資料:標示資料是判斷模型效能的關鍵因素。 精確、一致且完整地標示。
- 精確標記:一律將每個實體標記為其正確的類型。 在標籤中只要包括您想要擷取的內容,避免不必要的資訊。
- 一致標記:相同的實體在所有檔案中都應該有相同的標籤。
- 完整標記:標記所有檔案中實體的所有執行個體。
定型模型:您的模型會從已標示資料開始學習。
檢視模型效能:定型完成後,檢視模型的評估詳細資料及其效能。
部署模型:部署模型使其可以透過分析 API 來使用。
擷取實體:使用您的自訂模型來進行實體擷取工作。
參考文件和程式碼範例
當您使用自訂 NER 時,請參閱下列 Azure AI 語言參考文件和範例:
開發選項/語言 | 參考文件 | 範例 |
---|---|---|
REST API (撰寫) | REST API 文件 (英文) | |
REST API (執行階段) | REST API 文件 (英文) | |
C# (執行階段) | C# 文件 | C# 範例 |
Java (執行階段) | Java 文件 | Java 範例 |
JavaScript (執行階段) | JavaScript 文件 | JavaScript 範例 \(英文\) |
Python (執行階段) | Python 文件 | Python 範例 |
負責 AI
AI 系統不僅包括技術,還包括將使用該技術的人員、將受其影響的人員,以及部署所在的環境。 閱讀自訂 NER 的透明度資訊,了解系統中負責的 AI 使用和部署。 如需詳細資訊,您也可以參閱下列文章: