自訂具名實體辨識 (NER) 是一種雲端式 API 服務,它使用機器學習來協助您建置專為獨特實體辨識需求設計的模型。 這是 Foundry Tools 中 Azure 語言提供的專門功能之一。 使用自定義 NER,您可以創建 AI 模型,從非結構化文本(例如合同或財務文件)中提取特定領域的實體。 當您啟動自訂 NER 專案時,您可以重複標記資料、定型和評估模型,並在部署之前改善其效能。 標記資料的品質至關重要,因為它直接影響模型的準確性。
為了簡化模型建置與客製化,該服務提供可透過 Microsoft Foundry 存取的客製化網頁平台。 您可以遵循本快速入門中的步驟,輕鬆地開始使用服務。
此文件包含下列類型的文章:
使用案例範例
自訂具名實體辨識可用於各產業的多種場景:
資訊擷取
許多財務和法律組織每天都會擷取和標準化來自數千個複雜非結構化文字來源的資料。 這類來源包括銀行對帳單、法律合約或銀行表單。 例如,人類檢閱者手動進行的抵押應用程式資料擷取可能需要數天的時間才能完成擷取。 建置自訂 NER 模型來自動化這些步驟,可簡化程序,以及節省成本、時間和精力。
增強/擴充語義搜尋的知識挖掘
搜尋是任何向使用者呈現文字內容的應用程式的基礎。 常見的案例包括目錄或文件搜尋、零售產品搜尋,或資料科學的知識挖掘。 許多不同產業的企業都想要跨私人異質內容 (包括結構化和非結構化文件) 來建置豐富的搜尋體驗。 開發人員可以使用自訂 NER,從與產業相關的文字中擷取實體,以作為管線的一部分。 這些實體可以用來擴充檔案的索引,以提供更多自訂的搜尋體驗。
稽核和合規性
財務或法律企業的 IT 部門可以使用自訂 NER 來建置自動化解決方案,而不是手動檢閱長文字檔案來稽核和套用原則。 這些解決方案有助於強制執行合規性原則,並根據處理結構化和非結構化內容的知識挖掘管線來設定必要的商務規則。
專案開發生命週期
使用自訂 NER 通常牽涉到幾個不同的步驟。
定義結構描述:了解您的資料,並找出您想要擷取的實體。 避免模稜兩可。
標示資料:標示資料是判斷模型效能的關鍵因素。 精確、一致且完整地標示。
- 精確標記:一律將每個實體標記為其正確的類型。 僅包含您想要提取的內容,並避免在標籤中添加不必要的數據。
- 一致標記:相同的實體在所有檔案中都應該有相同的標籤。 完整標記:標記所有檔案中實體的所有執行個體。
定型模型:您的模型會從已標示資料開始學習。
查看模型的性能: 訓練後,審查評估結果並分析性能以進行改進。
部署模型:部署模型使其可以透過分析 API 來使用。
擷取實體:使用您的自訂模型來進行實體擷取工作。
參考文件和程式碼範例
使用自訂 NER 時,請參考以下 Azure 語言在 Foundry Tools 中的參考文件與範例:
| 開發選項/語言 | 參考文件 | 範例 |
|---|---|---|
| REST API (撰寫) | REST API 文件 (英文) | |
| REST API (執行階段) | REST API 文件 (英文) | |
| C# (執行階段) | C# 文件 | C# 範例 |
| Java (執行階段) | Java 文件 | JAVA 範例 |
| JavaScript (執行階段) | JavaScript 文件 | JavaScript 範例 \(英文\) |
| Python (執行階段) | Python 文件 | Python 範例 |
負責任的 AI
AI 系統不僅包含技術,也包含使用該技術的人員、受其影響的人員及所部署的環境。 閱讀 透明度說明 ,瞭解在系統中負責任地使用和部署 AI。 如需詳細資訊, 請參閱 下列文章: