在 Azure 上建立和部署自訂文件處理模型

Azure AI 文件智慧服務
Foundry Tools
Azure Logic 應用程式
Azure Machine Learning Studio
Microsoft Foundry
Azure 儲存體

本文說明用於建置、訓練、部署和使用自訂文件處理模型的 Azure 解決方案。 這些 Azure 服務也提供使用者介面(UI)能力,可在處理過程中標籤或標記文字。

架構

圖表,其中顯示自定義文件處理模型建置和部署程序的數個替代方案。

下載此架構的 Visio 檔案

數據流

下列數據流對應至上圖:

  1. Azure Logic Apps、Azure Data Factory 或 Azure Functions 等協調器會從電子郵件伺服器擷取訊息和附件,以及從檔案傳輸通訊協定伺服器或 Web 應用程式擷取檔案。

    • Azure Functions 和 Azure Logic Apps 可啟用無伺服器工作負載。 您選擇的服務取決於您對開發、連接器、管理和作業內容等服務功能的偏好。 如需詳細資訊,請參閱 比較 Azure Functions 和 Azure Logic Apps

    • 請考慮使用 Azure Data Factory 來大量移動資料。

  2. 協調器會將擷取的資料傳送至 Azure Blob 儲存體或 Azure Data Lake 儲存體。 他們根據檔案副檔名或客戶詳細資訊等特徵來組織這些商店中的資料。

  3. 您可以獨立或組合使用下列 Azure 服務來定型檔和建置自訂模型,以解決各種使用案例。

  4. 若要部署自訂模型並使用它們進行推斷:

    • Foundry Tools 中的 Azure 文件智慧內建模型部署功能。 使用自訂模型進行推斷是使用 SDK文件模型 REST API 來完成。 在建立模型期間指定的 modelId模型名稱會包含在文件分析的要求 URL 中。 文件智慧服務不需要任何進一步的部署步驟。

    • Language Studio 提供部署自訂語言模型的選項。 選取要部署的模型,以取得 REST 端點 預測 URL 。 您可以使用 REST 端點或 Azure SDK 用戶端程式庫來推斷模型。

    • Machine Learning 會將自訂模型部署至線上或批次 Machine Learning 受控端點。 您也可以使用 Machine Learning SDK 部署 至 Azure Kubernetes Service (AKS) 做為 Web 服務。 微調的基礎模型可以透過受控運算或 無伺服器 API 從模型目錄部署。 透過受控計算部署的模型可以使用受控端點進行推斷,其中包括用於即時推論的線上端點和用於批次推論的批次端點。

    • Foundry 提供多種部署 精細調整的 Azure OpenAI 模型選項。 您可以使用 Python SDK 或 REST API 來部署這些模型。 您也可以將 Meta 或 Llama 等提供者的微調基礎模型部署為 無伺服器 API, 或使用 受管運算

Components

  • Azure Logic AppsAzure Integration Services 的一部分。 邏輯應用程式會建立整合應用程式、資料、服務和系統的自動化工作流程。 在此架構中,Logic Apps 會協調從各種來源擷取文件和資料,並觸發文件處理的下游程式。 您可以使用 Azure 儲存體和 Microsoft 365 等服務的 受控連接器 ,在檔案到達儲存體帳戶或收到電子郵件時觸發工作流程。

  • Azure Data Factory 是受控資料整合服務,用於協調和自動化資料移動和轉換。 在此架構中,Azure Data Factory 會將 轉換活動 新增至管線,例如叫用 REST 端點或在匯入的資料上執行筆記本。

  • Azure Functions 是無伺服器計算服務,可裝載具有短期進程的事件驅動工作負載。 在此架構中,Functions 可讓工作負載處理傳入文件並觸發模型處理管線。

  • Blob 儲存體 是一種物件儲存解決方案,用於儲存非結構化資料。 Blob 儲存體支援多種語言的程式庫,例如 .NET、Node.js和 Python。 應用程式可以透過 HTTP 或 HTTPS 存取 Blob 儲存體上的檔案。 Blob 儲存體具有 經常性存取層、非經常性存取層和封存存取層 ,以支援儲存大量資料的成本最佳化。 在此架構中,此帳戶是使用熱層的原始檔案的解決方案。

  • Data Lake Storage 是可調整的雲端式存放庫,用於儲存和組織大量非結構化資料。 在此架構中,Data Lake Storage 會組織和維護大量擷取的資料,以支援分析、標籤和機器學習工作流程。

  • 文件智慧Foundry 工具的一個組成部分。 在此架構中,它提供了內建的文件分析功能,用於提取列印和手寫的文字、表格和鍵值對。 文件智慧服務具有預先建置的模型,可從發票、文件、收據、身分證和名片擷取資料。 文件智慧服務也有 自訂範本 表單模型和 自訂神經 文件模型,可用來定型和部署自訂模型。

  • 文件智慧服務工作室 提供探索文件智慧服務功能和模型的介面。 您可以使用介面來標記資料並建立自訂文件處理模型。

  • Foundry Tools 中的 Azure 語言 整合了 Azure 自然語言處理(NLP)服務。 它提供 預先建置和可自訂的選項 和語言理解功能。 使用它來對文件進行分類、識別命名實體以及完成其他 NLP 任務。

  • Language Studio 是語言中以 Web 為基礎的 UI,可用來建置、定型、管理和部署語言模型。 在此架構中,它支援標記、訓練和部署自訂語言模型,以執行文件處理管道內的分類和實體擷取等任務。 自動標記 支援自訂文字分類,可以自動將文件標記為不同的類別或類別。 該工作室還提供查看 模型性能的選項,包括 F1 分數、精度和召回率。

  • Azure Machine Learning 是用於大規模模型開發和部署的受控機器學習平台。 在此架構中,它會標記資料、訓練自訂模型 (包括使用開放原始碼架構),以及部署模型以進行推論工作。

    • 機器學習工作室提供 影像文字的資料標籤選項。 它支援此架構內的模型定型工作流程。

    • 將標記資料匯出COCO 或機器學習資料集。 您可以使用這些資料集在機器學習筆記本中定型和部署模型。

  • Azure OpenAI 提供強大的語言模型和多模態模型作為 REST API,讓你能用來完成各種任務。 在此架構中,Azure OpenAI 模型處理進階語言任務,如 微調模型 ,以提升基礎模型原始訓練中缺失或代表性不足的資料效能。 你也可以利用多家供應商的基礎模型來完成這些任務。

Alternatives

您可以根據特定使用案例,將更多工作流程新增至此案例。

案例詳細資料

文件處理涵蓋廣泛的任務。 使用語言和文件智慧服務中可用的預先建置模型,可能很難滿足所有文件處理需求。 您可能需要建立自訂模型,以自動化不同應用程式和網域的文件處理。

模型客製化的主要挑戰包括:

  • 使用相關的鍵值組實體來標記或標籤文字資料,以便於分類和擷取。

  • 管理訓練基礎架構,例如運算和儲存,及其整合。

  • 大規模部署模型以供應用程式取用。

潛在應用情境

下列使用案例可以利用自訂模型進行文件處理:

  • 根據開放原始碼架構建置自訂 NER 和文字分類模型。

  • 從保險和醫療保健等各個垂直行業的文件中提取自定義關鍵值。

  • 標記並擷取特定網域相關實體,超出針對安全或金融等網域的 預先建置 NER 模型

  • 從文件建立自訂表格。

  • 提取簽名。

  • 根據內容標記電子郵件或其他文件並對其進行分類。

  • 根據您的資料總結文件或建立自訂問答模型。

考慮事項

這些考量能實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可以用來改善工作負載的品質。 如需詳細資訊,請參閱 Well-Architected Framework

針對此範例工作負載,實作每個要素都取決於以最佳方式設定和使用每個元件 Azure 服務。

Reliability

可靠性有助於確保您的應用程式可以符合您對客戶的承諾。 如需詳細資訊,請參閱可靠性的設計檢閱檢查清單

Availability

Resiliency

安全性

安全性可提供針對蓄意攻擊和濫用寶貴數據和系統的保證。 如需詳細資訊,請參閱安全性的設計檢閱檢查清單

實作資料保護、身份與存取管理,以及針對 Blob StorageFoundry Tools for Document Intelligence 與 Language Studio、 Machine Learning 以及 Azure OpenAI 的網路安全建議。

成本優化

成本優化著重於減少不必要的費用,並提升營運效率的方式。 如需詳細資訊,請參閱成本最佳化的設計檢閱檢查清單

實作此解決方案的總成本取決於您選擇的服務定價。

此解決方案的主要成本包括:

如需特定元件定價的詳細資訊,請參閱下列資源:

使用 Azure 定價計算機 來新增您選擇的元件選項,並預估解決方案的整體成本。

效能效率

效能效率是指工作負載能夠有效率地調整以符合使用者需求。 有關詳細資訊,請參閱效能效率的設計審核清單

Scalability

貢獻者們

本文由 Microsoft 維護。 下列參與者撰寫本文。

主要作者:

若要查看非公開的 LinkedIn 個人檔案,請登入 LinkedIn。

後續步驟