從非結構化內容擷取和對應資訊
解決方案構想
本文說明解決方案概念。 您的雲端架構師可以使用本指南,協助視覺化此架構的一般實作的主要元件。 以本文為起點,設計符合您工作負載具體要求的完善解決方案。
此架構描述使用信賴評分和使用者驗證,擷取數據並套用跨多模式內容架構的內容處理解決方案。 它會從非結構化內容擷取資訊,並將其對應至結構化格式,以處理宣告、發票、合約和其他檔。 此架構會套用 Azure AI Foundry、Azure AI Content Understanding、Azure AI Foundry 模型中的 Azure OpenAI,以及其他 Azure 服務,透過事件驅動處理管線轉換大量非結構化內容。
此架構示範如何建置可調整的系統來處理內容。 系統會處理文字、影像、數據表和圖表,並包含商務檔工作流程的自動質量檢查和人工檢閱。
建築
下載此架構的 Visio 檔案。
Workflow
下列工作流程對應至上圖:
使用者透過 Web 前埠上傳多模式內容,例如檔、影像、合約和發票。 內容會以特定的處理需求和目標架構提交。
Azure Container Apps 網站會收到內容上傳要求,並叫用容器應用程式中裝載的處理 API。 這兩個元件都是針對此案例量身打造的自定義編碼解決方案。 API 會選取適當的處理管線,並起始內容分析工作流程。
容器應用程式會管理處理工作流程。 它會將 Content Understanding 與 Foundry 模型中的 Azure OpenAI 連接,以執行光學字元辨識 (OCR) 並擷取文字。 這些模型會對應架構,並將擷取的數據轉換成結構化格式。
Content Understanding 會執行機器學習式 OCR,以便從各種內容格式進行有效率的文字擷取,包括影像、數據表和圖形。
使用 GPT 視覺的 Foundry 模型中的 Azure OpenAI 會處理擷取的內容、將其對應至自定義或業界定義的架構,併產生具有信賴評分的結構化 JSON 輸出。
Container Apps 中的協調流程程式代碼會儲存已處理的結果、信賴分數、架構對應,以及記錄處理數據,以取得 Azure Cosmos DB 中的稽核線索和持續改善。
Container Apps 中的協調流程程式代碼會使用 Azure Blob 記憶體來儲存原始檔、中繼處理成品,以及可靠的數據持續性和擷取的最終結構化輸出。
Azure 佇列記憶體會管理此解決方案服務之間的事件驅動處理工作流程。 此管理可確保跨管線元件進行可靠的訊息處理和處理協調。
內容處理器監視網站會透過 Web 介面向使用者顯示已處理的結果。 用戶可以檢閱結構化 JSON 輸出、更正任何錯誤、新增內容或意見反應的批注,並將最終驗證的結果儲存至系統。
內容處理器監視網站會將處理計量和用戶意見反應數據直接饋送至Power BI儀錶板。 Azure Cosmos DB 中儲存的已處理數據和元數據提供內容處理管線的完整分析。 這些深入解析包括 KPI、成功率、檔案類型發佈、信賴分數趨勢、使用者更正模式,以及其他支援內容處理管線數據驅動優化的作計量。
元件
Container Apps 是無伺服器容器平臺,可用來在無伺服器平台上執行微服務和容器化應用程式。 在此架構中,Container Apps 會裝載處理管線 API,以協調內容分析、AI 服務之間的座標,以及管理擷取和轉換工作流程。 執行的程式代碼是由軟體工程小組所撰寫的自定義程序代碼。
Azure AI Foundry 是受控 AI 服務,可讓您存取進階語言模型以進行自然語言處理和產生。 在此架構中,Azure AI Foundry 提供部署和管理內容處理管線中使用的 AI 模型的基礎,而且是連線 AI 服務的閘道,例如 Content Understanding。
Foundry 模型中的 Azure OpenAI 是 Azure AI Foundry 的一個元件,可提供語言模型,包括 GPT-4o 和 GPT-4o 迷你。 在此架構中,模型會裝載為 Azure AI Foundry 中的服務。 這些模型會執行架構型數據轉換、將擷取的內容對應至結構化格式,以及計算擷取精確度的信賴分數。
Content Understanding 是多模式 AI 服務,可分析各種媒體內容,例如音訊、視訊、文字和影像,並將其轉換成結構化、可搜尋的數據。 在此架構中,Content Understanding 會準確地從多模式文件執行進階 OCR 和內容擷取。
Azure Cosmos DB 是全域散發的多模型資料庫服務,可提供保證低延遲和彈性延展性。 在此架構中,Azure Cosmos DB 會儲存已處理的結果、信賴分數、驗證結果,以及稽核線索和效能優化的歷程記錄處理數據。
Blob 記憶體 是Microsoft物件記憶體解決方案,已針對儲存大量非結構化數據而優化。 在此架構中,Blob 記憶體會維護源檔、中繼處理成品,以及具有可靠持久性和全域輔助功能的最終結構化輸出。
Azure Container Registry 是受控 Docker 登錄服務,可儲存和管理容器映射。 在此架構中,Container Registry 會管理處理管線元件的已建立版本的容器映射。 此系統可確保一致的部署和復原功能。
Power BI 是軟體服務、應用程式和連接器的集合,可一起合作,協助您建立、共用及取用商務見解,以最適合您和貴組織的方式。 在此架構中,Power BI 會連線到 Azure Cosmos DB,並從監視 Web 應用程式接收即時處理計量,以提供文件處理效能、使用者意見反應模式和作 KPI 的完整分析。
案例詳細資料
此內容處理解決方案解決了從組織每日接收的大量非結構化、多模式內容擷取有意義數據的挑戰。 傳統的手動處理檔,例如合約、發票、宣告和合規性報告,是耗時、容易出錯,而且不會隨著業務成長而進行調整。 因此,組織面臨數據品質不一致、缺乏標準化,以及難以將擷取的資訊整合到下游商務程式。
此解決方案會使用進階 AI 服務,從各種文件類型自動擷取、轉換及驗證內容。 系統會提供信賴評分,以啟用高信賴擷取的自動化處理,同時為人類檢閱標示較低的信賴度結果。 這種方法可確保速度和正確性,同時維持處理各種內容格式和自定義商務架構的彈性。
潛在應用情境
金融服務處理
宣告處理自動化: 使用自動化驗證和合規性檢查,從保險理賠檔、相片和調整程序報告擷取原則詳細數據、損害評估及成本估計。
發票和合約處理: 使用核准工作流程的信賴評分,自動從發票和合約擷取廠商資訊、明細專案、條款及條件,並將其對應至企業系統。
法規檔分析: 處理法規檔、合規性報告和稽核檔,以擷取關鍵計量,並確保遵守財務法規和報告需求。
醫療保健檔
臨床文件處理: 從醫療記錄、實驗室報告和臨床記錄整合中擷取患者資訊、診斷、治療計劃和藥物資訊。
醫療計費自動化: 處理醫療理賠、帳單和保險窗體,以擷取自動計費工作流程的程式代碼、病患詳細數據和涵蓋範圍資訊。
研究數據擷取: 分析臨床試驗檔、研究論文和患者同意窗體,以擷取醫學研究工作流程的研究參數、結果和合規性數據。
法律和合規性
合約分析和擷取: 處理法律合約、合約和修訂,以擷取合約管理與合規性監視的重要條款、義務、日期和合作物件。
法律檔探索: 分析法律簡報、證詞和案件檔案,以擷取訴訟支援和案件準備的相關事實、引文和證據。
合規性檔: 處理法規提交、稽核報告和合規性憑證,以擷取治理工作流程的需求、結果和更正動作。
製造和供應鏈
品質文件處理: 從品質控制檔和憑證擷取檢查結果、測試數據和認證詳細數據,以進行合規性追蹤和程序改進。
供應商檔: 處理廠商認證、材料規格和出貨檔,以擷取採購工作流程的合規性數據和供應鏈資訊。
維護記錄分析: 從預測性維護和資產管理系統的技術檔擷取設備數據、維護排程和維修歷程記錄。
替代選擇
此架構包含多個元件,您可以根據工作負載的功能和非功能需求來替代其他 Azure 服務或方法。 請考慮下列替代方案和取捨。
內容擷取方法
目前的方法: 此解決方案使用 Content Understanding 進行進階 OCR 和內容擷取,並結合 Azure OpenAI 進行架構對應和轉換。 此方法針對具有彈性架構自定義的複雜多模式內容提供高精確度。
替代方法: 針對發票、收據和窗體等常見檔類型使用預先建置的模型,使用 Azure AI 檔智慧進行文件處理。 此方法提供更快速的標準檔類型實作,但自定義架構的彈性較低。
如果您的工作負載具有下列特性,請考慮此替代方案:
您主要處理具有妥善定義格式的標準文件類型。
您需要更快速地使用預先建置的擷取模型來上市。
您的架構需求與標準文件智慧模型一致。
您有有限的自定義開發資源來進行架構對應。
處理協調流程
目前的方法: 此解決方案會使用 Container Apps 來裝載可協調內容分析管線的自定義處理邏輯。 此方法提供處理工作流程、錯誤處理和自定義商業規則整合的最大控制權。
替代方法: 使用 Azure Logic Apps 或 Azure Functions 搭配 AI 服務內建連接器的工作流程協調流程。 此方法提供可視化工作流程設計和受控服務的優點,但對處理邏輯的控制較少。
如果您的工作負載具有下列特性,請考慮此替代方案:
您偏好可視化工作流程設計,而不是自定義程式碼開發。
您的處理工作流程相對簡單,並使用標準條件式邏輯。
您想要將基礎結構管理額外負荷降至最低。
您的小組比容器化應用程式更擅長低程式碼和無程式程式程式碼解決方案。
成本優化
成本優化著重於減少不必要的費用,並提升營運效率的方式。 如需詳細資訊,請參閱成本最佳化的設計檢閱檢查清單。
如需執行此案例之成本的詳細資訊,請參閱 Azure 定價計算機中的預先設定估計值。
定價會因區域和使用量而異,因此無法預測部署的確切成本。 此基礎結構中使用的大部分 Azure 資源都遵循以使用量為基礎的定價層。 不過,Container Registry 每天會產生每個登錄的固定成本。
部署此案例
若要部署此架構的實作,請遵循 GitHub 存放庫中的步驟。
貢獻者們
本文由 Microsoft 維護。 下列參與者撰寫本文。
主要作者:
- 所羅門·彼克特 |軟體工程師II
其他參與者:
- Todd Herman |首席軟體工程師
若要查看非公開的 LinkedIn 個人檔案,請登入 LinkedIn。