我應該選擇哪個模型?
重要
- 文件智慧服務公開預覽版本可供您搶先試用積極開發中的功能。
- 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- 文件智慧服務用戶端程式庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview。
- 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
- 美國東部
- 美國西部 2
- 西歐
此內容適用於: v3.1 (GA) | 最新版本: v4.0 (預覽版) | 較舊版本: v3.0
此內容適用於: v3.0 (GA) | 最新版本: v4.0 (預覽版) v3.1
Azure AI 文件智慧服務支援各種不同的模型,可讓您將智慧型文件處理新增至應用程式,並將工作流程最佳化。 選取正確的模型是確保企業成功的必要條件。 在本文中,我們會探索可用的文件智慧服務模型,並提供如何為專案選擇最佳解決方案的指導。
以下的決策圖表醒目提示每個文件智慧服務 v3.0 支援模型的功能,並協助您選擇符合應用程式需求的最佳模型。
重要
請務必檢查語言支援頁面,以了解支援的語言文字和依功能的欄位擷取。
預先定型的文件分析模型
Document type | 範例 | 要擷取的資料 | 您的最佳解決方案 |
---|---|---|---|
一般文件。 | 合約或信件。 | 您想要主要擷取手寫或印刷文字行、字組、位置和偵測到的語言。 | 讀取 OCR 模型 |
包含結構化資訊的文件。 | 報告或研究。 | 除了手寫或印刷文字之外,您還需要擷取結構化資訊,例如表格、選取項目標記、段落、標題和子標題。 | 版面配置分析模型 |
結構化或半結構化文件,其中包含格式化為欄位 (索引鍵) 和值的內容。 | 表單或文件,是商務或產業中常用的標準化格式,例如信用卡申請或問卷。 | 您想要擷取欄位和值,包括案例特定預先建置模型未涵蓋的欄位和值,而不需要定型自訂模型。 | **已啟用選擇性查詢字串參數 features=keyValuePairs 的版面配置分析模型** |
預先定型的情節特定模型
Document type | 要擷取的資料 | 您的最佳解決方案 |
---|---|---|
美國 W-2 稅務表單 | 您想要擷取所扣繳的薪資、工資和稅金等重要資訊。 | 美國稅務 W-2 模型 |
美國稅務 1098 表單 | 您想要擷取抵押貸款利息詳細資料,例如本金、點數和稅金。 | 美國稅務 1098 模型 |
美國稅務 1098-E 表單 | 您想要擷取學生貸款利息詳細資料,例如貸款人和利息金額。 | 美國稅務 1098-E 模型 |
美國稅務 1098T 表單 | 您想要擷取符合條件的學費詳細資料,例如獎學金調整、學生身份和貸款人資訊。 | 美國稅務 1098-T 模型 |
美國稅務 1099(變化類型) 表單 | 您想要從 1099 表單及其變化類型 (A、B、C、CAP、DIV、G、H、INT、K、LS、LTC、MISC、NEC、OID、PATR、Q、QA、R、S、SA、SB) 中擷取資訊。 |
美國稅務 1099 模型 |
美國稅務 1040(變化類型) 表單 | 您想要從 1040 表單及其變化類型 (副表 1、副表 2、副表 3、副表 8812、副表 A、副表 B、副表 C、副表 D、副表 E、副表 EIC、副表 F、副表 H、副表 J、副表 R、副表 SE、年長者副表) 中擷取資訊。 |
美國稅務 1040 模型 |
合約 (雙方的法律協定)。 | 您想要擷取合約協議詳細資料,例如參與方、日期和間隔。 | 合約模型 |
健保卡或健康保險識別碼。 | 您想要擷取保險公司、成員識別碼、處方涵蓋範圍和群組號碼等重要資訊。 | 健保卡模型 |
信用卡/轉帳卡。 | 您想要擷取銀行卡的重要資訊,例如卡號和銀行名稱。 | 信用卡/轉帳卡模型 |
結婚證書。 | 您想要從結婚證書中擷取重要資訊。 | 婚姻證書模型 |
發票或帳單。 | 您想要擷取客戶名稱、帳單地址和金額等重要資訊。 | 發票模型 |
收據、票券或單頁旅館收據。 | 您想要擷取商家名稱、交易日期和交易總計等重要資訊。 | 收據模型 |
身分識別文件 (識別碼),例如美國駕照或國際護照。 | 您想要擷取名字、姓氏、出生日期、地址和簽名等重要資訊。 | 身分識別文件 (ID) 模型 |
美國抵押貸款 1003。 | 您想要從統一住宅貸款申請表中擷取重要資訊。 | 1003 表單模型 |
美國抵押貸款 1008。 | 您想要從統一核貸和傳遞摘要表中擷取重要資訊。 | 1008 表單模型 |
美國抵押貸款結算披露。 | 您想要從抵押貸款結算披露表單中擷取重要資訊。 | 抵押貸款結算披露表單模型 |
混合類型的文件,內含結構化、半結構化和/或非結構化元素。 | 您想要擷取索引鍵/值組、選取項目標記、表格、簽章欄位,以及預先建置或一般文件模型未擷取的選取區域。 | 自訂模型 |
提示
- 如果您仍然不確定要使用哪一個預先定型的模型,請嘗試已啟用選擇性查詢字串參數
features=keyValuePairs
的版面配置模型。 - 版面配置模型是由「讀取 OCR」引擎提供,可偵測頁面、資料表、樣式、文字、行、字組、位置和語言。
自訂擷取模型
訓練集合 | 範例文件 | 您的最佳解決方案 |
---|---|---|
具有靜態版面配置的結構化、一致文件。 | 結構化表單,例如問卷或申請表。 | 自訂範本模型 |
結構化、半結構化和非結構化文件。 | • 結構化→問卷 ? 半結構化→發票 * 非結構化→信件 |
自訂神經模型 |
數個模型集合,均針對類似文件類型對每個模型進行定型。 | ● 供應採購單 ● 設備採購單 ● 家具採購單 全部組成單一模型。 |
組成自訂模型 |
自訂分類模型
訓練集合 | 範例文件 | 您的最佳解決方案 |
---|---|---|
至少兩種不同類型的文件。 | 表單、信件或文件 | 自訂分類模型 |
下一步
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應