我應該選擇哪個模型?
重要
- 文件智慧服務公開預覽版本可讓您搶先存取正在積極開發的功能。 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
- 文件智慧服務用戶端程式庫的公開預覽版預設為 REST API 版本 2024-07-31-preview。
- 公開預覽版 2024-07-31-preview 目前僅適用於下列 Azure 地區。 請注意,AI Studio 中的自訂生成 (文件欄位擷取) 模型僅適用美國中北部地區:
- 美國東部
- 美國西部 2
- 西歐
- 美國中北部
Azure AI 文件智慧服務支援各種不同的模型,可讓您將智慧型文件處理新增至應用程式,並將工作流程最佳化。 選取正確的模型是確保企業成功的必要條件。 在本文中,我們會探索可用的文件智慧服務模型,並提供如何為專案選擇最佳解決方案的指導。
下列決策圖表會醒目提示每個支援模型的功能,以協助您選擇最符合應用程式需求和需求的模型。
重要
請務必檢查語言支援頁面,以了解支援的語言文字和依功能的欄位擷取。
預先定型的文件分析模型
Document type | 範例 | 要擷取的資料 | 您的最佳解決方案 |
---|---|---|---|
一般文件。 | 合約或信件。 | 您想要主要擷取手寫或印刷文字行、字組、位置和偵測到的語言。 | 讀取 OCR 模型 |
包含結構化資訊的文件。 | 報告或研究。 | 除了手寫或印刷文字之外,您還需要擷取結構化資訊,例如表格、選取項目標記、段落、標題和子標題。 | 版面配置分析模型 |
結構化或半結構化文件,其中包含格式化為欄位 (索引鍵) 和值的內容。 | 表單或文件,是商務或產業中常用的標準化格式,例如信用卡申請或問卷。 | 您想要擷取欄位和值,包括案例特定預先建置模型未涵蓋的欄位和值,而不需要定型自訂模型。 | **已啟用選擇性查詢字串參數 features=keyValuePairs 的版面配置分析模型** |
預先定型的情節特定模型
Document type | 要擷取的資料 | 您的最佳解決方案 |
---|---|---|
美國統一稅務 | 您想要從單一檔案擷取 W2、1040、1090、1098 的所有稅務表單重要資訊,而不需要執行您自己的任何自訂分類。 | 美國統一稅務模型 |
美國稅務 W-2 稅務 | 您想要擷取所扣繳的薪資、工資和稅金等重要資訊。 | 美國稅務 W-2 模型 |
美國稅務 1098 | 您想要擷取抵押貸款利息詳細資料,例如本金、點數和稅金。 | 美國稅務 1098 模型 |
美國稅務 1098-E | 您想要擷取學生貸款利息詳細資料,例如貸款人和利息金額。 | 美國稅務 1098-E 模型 |
美國稅務 1098T | 您想要擷取符合條件的學費詳細資料,例如獎學金調整、學生身份和貸款人資訊。 | 美國稅務 1098-T 模型 |
美國稅務 1099 (變化類型) | 您想要從 1099 表單及其變化類型 (A、B、C、CAP、DIV、G、H、INT、K、LS、LTC、MISC、NEC、OID、PATR、Q、QA、R、S、SA、SB) 中擷取資訊。 |
美國稅務 1099 模型 |
美國稅務 1040 (變化類型) | 您想要從 1040 表單及其變化類型 (副表 1、副表 2、副表 3、副表 8812、副表 A、副表 B、副表 C、副表 D、副表 E、副表 EIC 、副表 F、副表 H、副表 J、副表 R、副表 SE 、年長者副表) 中擷取資訊。 |
美國稅務 1040 模型 |
銀行對帳單 | 您想要從美國銀行對帳單中擷取重要資訊 | \銀行對帳單 |
銀行支票 | 您想要從支票文件中擷取重要資訊。 | 銀行支票 |
合約 (雙方的法律協定)。 | 您想要擷取合約協議詳細資料,例如參與方、日期和間隔。 | 合約模型 |
健保卡或健康保險識別碼。 | 您想要擷取保險公司、成員識別碼、處方涵蓋範圍和群組號碼等重要資訊。 | 健保卡模型 |
信用卡/轉帳卡 | 您想要擷取銀行卡的重要資訊,例如卡號和銀行名稱。 | 信用卡/轉帳卡模型 |
結婚證書 | 您想要從結婚證書中擷取重要資訊。 | 婚姻證書模型 |
發票或帳單 | 您想要擷取客戶名稱、帳單地址和金額等重要資訊。 | 發票模型 |
收據、票券或單頁旅館收據。 | 您想要擷取商家名稱、交易日期和交易總計等重要資訊。 | 收據模型 |
身分識別文件 (識別碼),例如美國駕照或國際護照 | 您想要擷取名字、姓氏、出生日期、地址和簽名等重要資訊。 | 身分識別文件 (ID) 模型 |
薪資單 | 您想要從薪資單文件中擷取重要資訊。 | 薪資單模型 |
美國抵押貸款 1003 | 您想要從統一住宅貸款申請表中擷取重要資訊。 | 1003 表單模型 |
美國抵押貸款 1004 | 您想要從統一住宅評估報告 (URAR) 中擷取重要資訊。 | 1004 表單模型 |
美國抵押貸款 1005 | 您想要從就業表單驗證中擷取重要資訊 | 1005 表單模型 |
美國抵押貸款 1008 | 您想要從統一核貸和傳遞摘要表中擷取重要資訊。 | 1008 表單模型 |
美國抵押貸款結算披露 | 您想要從抵押貸款結算披露表單中擷取重要資訊。 | 抵押貸款結算披露表單模型 |
混合類型的文件,內含結構化、半結構化和/或非結構化元素 | 您想要擷取索引鍵/值組、選取項目標記、表格、簽章欄位,以及預先建置或一般文件模型未擷取的選取區域。 | 自訂模型 |
提示
- 如果您仍然不確定要使用哪一個預先定型的模型,請嘗試已啟用選擇性查詢字串參數
features=keyValuePairs
的版面配置模型。 - 版面配置模型是由「讀取 OCR」引擎提供,可偵測頁面、資料表、樣式、文字、行、字組、位置和語言。
自訂擷取模型
訓練集合 | 範例文件 | 您的最佳解決方案 |
---|---|---|
具有靜態版面配置的結構化、一致文件。 | 結構化表單,例如問卷或申請表。 | 自訂範本模型 |
結構化和半結構化。 | ● 結構化 → 問卷 ● 半結構化 → 發票 |
自訂神經模型 |
非結構化文件,具有不同範本的文件。 | • 合約或信件等非結構化文件 • 不同抵押貸款公司的貸款表等不同文件範本 |
自訂生成模型 |
數個模型集合,均針對類似文件類型對每個模型進行定型。 | ● 供應採購單 ● 設備採購單 ● 家具採購單 全部組成單一模型。 |
組成自訂模型 |
自訂分類模型
訓練集合 | 範例文件 | 您的最佳解決方案 |
---|---|---|
至少兩種不同類型的文件。 | 表單、信件或文件 | 自訂分類模型 |