檢閱需求之後,就可以開始建立您的文件處理模型。
使用精靈建立模型
您可以使用建立自訂模型精靈來建立文件處理模型。 此精靈將指導您完成建立模型以從文件中提取資訊的過程。
登入 Power Apps 或 Power Automate。
在左窗格中,選取 ... 更多>AI 中樞。
(選用) 要將 AI 模型永久儲存在選單上以便於存取,請選擇 AI 中樞旁的圖釘圖示。
在探索 AI 功能下,選擇 AI 模型。
選取從文件擷取自訂資訊。
選取建立自訂模型。
逐步精靈會引導您完成該程序,要求您列出要從文件中擷取的所有資料。
如需進一步了解,請參閱本文的選擇文件類型一節。
如果想要使用自己的文件來建立模型,請確定您至少有五個使用相同版面配置的範例。 您也可以使用範例資料來建立模型。
選取定型。
選取快速測試測試模型。
選取文件的類型
在選擇文件類型步驟中,選取要建立 AI 模型以自動擷取資料的文件類型。 有三個選項:固定範本文件、一般文件和發票。
- 固定範本文件:以前稱為結構化,當對於給定的版面配置,欄位、資料表、複選框、簽名和其他項目可以在相似的位置找到時,此選項是理想的選擇。 您可以訓練該模型從具有不同配置的結構化文件中提取資料。 此模型所需的訓練時間很短。
- 通用文件:以前稱為非結構化文件,此選項適用於任何類型的文件,特別是當沒有固定結構或格式複雜的情況下。 您可以訓練該模型從具有不同配置的結構化或非結構化文件中提取資料。 此模型功能強大,但訓練時間較長。
- 發票:除了預設欄位之外,還會新增要提取的新欄位或未正確提取的文件範例,從而增強預建發票處理模型的行為。
了解文件智慧版本
文件智慧模型有兩個版本:v4.0 和 v3.1。 您的模型版本取決於您上次編輯模型的時間。
文件智慧 v4.0 - 通用版本 (GA)
除了本文列出的功能外,v4.0 還保留了 v3.1 的所有功能。
- 重疊欄位:v4.0 支援自訂模型中的重疊欄位,讓您可以更有效地從版面配置複雜的文件中提取資訊。
- 簽名偵測:v4.0 可偵測文件中的簽名,這對於合約、協議和其他簽名資料表特別有用。
- 資料表的信賴度分數:v4.0 為資料表及其儲存格提供信賴度分數。
- OCR 引擎改進:v4.0 改進了光學字元辨識 (OCR) 引擎,提高了文字辨識準確性並支援更多文件類型和格式。
Document Intelligence v3.1 正式發布 (GA)
- v3.1 支援經過訓練的自訂模型來識別特定的資料模式,例如獨特的文字欄位或結構。
- v3.1 包含自訂範本模型,讓使用者可以根據其文件版面配置和結構建立範本。
檢查模型版本
您可以驗證用於訓練和發布模型的版本。 為此,請選擇設定>已發布的模型版本>上次訓練的模型版本。
您可以透過編輯、重新訓練和發布將模型從 v3.1 移至 v4.0。 不需要重新標記和其他特定修改。 如需進一步了解,請參閱文件處理的常見問題。
定義要擷取的資訊
在選擇要擷取的資訊畫面上,您可以定義要教導模型擷取的欄位、資料表和核取方塊。 若要開始定義這些,請選擇 +新增。
對於每個文字欄位,提供該欄位在模型中要使用的名稱。
對於每個數字欄位,提供該欄位在模型中要使用的名稱。
將格式點 (.) 或逗號 (,) 定義為小數位分隔符號。
對於每個日期欄位,提供該欄位在模型中的名稱。
另外,定義格式 (年、月、日) 或 (月、日、年) 或 (日、月、年)
對於每個複選框,提供一個要在模型中使用的複選框的名稱。
為每個可在文件中核取的項目定義獨立的核取方塊。
對於每個表,提供表的名稱。
定義模型應該提取的不同列。
注意
自訂發票模型帶有無法編輯的預設欄位。
依集合對文件進行分組
集合是一組共用相同版面配置的文件。 建立多個集合做為您要讓模型處理的文件版面配置。 例如,如果您正在建置 AI 模型來處理兩個不同廠商的發票,且每個廠商都有自己的發票範本,請建立兩個集合。
針對每個您建立的集合,每個集合至少需要上傳五個範例文件。 接受 JPG、PNG 和 PDF 格式的檔案。
注意
每個模型最多可以建立 200 個集合。