解讀和改善模型精確度和分析信賴度分數

發行項
10/16/2024

信賴分數會指出機率，藉由量測已正確偵測到擷取結果的統計確定性來取得。預估精確度的計算方式是執行一些不同定型資料組合來預測標記的值。在本文中了解如何解譯正確性和信賴度分數，以及使用這些分數來改善正確性和信賴度結果的最佳做法。

信賴分數

注意

從自訂模型的 2024-07-31-preview API 版本開始，欄位層級信賴度會更新以將字組信賴分數納入考慮。
從 2024-07-31-preview API 版本開始，針對自訂模型可以使用資料表、資料表資料列和資料表儲存格的信賴度分數。

文件智慧分析結果會傳回預測文字、索引鍵/值組、選取標記、區域和簽章的估計信賴度。目前，並非所有文件欄位都會傳回信賴分數。

欄位信賴度表示預測正確 0 到 1 之間的估計可能性。例如，信賴值 0.95 (95%) 表示 20 次的預測中可能有 19 次正確。對於正確度很重要的案例，信賴度可用來判斷是否要自動接受預測，或加上人工檢閱的旗標。

文件智慧工作室
分析的發票預建發票模型

文件智慧工作室中的信賴度分數

改善信賴分數

在分析作業之後，請檢閱 JSON 輸出。檢查 pageResults 節點下每個索引鍵/值結果的 confidence 值。您也應該查看 readResults 節點中對應至文字讀取作業的信賴分數。讀取結果的信賴度並不會影響索引鍵/值擷取結果的信賴度，因此您應該同時檢查這兩者。以下是一些提示：

如果 readResults 物件的信賴分數很低，請改善輸入文件的品質。
如果 pageResults 物件的信賴分數很低，請確定您分析的文件都屬於相同類型。
請考慮將人工檢閱併入您的工作流程。
使用在每個欄位中具有不同值的表單。
針對自訂模型，請使用一組較大的訓練文件。較大的定型集會教導您的模型以更高的精確度辨識欄位。

自訂模型的精確度分數

注意

自訂神經和生成式模型不會在定型期間提供精確度分數。

build (v3.0 和更新版本) 或 train (v2.1) 自訂模型作業的輸出包含估計的精確度分數。此分數代表模型在視覺上類似文件上正確預測標記值的能力。精確度是以百分比值測量，範圍從 0% (低) 到 100% (高)。最好以 80% 或更高的分數為目標。對於更敏感的案例，例如財務或醫療記錄，建議以接近 100% 的分數為目標。您也可以新增人工檢閱階段，以驗證更關鍵的自動化工作流程。

文件智慧工作室
已定型的自訂模型 (發票)

已定型的自訂模型正確度分數

解譯自訂模型的正確度和信賴度分數

自訂範本模型會在定型時產生預估的正確度分數。使用自訂模型分析的文件會產生已擷取欄位的信賴度分數。從自訂模型解譯信賴度分數時，您應該考慮從模型傳回的所有信賴度分數。讓我們從所有信賴度分數的清單開始。

文件類型信賴度分數：文件類型信賴度是類似於定型資料集中文件的密切分析文件指標。當文件類型信賴度很低時，它會指出分析文件中的範本或結構變化。若要改善文件類型信賴度，請將具有該特定變化的文件加上標籤，並將其新增至您的定型資料集。重新定型模型之後，應該更適合處理該類別的變化。
欄位層級信賴：每個已擷取的已標記欄位都有相關聯的信賴度分數。此分數會反映模型對所擷取值位置的信賴度。評估信賴度分數時，您也應該查看基礎擷取信賴度，以產生擷取結果的完整信賴度。根據欄位類型來評估文字擷取或選取標記的 OCR 結果，以產生欄位的複合信賴度分數。
文字信賴度分數 文件內所擷取每個文字都有相關聯的信賴度分數。分數代表轉譯的信賴度。分頁陣列包含文字陣列，且每個文字都有相關聯的範圍和信賴度分數。從自訂欄位的已擷取值範圍符合所擷取文字範圍。
選取項目標記信賴度分數：分面陣列也包含選取項目標記的陣列。每個選取項目標記都有一個信賴度分數，代表選取項目標記和選取項目狀態偵測的信賴度。當標示的欄位具有選取項目標記時，結合選取項目標記信賴的自訂欄位選取項目是整體信賴度正確度的準確表示法。

下表示範如何解譯精確度和信賴分數，以測量自訂模型的效能。

準確率	信賴度	結果
高	高	此模型使用標示的索引鍵和文件格式時可正常執行。 • 您擁有平衡的定型資料集。
高	低	• 分析的文件與定型資料集外觀上不同。 • 此模型可受益於使用至少五份已加上標籤的文件進行重新定型。 • 這些結果也可能表示定型資料集與分析文件之間的格式變化。請考慮新增模型。
低	高	• 此結果不太可能。 • 針對低正確度分數，請新增更多標籤資料，或將視覺上不同的文件分割成多個模型。
低	低	• 新增更多標籤資料。 • 將視覺上不同的文件分割成多個模型。

確保自訂模型的高模型精確度

模型的正確性會受到文件視覺結構變異數的影響。當分析的文件與定型時使用的文件不同時，回報的精確度分數可能會不一致。請注意，文件組在人員檢視時可能看起來相似，但以 AI 模型檢視時會不同。下方是最佳做法清單，可用來以最高正確性定型模型。遵循這些指導方針應該會在分析期間產生具有較高精確度和信賴分數的模型，並減少加上人工檢閱旗標的文件數目。

確定文件的所有變化都包含在訓練資料集中。變化包含不同的格式，例如數位與掃描的 PDF。
如果您預期模型會分析兩種類型的 PDF 文件，則每個類型至少新增五個樣本到定型資料集。
以視覺方式區隔不同的文件類型，定型自訂範本的不同模型，以及神經模型。
- 作為一般規則，如果移除所有使用者輸入的值且文件看起來相似，則您必須將多個定型資料新增至現有的模型。
- 如果文件不同，請將訓練資料分割成不同的資料夾，並針對每個變化定型模型。您接著可以將不同的變化組合成單一模型。
確定您不具任何無關標籤。
確定簽章和區域標記不包含周圍文字。

資料表、資料列和儲存格信賴度

使用 2024-02-29-preview API 和更新版本新增資料表、資料列和儲存格信賴度，以下是一些常見問題，有助於解譯資料表、資料列和儲存格分數：

問：是否可能會看到儲存格的高信賴度分數，但資料列的信賴度分數較低？

A: 可以。不同的資料表信賴等級 (儲存格、資料列和資料表) 是用來擷取該特定層級預測的正確性。若正確預測的儲存格屬於具有其他可能遺漏的資料列，則會有較高的儲存格信賴度，但資料列的信賴度應該較低。同樣地，資料表中具有其他資料列挑戰的正確資料列會有較高的資料列信賴度，而資料表的整體信賴度會較低。

問：合併儲存格時預期的信賴度分數為何？由於合併會導致識別為變更的資料行數目，因此分數會如何受到影響？

答：不論資料表類型為何，合併儲存格預期都應該有較低的信賴度值。此外，遺漏儲存格 (因為它與相鄰儲存格合併) 的 NULL 值也應該具有較低的信賴度值。這些值的降低幅度取決於定型資料集，具有較低分數之合併和遺漏儲存格的一般趨勢應該會維持。

問：當值為選擇性時，信賴度分數為何？如果遺漏值，您應該預期具有 NULL 值且信賴度分數較高的儲存格？

答：如果您的定型資料集代表儲存格的選擇性，它可協助模型知道值在定型集中出現的頻率，以及推斷期間預期的情況。計算預測或完全不進行預測 (NULL) 的信賴度時，會使用這項功能。對於定型集中大部分空白值的遺漏值，您也應該預期有較高信賴度的空白欄位。

問：如果欄位是選擇性且不存在或遺漏，則信賴度分數會如何受到影響？是否預期信賴度分數可回答這個問題？

答：當資料列遺漏值時，儲存格會指派 NULL 值和信賴度。此處的高信賴度分數應該表示模型預測 (沒有值) 更有可能正確。相反地，低分數應該表示模型更多的不確定性 (及因此發生錯誤的可能性，例如遺漏的值)。

問：在擷取具有跨分頁分割資料列的多頁資料表時，儲存格信賴度和資料列信賴的預期為何？

答：預期儲存格信賴度會很高，而資料列信賴度可能低於未分割的資料列。定型資料集中分割資料列的比例可能會影響信賴度分數。一般而言，分割資料列看起來與資料表中的其他資料列不同 (因此，模型不太確定其為正確)。

問：對於具有清楚結束且從分頁界限開始之資料列的跨分頁資料表，假設信賴度分數在分頁之間一致是否正確？

A: 可以。由於資料列在圖形和內容中看起來類似，無論它們位於文件哪個位置 (或哪一分頁)，其各自的信賴度分數應該一致。

問：利用新信賴度分數的最佳方式為何？

答：使用從上到下方法開始查看的所有資料表信賴度等級：從檢查資料表的整體信賴度開始，然後向下切入至資料列層級並查看個別資料列，最後查看儲存格層級的信賴度。根據資料表的類型，有幾個注意事項：

對於固定資料表，儲存格層級信賴度就內容的正確性已擷取了相當多的資訊。這表示只要逐一檢視每個儲存格並查看其信賴度就足以協助判斷預測的品質。對於動態資料表，層級的目的是要在彼此之上建置，因此從上到下的方法更為重要。

後續步驟

深入了解自訂模型

共用方式為