使用 Document Intelligence 累加分類器
此內容適用於: v4.0 (預覽版)
Azure AI 文件智慧服務是雲端式 Azure AI 服務,可讓您建置智慧型文件處理解決方案。 文件智慧服務 API 會分析影像、PDF 和其他文件檔,以擷取及偵測各種內容、版面配置、樣式和語意元素。
文件智慧服務自訂分類模型是深度學習模型類型,結合版面配置和語言功能,以精確地偵測及識別您在應用程式內處理的文件。 自訂分類模型一次執行一頁的輸入檔分類,以識別其中的文件,也可識別輸入檔內單一文件的多個文件或多個執行個體。
文件智慧服務文件分類器會識別檔案中的已知文件類型。 處理具有多個文件類型或未知文件類型的輸入檔時,請使用分類器來識別文件。 每當發生下列變更時,應該定期更新分類器:
- 您可以為現有的類別新增範本。
- 您可以新增用於辨識的新文件類型。
- 分類器信賴度很低。
在某些情況下,您無法再有用來定型分類器的原始文件集。 透過累加式定型,您可以只使用新的標記範例來更新分類器。
注意
累加式定型僅適用於文件分類器模型,不適用於自訂模型。
當您想要改善自訂分類器的品質時,累加式定型很實用。 為現有類別新增訓練範例可改善現有文件類型模型的信賴度。 例如,如果已新增新版的現有表單,或是有新的文件類型。 例如,當您的應用程式開始支援新的文件類型作為有效的輸入時。
開始使用累加式定型
累加式定型不會引進任何新的 API 端點。
documentClassifiers:build
要求承載已修改為支援累加式定型。累加式定型結果會建立的新分類器模型,而現有分類器則保持不變。
新的分類器具有舊分類器的所有文件範例和類型,以及新提供的範例。 您必須確定您的應用程式是更新版,才能使用最近定型的分類器。
注意
分類器的複製作業目前無法使用。
建立累加式分類器建置要求
累加分類器組建要求類似於建置要求,classify document
但包含新的 baseClassifierId
屬性。 baseClassifierId
會設定為您想要擴充的現有分類器。 您也需要為範例集中的不同文件類型提供 docTypes
。 藉由提供存在於 baseClassifier 中的 docType
,要求中提供的範例會新增至定型基底分類器時已提供的範例。 在累加式定型中新增的新 docType
值只會新增至新的分類器。 指定範例的流程未變更。 如需詳細資訊,請參閱 定型分類器模型。
範例 POST 要求
範例 POST
要求建置累加式文件分類器
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
POST 回應
所有智慧文件服務 API 都是非同步的,輪詢傳回的作業位置會提供建置作業的狀態。 分類器為快速定型,您的分類器可以準備在一兩分鐘內就緒。
成功完成時:
- 成功的
POST
方法會傳回202 OK
回應碼,指出服務已建立要求。 - 翻譯的文件會位在您的目標容器中。
POST
要求也會傳回回應標頭,包括Operation-Location
。 此標頭的值包含resultId
,可透過查詢以取得非同步作業的狀態,並且可使用GET
要求搭配您的相同資源訂用帳戶金鑰來擷取結果。
範例 GET 要求
範例 GET
要求擷取累加式文件分類器的結果
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
GET 回應
累加式定型分類器的 GET
回應與標準分類器 GET
的回應不同。 累加式定型分類器不會傳回支援的所有文件類型。 它會傳回累加式定型步驟和擴充基底分類器中新增或更新的文件類型。 若要取得文件類型的完整清單,必須列出基底分類器。 刪除基底分類器不會影響使用累加式定型分類器。
限制
只有在基底分類器和累加式定型分類器都在同一個 API 版本上定型時,累加式定型才能運作。 因此,累加式定型分類器與基底分類器具有相同的 模型生命週期。
累加式分類器的定型資料集大小限制與其他分類器模型相同。 如需適用限制的完整清單,請參閱 服務限制。
下一步
- 深入了解文件分類