累加分類器訓練
此內容適用於:v4.0(預覽版)
Azure AI 文件智慧服務是雲端式 Azure AI 服務,可讓您建置智慧型文件處理解決方案。 檔智慧 API 會分析影像、PDF 和其他文件檔,以擷取及偵測各種內容、版面配置、樣式和語意元素。
檔智慧自定義分類模型 是深度學習模型類型,結合版面配置和語言功能,以正確偵測和識別您在應用程式內處理的檔。 自定義分類模型會一次執行一個頁面的輸入檔案分類,以識別內的檔,也可以識別輸入檔內單一檔的多個檔或多個實例。
檔智慧檔分類器會識別檔案中的已知檔類型。 處理具有多個文件類型或不知道檔類型的輸入檔時,請使用分類器來識別檔。 當您為現有類別新增範本、新增用於辨識的新文件類型,或分類器信賴度很低時,應該定期更新分類器。 在某些情況下,您無法再有用來定型分類器的原始檔集。 使用累加式定型,您現在可以只使用新的標記範例來更新分類器。
注意
累加式定型僅適用於文件分類器模型,不適用於自定義模型。
當您想要改善自定義分類器的品質時,累加定型很有用。 為現有類別新增訓練範例可改善現有檔類型模型的信賴度。 例如,如果已新增新版的現有表單,或有新的文件類型。 例如,當您的應用程式開始支援新的檔案類型做為有效的輸入時。
開始使用累加訓練
累加式定型不會引進任何新的 API 端點。
要求
documentClassifiers:build
承載會修改為支援累加式定型。累加式定型會產生使用現有分類器保持不變建立的新分類器模型。
新的分類器具有舊分類器的所有檔範例和類型,以及新提供的範例。 您必須確定您的應用程式是更新,才能使用新訓練的分類器。
注意
分類器的複製作業目前無法使用。
建立累加分類器組建要求
累加分類器建置要求類似於 分類檔建置要求 ,但包含新的 baseClassifierId
屬性。 baseClassifierId
會設定為您想要擴充的現有分類器。 您也需要提供 docTypes
範例集中不同檔案類型的 。 藉由提供 docType
存在於baseClassifier中的 ,要求中提供的範例會新增至定型基底分類器時所提供的範例。 累加定型中新增的新 docType
值只會新增至新的分類器。 指定樣本的程式保持不變。 如需詳細資訊, 請參閱定型分類器模型。
範例 POST 要求
建置累加式文件分類器的範例 POST
要求
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
POST 回應
所有 Document Intelligence API 都是異步的,輪詢傳回的作業位置會提供建置作業的狀態。 分類器是快速定型,您的分類器可以準備好在一兩分鐘內使用。
成功完成時:
- 成功的
POST
方法會202 OK
傳回回應碼,指出服務已建立要求。 - 翻譯的檔案位於您的目標容器中。
- 要求
POST
也會傳回回應標頭,包括Operation-Location
。 此標頭的值包含resultId
,可查詢以取得異步操作的狀態,並使用具有相同資源訂用GET
帳戶密鑰的要求擷取結果。
範例 GET 要求
擷取累加文件分類器結果的範例 GET
要求
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
GET 回應
以 GET
累加方式定型分類器的回應與標準分類器 GET
回應不同。 累加定型分類器不會傳回支援的所有文件類型。 它會傳回累加式定型步驟和擴充基底分類器中新增或更新的檔類型。 若要取得檔類型的完整清單,必須列出基底分類器。 刪除基底分類器不會影響使用累加定型分類器。
限制
只有在基底分類器和累加定型分類器都在同一個 API 版本上定型時,累加定型才能運作。 因此,累加定型分類器與基底分類器具有相同 的模型生命週期 。
累加分類器的定型數據集大小限制與其他分類器模型相同。 如需適用限制的完整清單,請參閱 服務限制 。
下一步
- 深入瞭解 文件分類
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應