Trenowanie klasyfikatora przyrostowego

Artykuł
05/23/2024

Ta zawartość dotyczy:v4.0 (wersja zapoznawcza)

Azure AI Document Intelligence to oparta na chmurze usługa Azure AI, która umożliwia tworzenie inteligentnych rozwiązań do przetwarzania dokumentów. Interfejsy API analizy dokumentów analizują obrazy, pliki PDF i inne pliki dokumentów, aby wyodrębniać i wykrywać różne elementy zawartości, układu, stylu i semantyki.

Niestandardowe modele klasyfikacji analizy dokumentów to typy modeli uczenia głębokiego, które łączą funkcje układu i języka w celu dokładnego wykrywania i identyfikowania dokumentów przetwarzanych w aplikacjach. Niestandardowe modele klasyfikacji wykonują klasyfikację plików wejściowych na jednej stronie, aby zidentyfikować dokumenty w obrębie programu , a także zidentyfikować wiele dokumentów lub wiele wystąpień pojedynczego dokumentu w pliku wejściowym.

Klasyfikatory dokumentów analizy dokumentów identyfikują znane typy dokumentów w plikach. Podczas przetwarzania pliku wejściowego z wieloma typami dokumentów lub gdy nie znasz typu dokumentu, użyj klasyfikatora, aby zidentyfikować dokument. Klasyfikatory powinny być okresowo aktualizowane podczas dodawania nowych szablonów dla istniejącej klasy, dodawania nowych typów dokumentów do rozpoznawania lub niskiej ufności klasyfikatora. W niektórych scenariuszach nie można już mieć oryginalnego zestawu dokumentów używanych do trenowania klasyfikatora. Dzięki trenowaniu przyrostowe można teraz zaktualizować klasyfikator przy użyciu tylko nowych przykładów z etykietami.

Uwaga

Trenowanie przyrostowe dotyczy tylko modeli klasyfikatora dokumentów, a nie modeli niestandardowych.

Trenowanie przyrostowe jest przydatne, gdy chcesz poprawić jakość niestandardowego klasyfikatora. Dodanie nowych przykładów szkoleniowych dla istniejących klas zwiększa pewność modelu dla istniejących typów dokumentów. Jeśli na przykład zostanie dodana nowa wersja istniejącego formularza lub jest nowy typ dokumentu. Przykładem może być rozpoczęcie obsługi nowego typu dokumentu przez aplikację jako prawidłowe dane wejściowe.

Wprowadzenie do trenowania przyrostowego

Trenowanie przyrostowe nie wprowadza żadnych nowych punktów końcowych interfejsu API.
documentClassifiers:build Ładunek żądania jest modyfikowany w celu obsługi trenowania przyrostowego.
Trenowanie przyrostowe powoduje utworzenie nowego modelu klasyfikatora z istniejącym klasyfikatorem bez zmian.
Nowy klasyfikator zawiera wszystkie przykłady i typy dokumentów starego klasyfikatora wraz z nowo podanymi przykładami. Musisz upewnić się, że aplikacja jest aktualizowana do pracy z nowo wytrenowanym klasyfikatorem.

Uwaga

Operacja kopiowania dla klasyfikatorów jest obecnie niedostępna.

Tworzenie żądania kompilacji klasyfikatora przyrostowego

Żądanie kompilacji klasyfikatora przyrostowego jest podobne do żądania kompilacji klasyfikatora dokumentu, ale zawiera nową baseClassifierId właściwość. Właściwość baseClassifierId jest ustawiona na istniejący klasyfikator, który chcesz rozszerzyć. Należy również podać docTypes dla różnych typów dokumentów w zestawie przykładów. Podając element docType , który istnieje w klasyfikatorze baseClassifier, próbki podane w żądaniu są dodawane do próbek podanych podczas trenowania klasyfikatora podstawowego. Nowe docType wartości dodane w trenowaniu przyrostowym są dodawane tylko do nowego klasyfikatora. Proces określania próbek pozostaje niezmieniony. Aby uzyskać więcej informacji, zobaczTrenowanie modelu klasyfikatora.

Przykładowe żądanie POST

Przykładowe POST żądanie utworzenia klasyfikatora dokumentów przyrostowych

POST {your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "baseClassifierId": "myOriginalClassifier",
  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Odpowiedź POST

Wszystkie interfejsy API analizy dokumentów są asynchroniczne, sondowanie zwróconej lokalizacji operacji zapewnia stan operacji kompilacji. Klasyfikatory są szybkie do trenowania, a klasyfikator może być gotowy do użycia w ciągu minuty lub dwóch.

Po pomyślnym zakończeniu:

Metoda pomyślna POST202 OK zwraca kod odpowiedzi wskazujący, że usługa utworzyła żądanie.
Przetłumaczone dokumenty znajdują się w kontenerze docelowym.
Żądanie POST zwraca również nagłówki odpowiedzi, w tym Operation-Location. Wartość tego nagłówka zawiera resultId element, którego można wysłać do zapytania, aby uzyskać stan operacji asynchronicznej i pobrać wyniki przy użyciu GET żądania z tym samym kluczem subskrypcji zasobu.

Przykładowe żądanie GET

Przykładowe GET żądanie pobrania wyniku klasyfikatora dokumentów przyrostowych

GET {your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview


{
  "classifierId": "myAdaptedClassifier",
  "description": "Classifier description",
  "createdDateTime": "2022-07-30T00:00:00Z",
  "expirationDateTime": "2023-01-01T00:00:00Z",
  "apiVersion": "2024-02-29-preview",

  "baseClassifierId": "myOriginalClassifier",

  "docTypes": {
    "formA": {
      "azureBlobSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "prefix": "formADocs/"
      }
    },
    "formB": {
      "azureBlobFileListSource": {
        "containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
        "fileList": "formB.jsonl"
      }
    }
  }
}

Odpowiedź GET

GET Odpowiedź od klasyfikatora wytrenowanego przyrostowo różni się od standardowej odpowiedzi klasyfikatoraGET. Klasyfikator trenowany przyrostowo nie zwraca wszystkich obsługiwanych typów dokumentów. Zwraca on typy dokumentów dodane lub zaktualizowane w kroku trenowania przyrostowego i rozszerzonego klasyfikatora podstawowego. Aby uzyskać pełną listę typów dokumentów, należy wyświetlić klasyfikator podstawowy. Usunięcie klasyfikatora podstawowego nie ma wpływu na użycie klasyfikatora wytrenowanego przyrostowo.

Limity

Trenowanie przyrostowe działa tylko wtedy, gdy klasyfikator podstawowy i przyrostowo wytrenowany klasyfikator są trenowane w tej samej wersji interfejsu API. W związku z tym klasyfikator wytrenowany przyrostowo ma ten sam cykl życia modelu co klasyfikator podstawowy.
Limity rozmiaru zestawu danych trenowania dla klasyfikatora przyrostowego są takie same jak w przypadku innego modelu klasyfikatora. Zobacz Limity usług, aby uzyskać pełną listę odpowiednich limitów.

Następne kroki

Dowiedz się więcej o klasyfikacji dokumentów

Udostępnij za pośrednictwem