Trenowanie modeli niestandardowych

Ukończone

Usługa Azure Document Intelligence platformy Azure obsługuje nadzorowane uczenie maszynowe. Modele niestandardowe można trenować i tworzyć modele złożone przy użyciu dokumentów formularzy i dokumentów JSON zawierających pola oznaczone etykietami.

Zrzut ekranu przedstawiający przykładowy dokument formularza wymagany do trenowania modelu niestandardowego.

Aby wytrenować model niestandardowy:

  1. Przechowuj przykładowe formularze w kontenerze obiektów blob platformy Azure wraz z plikami JSON zawierającymi informacje o polu układu i etykiety.
    • Możesz wygenerować plik ocr.json dla każdego przykładowego formularza przy użyciu funkcji analizowania dokumentów w usłudze Azure Document Intelligence. Ponadto potrzebny jest pojedynczy plik fields.json opisujący pola, które chcesz wyodrębnić, oraz plik labels.json dla każdego przykładowego formularza mapowania pól na ich lokalizację w tym formularzu.
  2. Wygeneruj adres URL zabezpieczeń dostępu współdzielonego (SAS) dla kontenera.
  3. Użyj funkcji Build model interfejsu API REST (lub równoważnej metody zestawu SDK).
  4. Użyj funkcji interfejsu API REST Get model (lub równoważnej metody zestawu SDK), aby uzyskać wytrenowany identyfikator modelu .

LUB

  1. Użyj programu Azure Document Intelligence Studio do etykietowania i trenowania. Istnieją dwa typy modeli bazowych dla formularzy niestandardowych niestandardowych modeli szablonów lub niestandardowych modeli neuronowych.
    • niestandardowe modele szablonów dokładnie wyodrębnić pary klucz-wartość, znaczniki wyboru, tabele, regiony i podpisy z dokumentów. Trenowanie trwa tylko kilka minut, a obsługiwanych jest ponad 100 języków.
    • Niestandardowe modele neuronowe to głębokie modele, które łączą funkcje układu i języka w celu dokładnego wyodrębnienia pól z etykietami z dokumentów. Ten model jest najlepszy w przypadku dokumentów częściowo ustrukturyzowanych lub nieustrukturyzowanych.