Niestandardowy model neuronowy analizy dokumentów

Artykuł
05/23/2024

Ważne

Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane.
Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
Publiczna wersja zapoznawcza bibliotek klienckich usługi Document Intelligence jest domyślna dla interfejsu API REST w wersji 2024-02-29-preview.
Publiczna wersja zapoznawcza 2024-02-29-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure:
Wschodnie stany USA
Zachodnie stany USA 2
Europa Zachodnia

Ta zawartość dotyczy:v4.0 (wersja zapoznawcza) | Poprzednie wersje:v3.1 (GA)v3.0 (GA)

Ta zawartość dotyczy:v3.1 (GA)Najnowsza wersja:v4.0 (wersja zapoznawcza) | | Poprzednie wersje:v3.0

Ta zawartość dotyczy:v3.0 (GA) | Najnowsze wersje:v4.0 (wersja zapoznawcza)v3.1

Niestandardowe modele dokumentów neuronowych lub modele neuronowe są głębokim typem modelu, który łączy funkcje układu i języka w celu dokładnego wyodrębnienia pól z etykietami z dokumentów. Podstawowy niestandardowy model neuronowy jest trenowany na różnych typach dokumentów, które sprawiają, że nadaje się do trenowania na potrzeby wyodrębniania pól ze strukturą, częściowo ustrukturyzowaną i nieustrukturyzowaną. Niestandardowe modele neuronowe są dostępne w modelach w wersji 3.0 i nowszych Poniższa tabela zawiera listę typowych typów dokumentów dla każdej kategorii:

Dokumenty	Przykłady
Dane ustrukturyzowane	ankiety, kwestionariusze
Dane częściowo ustrukturyzowane	faktury, zamówienia zakupu
Dane nieustrukturyzowane	kontrakty, listy

Niestandardowe modele neuronowe mają ten sam format i strategię etykietowania co niestandardowe modele szablonów . Obecnie niestandardowe modele neuronowe obsługują tylko podzestaw typów pól obsługiwanych przez niestandardowe modele szablonów.

Możliwości modelu

Ważne

Począwszy od wersji 2024-02-29-preview interfejsu API, niestandardowe modele neuronowe dodają obsługę nakładających się pól i ufności komórek tabeli.

Niestandardowe modele neuronowe obsługują obecnie tylko pary klucz-wartość oraz znaczniki wyboru i pola strukturalne (tabele), przyszłe wersje obejmują obsługę podpisów.

Pola formularza	Znaczniki zaznaczenia	Pola tabelaryczne	Podpis	Region (Region)	Nakładające się pola
Obsługiwane	Obsługiwane	Obsługiwane	Nieobsługiwane	Obsługiwane ¹	Obsługiwane ²

¹ Etykiety regionów w niestandardowych modelach neuronowych używają wyników z interfejsu API układu dla określonego regionu. Ta funkcja różni się od modeli szablonów, w których, jeśli żadna wartość nie jest obecna, tekst jest generowany w czasie trenowania. ² Nakładające się pola są obsługiwane, począwszy od wersji 2024-02-29-previewinterfejsu API REST. Nakładające się pola mają pewne limity. Aby uzyskać więcej informacji, zobacznakładające się pola.

Tryb kompilacji

Operacja tworzenia modelu niestandardowego obsługuje szablony i neuronowe modele niestandardowe. Poprzednie wersje interfejsu API REST i bibliotek klienckich obsługiwały tylko jeden tryb kompilacji, który jest teraz znany jako tryb szablonu.

Modele neuronowe obsługują dokumenty, które mają te same informacje, ale różne struktury stron. Przykłady tych dokumentów obejmują formularze Stany Zjednoczone W2, które współdzielą te same informacje, ale mogą się różnić w wyglądzie w różnych firmach. Aby uzyskać więcej informacji, zobaczTryb kompilacji modelu niestandardowego.

Obsługiwane języki i ustawienia regionalne

Zobacz naszą stronę Obsługa języków — modele niestandardowe, aby uzyskać pełną listę obsługiwanych języków.

Nakładające się pola

Wraz z wydaniem interfejsu API w wersji 2024-02-29-preview i nowszych niestandardowe modele neuronowe będą obsługiwać nakładające się pola:

Aby użyć nakładających się pól, zestaw danych musi zawierać co najmniej jedną próbkę z oczekiwanym nakładaniem się. Aby oznaczyć nakładające się etykiety, użyj etykietowania regionów, aby wyznaczyć poszczególne zakresy zawartości (z nakładającymi się) dla każdego pola. Etykietowanie nakładające się na zaznaczenie pola (wyróżnianie wartości) zakończy się niepowodzeniem w studio, ponieważ etykietowanie regionów jest jedynym obsługiwanym narzędziem do etykietowania wskazującym nakładanie się pól. Obsługa nakładających się na siebie obejmuje:

Pełne nakładanie się. Ten sam zestaw tokenów jest oznaczony dla dwóch różnych pól.
Częściowe nakładanie się. Niektóre tokeny należą do obu pól, ale istnieją tokeny, które są tylko częścią jednego pola lub drugiego.

Nakładające się pola mają pewne limity:

Każdy token lub wyraz można oznaczyć tylko jako dwa pola.
nakładające się pola w tabeli nie mogą obejmować wierszy tabeli.
Nakładające się pola można rozpoznać tylko wtedy, gdy co najmniej jeden przykład w zestawie danych zawiera nakładające się etykiety dla tych pól.

Aby użyć nakładających się pól, oznacz zestaw danych nakładającymi się nakładami i wytrenuj model przy użyciu wersji 2024-02-29-preview interfejsu API lub nowszej.

Pola tabelaryczne dodaje pewność tabeli, wiersza i komórki

Wraz z wydaniem interfejsu API w wersji 2022-06-30-preview i nowszych niestandardowe modele neuronowe będą obsługiwać pola tabelaryczne (tabele):

Modele trenowane przy użyciu interfejsu API w wersji 2022-08-31 lub nowszej będą akceptować etykiety pól tabelarycznych.
Dokumenty analizowane przy użyciu niestandardowych modeli neuronowych przy użyciu interfejsu API w wersji 2022-06-30-preview lub nowszej będą tworzyć pola tabelaryczne agregowane w tabelach.
Wyniki można znaleźć w analyzeResult tablicy documents obiektu, która jest zwracana po operacji analizy.

Pola tabelaryczne domyślnie obsługują tabele krzyżowe:

Aby oznaczyć tabelę obejmującą wiele stron, należy oznaczyć każdy wiersz tabeli na różnych stronach w jednej tabeli.
Najlepszym rozwiązaniem jest upewnienie się, że zestaw danych zawiera kilka przykładów oczekiwanych odmian. Można na przykład dołączyć przykłady, w których cała tabela znajduje się na jednej stronie i w której tabele zawierają co najmniej dwie strony.

Pola tabelaryczne są również przydatne podczas wyodrębniania powtarzających się informacji w dokumencie, który nie jest rozpoznawany jako tabela. Na przykład powtarzające się sekcje środowisk roboczych w wznowieniu można oznaczyć i wyodrębnić jako pole tabelaryczne.

Pola tabelaryczne zapewniają pewność tabeli, wiersza i komórki, zaczynając od interfejsu 2024-02-29-preview API:

Stałe lub dynamiczne tabele dodają obsługę ufności dla następujących elementów:
- Pewność tabeli — miara dokładnego rozpoznawania całej tabeli.
- Pewność wiersza— miara rozpoznawania pojedynczego wiersza.
- Pewność komórki, miara rozpoznawania pojedynczej komórki.
Zalecanym podejściem jest przejrzenie dokładności w sposób od góry do dołu, zaczynając od tabeli, po którym następuje wiersz, a następnie komórka.

Zobacz wyniki ufności i dokładności, aby dowiedzieć się więcej na temat ufności tabeli, wiersza i komórki.

Obsługiwane regiony

Od 18 października 2022 r. niestandardowe trenowanie niestandardowego modelu neuronowego analizy dokumentów będzie dostępne tylko w następujących regionach świadczenia usługi Azure do odwołania:

Australia Wschodnia
Brazylia Południowa
Kanada Środkowa
Indie Środkowe
Central US
Azja Wschodnia
East US
Wschodnie stany USA 2
Francja Środkowa
Japonia Wschodnia
South Central US
Southeast Asia
Południowe Zjednoczone Królestwo
West Europe
Zachodnie stany USA 2
US Gov Arizona
US Gov Wirginia

Napiwek

Model wytrenowany w jednym z wybranych regionów można skopiować do dowolnego innego regionu i użyć go odpowiednio.

Użyj interfejsu API REST lub programu Document Intelligence Studio , aby skopiować model do innego regionu.

Napiwek

Model wytrenowany w jednym z wybranych regionów można skopiować do dowolnego innego regionu i użyć go odpowiednio.

Użyj interfejsu API REST lub programu Document Intelligence Studio , aby skopiować model do innego regionu.

Napiwek

Model wytrenowany w jednym z wybranych regionów można skopiować do dowolnego innego regionu i użyć go odpowiednio.

Użyj interfejsu API REST lub programu Document Intelligence Studio , aby skopiować model do innego regionu.

Wymagania dotyczące danych wejściowych

Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.

Obsługiwane formaty plików:

Model	PDF	Obraz: jpeg/jpg, png, bmp, tiff, heif	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx) i HTML
Przeczytaj	✔	✔	✔
Układ	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview lub nowsza)
Dokument ogólny	✔	✔
Wstępnie utworzona	✔	✔
Niestandardowe neuronowe	✔	✔

✱ Pliki pakietu Microsoft Office nie są obecnie obsługiwane w przypadku innych modeli lub wersji.

W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).
Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).
Wymiary obrazu muszą mieć od 50 x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada około 8-point text na 150 kropek na cal.
W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1G-MB dla modelu neuronowego.
W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1GB maksymalnie 10 000 stron.

Najlepsze rozwiązania

Niestandardowe modele neuronowe różnią się od niestandardowych modeli szablonów na kilka różnych sposobów. Szablon niestandardowy lub model opiera się na spójnym szablonie wizualizacji w celu wyodrębnienia oznaczonych danych. Niestandardowe modele neuronowe obsługują dokumenty ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane w celu wyodrębniania pól. Podczas wybierania między dwoma typami modeli zacznij od modelu neuronowego i przetestuj, aby określić, czy obsługuje ona potrzeby funkcjonalne.

Obsługa odmian

Niestandardowe modele neuronowe mogą uogólniać różne formaty pojedynczego typu dokumentu. Najlepszym rozwiązaniem jest utworzenie pojedynczego modelu dla wszystkich odmian typu dokumentu. Dodaj co najmniej pięć oznaczonych etykietami przykładów dla każdego z różnych odmian do zestawu danych treningowych.

Nazewnictwo pól

Podczas etykietowania danych etykietowanie pola odpowiedniego dla wartości zwiększa dokładność wyodrębnionych par klucz-wartość. Na przykład w przypadku wartości pola zawierającej identyfikator dostawcy rozważ nazewnictwo pola supplier_id. Nazwy pól powinny być w języku dokumentu.

Etykietowanie ciągłych wartości

Tokeny wartości/wyrazy jednego pola muszą być następujące:

W kolejnej kolejności odczytu naturalnego bez przeplatania z innymi polami
W regionie, który nie obejmuje żadnych innych pól

Dane reprezentatywne

Wartości w przypadkach szkoleniowych powinny być zróżnicowane i reprezentatywne. Jeśli na przykład pole ma nazwę date, wartości dla tego pola powinny być datą. Wartość syntetyczna, podobna do ciągu losowego, może mieć wpływ na wydajność modelu.

Bieżące ograniczenia

Niestandardowy model neuronowy nie rozpoznaje wartości podzielonych między granice stron.
Niestandardowe neuronowe nieobsługiwane typy pól są ignorowane, jeśli zestaw danych oznaczony dla niestandardowych modeli szablonów jest używany do trenowania niestandardowego modelu neuronowego.
Niestandardowe modele neuronowe są ograniczone do 20 operacji kompilacji miesięcznie. Otwórz wniosek o pomoc techniczną, jeśli potrzebujesz zwiększenia limitu. Aby uzyskać więcej informacji, zobacz Limity przydziału i limity usługi Analizy dokumentów.

Trenowanie modelu

Niestandardowe modele neuronowe są dostępne w modelach w wersji 3.0 i nowszych.

Typ dokumentu	Interfejs API REST	SDK	Etykietowanie i testowanie modeli
Dokument niestandardowy	Analiza dokumentów 3.1	Zestaw SDK analizy dokumentów	Document Intelligence Studio

Operacja kompilacji do trenowania modelu obsługuje nową buildMode właściwość, aby wytrenować niestandardowy model neuronowy, ustaw wartość na buildModeneural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Następne kroki

Dowiedz się, jak tworzyć i tworzyć modele niestandardowe:

Tworzenie niestandardowego modelu Tworzenie modeliniestandardowych

Udostępnij za pośrednictwem

Niestandardowy model neuronowy analizy dokumentów

Możliwości modelu

Tryb kompilacji

Obsługiwane języki i ustawienia regionalne

Nakładające się pola

Pola tabelaryczne dodaje pewność tabeli, wiersza i komórki

Obsługiwane regiony

Wymagania dotyczące danych wejściowych

Najlepsze rozwiązania

Obsługa odmian

Nazewnictwo pól

Etykietowanie ciągłych wartości

Dane reprezentatywne

Bieżące ograniczenia

Trenowanie modelu

Następne kroki

Dodatkowe zasoby