Niestandardowy model neuronowy analizy dokumentów

Artykuł
09/02/2024

Ważne

Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview.
Publiczna wersja zapoznawcza 2024-07-31-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure. Należy pamiętać, że niestandardowy model generowania (wyodrębniania pól dokumentów) w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:
- Wschodnie stany USA
- Zachodnie stany USA 2
- Europa Zachodnia
- Północno-środkowe stany USA

Ta zawartość dotyczy: wersja 4.0 (wersja zapoznawcza) | Poprzednie wersje: v3.1 (GA) v3.0 (GA)

Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja: v4.0 (wersja zapoznawcza) | | Poprzednie wersje: v3.0

Ta zawartość dotyczy: wersja 3.0 (GA) | Najnowsze wersje: wersja 4.0 (wersja zapoznawcza) 3.1

Niestandardowe modele dokumentów neuronowych lub modele neuronowe są głębokim typem modelu, który łączy funkcje układu i języka w celu dokładnego wyodrębnienia pól z etykietami z dokumentów. Podstawowy niestandardowy model neuronowy jest trenowany na różnych typach dokumentów, co sprawia, że nadaje się do trenowania w celu wyodrębniania pól ze strukturą i częściowo ustrukturyzowanych dokumentów. Niestandardowe modele neuronowe są dostępne w modelach w wersji 3.0 i nowszych Poniższa tabela zawiera listę typowych typów dokumentów dla każdej kategorii:

Dokumenty	Przykłady
Dane ustrukturyzowane	ankiety, kwestionariusze
Dane częściowo ustrukturyzowane	faktury, zamówienia zakupu

Niestandardowe modele neuronowe mają ten sam format i strategię etykietowania co niestandardowe modele szablonów . Obecnie niestandardowe modele neuronowe obsługują tylko podzestaw typów pól obsługiwanych przez niestandardowe modele szablonów.

Możliwości modelu

Ważne

Począwszy od wersji 2024-02-29-preview interfejsu API, niestandardowe modele neuronowe dodają obsługę nakładających się pól i ufności komórek tabeli.

Niestandardowe modele neuronowe obsługują obecnie pary klucz-wartość oraz znaczniki wyboru i pola strukturalne (tabele).

Pola formularza	Znaczniki zaznaczenia	Pola tabelaryczne	Podpis	Etykietowanie regionów	Nakładające się pola
Obsługiwane	Obsługiwane	Obsługiwane	Nieobsługiwane	Obsługiwane ¹	Obsługiwane ²

¹ Etykiety regionów w niestandardowych modelach neuronowych używają wyników z interfejsu API układu dla określonego regionu. Ta funkcja różni się od modeli szablonów, w których, jeśli żadna wartość nie jest obecna, tekst jest generowany w czasie trenowania.
² Nakładające się pola są obsługiwane, począwszy od wersji 2024-02-29-previewinterfejsu API REST. Nakładające się pola mają pewne limity. Aby uzyskać więcej informacji, zobacz nakładające się pola.

Tryb kompilacji

Operacja Build obsługuje szablony i neuronowe modele niestandardowe. Poprzednie wersje interfejsu API REST i bibliotek klienckich obsługiwały tylko jeden tryb kompilacji, który jest teraz znany jako tryb szablonu.

Modele neuronowe obsługują dokumenty, które mają te same informacje, ale różne struktury stron. Przykłady tych dokumentów obejmują formularze Stany Zjednoczone W2, które współdzielą te same informacje, ale mogą się różnić w wyglądzie w różnych firmach. Aby uzyskać więcej informacji, zobacz Tryb kompilacji modelu niestandardowego.

Nakładające się pola

Wraz z wydaniem wersji 2024-02-29-preview interfejsu API i nowszych niestandardowe modele neuronowe obsługują nakładające się pola:

Nakładające się pola

Wraz z wydaniem interfejsu API w wersji 2024-07-31-preview i nowszych niestandardowe modele neuronowe będą obsługiwać nakładające się pola:

Aby użyć nakładających się pól, zestaw danych musi zawierać co najmniej jedną próbkę z oczekiwanym nakładaniem się. Aby oznaczyć nakładające się etykiety, użyj etykietowania regionów, aby wyznaczyć poszczególne zakresy zawartości (z nakładającymi się) dla każdego pola. Etykietowanie nakładające się na zaznaczenie pola (wyróżnianie wartości) kończy się niepowodzeniem w programie Studio, ponieważ etykietowanie regionów jest jedynym obsługiwanym narzędziem do etykietowania wskazującym nakładanie się pól. Obsługa nakładających się na siebie obejmuje:

Pełne nakładanie się. Ten sam zestaw tokenów jest oznaczony dla dwóch różnych pól.
Częściowe nakładanie się. Niektóre tokeny należą do obu pól, ale istnieją tokeny, które są tylko częścią jednego pola lub drugiego.

Nakładające się pola mają pewne limity:

Każdy token lub wyraz można oznaczyć tylko jako dwa pola.
nakładające się pola w tabeli nie mogą obejmować wierszy tabeli.
Nakładające się pola można rozpoznać tylko wtedy, gdy co najmniej jeden przykład w zestawie danych zawiera nakładające się etykiety dla tych pól.

Aby użyć nakładających się pól, oznacz zestaw danych nakładającymi się nakładami i wytrenuj model przy użyciu wersji 2024-02-29-preview interfejsu API lub nowszej.

Pola tabelaryczne

Wraz z wydaniem interfejsu API w wersji 2022-06-30-preview i nowszych niestandardowe modele neuronowe obsługują pola tabelaryczne (tabele) do analizowania danych tabel, wierszy i komórek z pewnością:

Modele trenowane za pomocą interfejsu API w wersji 2022-06-30-preview lub nowszej będą akceptować etykiety pól tabelarycznych.
Dokumenty analizowane przy użyciu niestandardowych modeli neuronowych przy użyciu interfejsu API w wersji 2022-06-30-preview lub nowszej będą tworzyć pola tabelaryczne agregowane w tabelach.
Wyniki można znaleźć w analyzeResult tablicy documents obiektu, która jest zwracana po operacji analizy.

Pola tabelaryczne domyślnie obsługują tabele krzyżowe:

Aby oznaczyć tabelę obejmującą wiele stron, należy oznaczyć każdy wiersz tabeli na różnych stronach w jednej tabeli.
Najlepszym rozwiązaniem jest upewnienie się, że zestaw danych zawiera kilka przykładów oczekiwanych odmian. Można na przykład dołączyć przykłady, w których cała tabela znajduje się na jednej stronie i w której tabele zawierają co najmniej dwie strony.

Pola tabelaryczne są również przydatne podczas wyodrębniania powtarzających się informacji w dokumencie, który nie jest rozpoznawany jako tabela. Na przykład powtarzające się sekcje środowisk roboczych w wznowieniu można oznaczyć i wyodrębnić jako pole tabelaryczne.

Pola tabelaryczne zapewniają pewność tabeli, wiersza i komórki, zaczynając od interfejsu 2024-02-29-preview API:

Stałe lub dynamiczne tabele dodają obsługę ufności dla następujących elementów:
- Pewność tabeli — miara dokładnego rozpoznawania całej tabeli.
- Pewność wiersza— miara rozpoznawania pojedynczego wiersza.
- Pewność komórki, miara rozpoznawania pojedynczej komórki.
Zalecanym podejściem jest przejrzenie dokładności w sposób od góry do dołu, zaczynając od tabeli, po którym następuje wiersz, a następnie komórka. Zobacz wyniki ufności i dokładności, aby dowiedzieć się więcej na temat ufności tabeli, wiersza i komórki.

Obsługiwane języki i ustawienia regionalne

Zobacz naszą obsługę języków — modele niestandardowe, aby uzyskać pełną listę obsługiwanych języków.

Obsługiwane regiony

Od 18 października 2022 r. niestandardowe trenowanie niestandardowego modelu neuronowego analizy dokumentów będzie dostępne tylko w następujących regionach świadczenia usługi Azure do odwołania:

Australia Wschodnia
Brazylia Południowa
Kanada Środkowa
Indie Środkowe
Central US
Azja Wschodnia
East US
Wschodnie stany USA 2
Francja Środkowa
Japonia Wschodnia
South Central US
Southeast Asia
Południowe Zjednoczone Królestwo
West Europe
Zachodnie stany USA 2
US Gov Arizona
US Gov Wirginia

Napiwek

Model wytrenowany w jednym z wybranych regionów można skopiować do dowolnego innego regionu i użyć go odpowiednio.

Użyj interfejsu API REST lub programu Document Intelligence Studio , aby skopiować model do innego regionu.

Napiwek

Model wytrenowany w jednym z wybranych regionów można skopiować do dowolnego innego regionu i użyć go odpowiednio.

Użyj interfejsu API REST lub programu Document Intelligence Studio , aby skopiować model do innego regionu.

Napiwek

Model wytrenowany w jednym z wybranych regionów można skopiować do dowolnego innego regionu i użyć go odpowiednio.

Użyj interfejsu API REST lub programu Document Intelligence Studio , aby skopiować model do innego regionu.

Wymagania dotyczące danych wejściowych

Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.

Obsługiwane formaty plików:

Model	PDF	Obraz: jpeg/`jpg`, `png`, `bmp`, , `tiffheif`	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx) i HTML
Przeczytaj	✔	✔	✔
Układ	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview lub nowsza)
Dokument ogólny	✔	✔
Wstępnie utworzona	✔	✔
Niestandardowe neuronowe	✔	✔

✱ Pliki pakietu Microsoft Office nie są obecnie obsługiwane w przypadku innych modeli lub wersji.

W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).
Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).
Wymiary obrazu muszą mieć od 50 x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada około 8-point text na 150 kropek na cal.
W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1G-MB dla modelu neuronowego.
W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1GB maksymalnie 10 000 stron.

Najlepsze rozwiązania

Niestandardowe modele neuronowe różnią się od niestandardowych modeli szablonów na kilka różnych sposobów. Szablon niestandardowy lub model opiera się na spójnym szablonie wizualizacji w celu wyodrębnienia oznaczonych danych. Niestandardowe modele neuronowe obsługują strukturę i częściowo ustrukturyzowane w celu wyodrębniania pól. Jeśli wybierasz między typami modeli, zacznij od modelu neuronowego i przetestuj, aby określić, czy obsługuje ona twoje potrzeby funkcjonalne.

Obsługa odmian — niestandardowe modele neuronowe mogą uogólniać różne formaty pojedynczego typu dokumentu. Najlepszym rozwiązaniem jest utworzenie pojedynczego modelu dla wszystkich odmian typu dokumentu. Dodaj co najmniej pięć oznaczonych etykietami przykładów dla każdego z różnych odmian do zestawu danych treningowych.
Nazewnictwo pól — podczas etykietowania danych etykietowanie pola odpowiedniego dla wartości zwiększa dokładność wyodrębnionych par klucz-wartość. Na przykład w przypadku wartości pola zawierającej identyfikator dostawcy rozważ nazewnictwo pola supplier_id. Nazwy pól powinny być w języku dokumentu.
Etykietowanie ciągłych wartości — tokeny wartości/wyrazy jednego pola muszą być następujące:
- W kolejnej kolejności odczytu naturalnego bez przeplatania z innymi polami
- W regionie, który nie obejmuje żadnych innych pól
Reprezentatywne dane — wartości w przypadkach szkoleniowych powinny być zróżnicowane i reprezentatywne. Jeśli na przykład pole ma nazwę date, wartości dla tego pola powinny być datą. Wartość syntetyczna, podobna do ciągu losowego, może mieć wpływ na wydajność modelu.

Bieżące ograniczenia

Niestandardowy model neuronowy nie rozpoznaje wartości podzielonych między granice stron.
Niestandardowe neuronowe nieobsługiwane typy pól są ignorowane, jeśli zestaw danych oznaczony dla niestandardowych modeli szablonów jest używany do trenowania niestandardowego modelu neuronowego.
Niestandardowe modele neuronowe są ograniczone do 20 operacji kompilacji miesięcznie. Otwórz wniosek o pomoc techniczną, jeśli potrzebujesz zwiększenia limitu. Aby uzyskać więcej informacji, zobacz Limity przydziału i limity usługi Analizy dokumentów.

Trenowanie modelu

Niestandardowe modele neuronowe są dostępne w modelach w wersji 3.0 i nowszych.

Typ dokumentu	Interfejs API REST	SDK	Etykietowanie i testowanie modeli
Dokument niestandardowy	Analiza dokumentów 3.1	Zestaw SDK analizy dokumentów	Document Intelligence Studio

Operacja Build trenowania modelu obsługuje nową buildMode właściwość, aby wytrenować niestandardowy model neuronowy, ustaw wartość na buildMode neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Rozliczenia

Począwszy od wersji 2024-07-31-preview, można trenować niestandardowy model neuronowy przez dłuższy czas niż standardowe 30 minut. Poprzednie wersje są ograniczone do 30 minut na wystąpienie szkoleniowe, a łącznie 20 bezpłatnych wystąpień szkoleniowych miesięcznie. Teraz z 2024-07-31-previewprogramem możesz otrzymać 10 godzin bezpłatnego trenowania modelu i wytrenować model tak długo, jak 10 godzin.

Możesz spędzić wszystkie 10 bezpłatnych godzin w jednej kompilacji modelu z dużym zestawem danych lub wykorzystać je w wielu kompilacjach, dostosowując maksymalną wartość czasu trwania dla build operacji, określając maxTrainingHours:

POST https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  ...,
  "maxTrainingHours": 10
}

Ważne

Jeśli chcesz wytrenować dodatkowe modele neuronowe lub wytrenować modele przez dłuższy czas, który przekracza 10 godzin, mają zastosowanie opłaty za rozliczenia. Aby uzyskać szczegółowe informacje na temat opłat za rozliczenia, zapoznaj się ze stroną cennika.
Możesz wybrać tę płatną usługę szkoleniową, ustawiając maxTrainingHours wartość na żądaną maksymalną liczbę godzin. Wywołania interfejsu API bez budżetu, ale z zestawem maxTrainingHours jako ponad 10 godzin zakończy się niepowodzeniem.
Ponieważ każda kompilacja zajmuje różną ilość czasu w zależności od typu i rozmiaru zestawu danych trenowania, rozliczenia są obliczane dla rzeczywistego czasu spędzonego na trenowaniu modelu neuronowego, z co najmniej 30 minutami na zadanie szkoleniowe.
Ta płatna funkcja trenowania umożliwia trenowanie większych zestawów danych przez dłuższy czas z elastycznością w godzinach szkolenia.


GET /documentModels/{myCustomModel}
{
  "modelId": "myCustomModel",
  "trainingHours": 0.23,
  "docTypes": { ... },
  ...
}

Uwaga

W przypadku wersji v3.1 (2023-07-31) analizy dokumentów i v3.0 (2022-08-31)płatne trenowanie niestandardowego modelu neuronowego nie jest włączone. W przypadku dwóch starszych wersji uzyskasz maksymalnie 30-minutowy czas trwania trenowania na model. Jeśli chcesz wytrenować więcej niż 20 wystąpień modelu, możesz utworzyć bilet pomoc techniczna platformy Azure, aby zwiększyć limit trenowania.

Rozliczenia

W przypadku wersji v3.1 (2023-07-31) and v3.0 (2022-08-31)analizy dokumentów otrzymujesz maksymalnie 30 minut trwania trenowania na model i maksymalnie 20 szkoleń na miesiąc. Jeśli chcesz wytrenować więcej niż 20 wystąpień modelu, możesz utworzyć bilet pomoc techniczna platformy Azure, aby zwiększyć limit trenowania. W przypadku biletu pomoc techniczna platformy Azure wprowadź w summary polu : Increase Document Intelligence custom neural training (TPS) limit.

Ważne

Podczas zwiększania limitu trenowania należy pamiętać, że 2 niestandardowe sesje trenowania modelu neuronowego będą traktowane jako 1 godzina trenowania. Aby uzyskać więcej informacji na temat cen zwiększania liczby sesji szkoleniowych, zapoznaj się ze stroną cennika.
pomoc techniczna platformy Azure bilet na potrzeby zwiększenia limitu trenowania może być stosowany tylko na poziomie zasobów, a nie na poziomie subskrypcji. Możesz zażądać zwiększenia limitu trenowania dla pojedynczego zasobu analizy dokumentów, określając identyfikator zasobu i region w bilecie pomocy technicznej.

Jeśli chcesz trenować modele przez dłuższy czas niż 30 minut, obsługujemy płatne szkolenie przy użyciu najnowszej wersji. v4.0 (2024-07-31-preview) Korzystając z najnowszej wersji, możesz trenować model przez dłuższy czas, aby przetwarzać większe dokumenty. Aby uzyskać więcej informacji na temat płatnego szkolenia, zobacz Rozliczenia w wersji 4.0.

Rozliczenia

Ważne

Podczas zwiększania limitu trenowania należy pamiętać, że 2 niestandardowe sesje trenowania modelu neuronowego będą traktowane jako 1 godzina trenowania. Aby uzyskać więcej informacji na temat cen zwiększania liczby sesji szkoleniowych, zapoznaj się ze stroną cennika.
pomoc techniczna platformy Azure bilet na potrzeby zwiększenia limitu trenowania może być stosowany tylko na poziomie zasobów, a nie na poziomie subskrypcji. Możesz zażądać zwiększenia limitu trenowania dla pojedynczego zasobu analizy dokumentów, określając identyfikator zasobu i region w bilecie pomocy technicznej.

Jeśli chcesz trenować modele przez dłuższy czas niż 30 minut, obsługujemy płatne szkolenie przy użyciu najnowszej wersji. v4.0 (2024-07-31) Korzystając z najnowszej wersji, możesz trenować model przez dłuższy czas, aby przetwarzać większe dokumenty. Aby uzyskać więcej informacji na temat płatnego szkolenia, zobacz Rozliczenia w wersji 4.0.

Następne kroki

Dowiedz się, jak tworzyć i tworzyć modele niestandardowe:

Tworzenie niestandardowego modelu Tworzenie modeliniestandardowych

Udostępnij za pośrednictwem

Niestandardowy model neuronowy analizy dokumentów

Możliwości modelu

Tryb kompilacji

Nakładające się pola

Nakładające się pola

Pola tabelaryczne

Obsługiwane języki i ustawienia regionalne

Obsługiwane regiony

Wymagania dotyczące danych wejściowych

Najlepsze rozwiązania

Bieżące ograniczenia

Trenowanie modelu

Rozliczenia

Rozliczenia

Rozliczenia

Następne kroki

Opinia

Dodatkowe zasoby