Udostępnij za pośrednictwem


Niestandardowe modele analizy dokumentów

Ważne

  • Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
  • Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview.
  • Publiczna wersja zapoznawcza 2024-07-31-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure. Należy pamiętać, że niestandardowy model generowania (wyodrębniania pól dokumentów) w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:
    • Wschodnie stany USA
    • Zachodnie stany USA 2
    • Europa Zachodnia
    • Północno-środkowe stany USA

Ta zawartość dotyczy:Znacznik v4.0 (wersja zapoznawcza) | Poprzednie wersje: niebieski znacznik wyboru v3.1 (GA) v3.0 (GA) niebieski znacznik wyboru v2.1 (GA) niebieski znacznik wyboru

Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja:Znacznik purpurowy znacznik wyboru v4.0 (wersja zapoznawcza) | | Poprzednie wersje: niebieski znacznik wyboru v3.0niebieski znacznik wyboru v2.1

Ta zawartość dotyczy: Znacznik wersja 3.0 (GA) | Najnowsze wersje: purpurowy znacznik wyboru wersja 4.0 (wersja zapoznawcza) purpurowy znacznik wyboru 3.1 | Poprzednia wersja: niebieski znacznik wyboru wersja 2.1

Ta zawartość dotyczy: Znacznik wersja 2.1 | Najnowsza wersja: niebieski znacznik wyboru wersja 4.0 (wersja zapoznawcza)

Analiza dokumentów używa zaawansowanej technologii uczenia maszynowego do identyfikowania dokumentów, wykrywania i wyodrębniania informacji z formularzy i dokumentów oraz zwracania wyodrębnionych danych w danych wyjściowych ze strukturą JSON. Za pomocą analizy dokumentów można używać modeli analizy dokumentów, wstępnie utworzonych/wstępnie wytrenowanych lub wytrenowanych autonomicznych modeli niestandardowych.

Modele niestandardowe obejmują teraz niestandardowe modele klasyfikacji dla scenariuszy, w których należy zidentyfikować typ dokumentu przed wywołaniem modelu wyodrębniania. Modele klasyfikatora są dostępne od interfejsu 2023-07-31 (GA) API. Model klasyfikacji może być sparowany z niestandardowym modelem wyodrębniania w celu analizowania i wyodrębniania pól z formularzy i dokumentów specyficznych dla Twojej firmy. Autonomiczne niestandardowe modele wyodrębniania można łączyć w celu utworzenia modeli złożonych.

Niestandardowe typy modeli dokumentów

Niestandardowe modele dokumentów mogą być jednym z dwóch typów, szablonu niestandardowego lub niestandardowego formularza oraz niestandardowych modeli dokumentów neuronowych lub niestandardowych. Proces etykietowania i trenowania obu modeli jest identyczny, ale modele różnią się w następujący sposób:

Niestandardowe modele wyodrębniania

Aby utworzyć niestandardowy model wyodrębniania, oznacz zestaw danych dokumentów wartościami, które chcesz wyodrębnić i wytrenować model w oznaczonym zestawie danych. Do rozpoczęcia pracy potrzebujesz tylko pięciu przykładów tego samego formularza lub typu dokumentu.

Niestandardowy model neuronowy

Ważne

Począwszy od interfejsu API w wersji 4.0 (2024-02-29-preview), niestandardowe modele neuronowe obsługują teraz nakładające się pola i tabele, pewność na poziomie wiersza i komórki.

Niestandardowy model neuronowy (niestandardowy dokument) używa modeli uczenia głębokiego i modelu podstawowego przeszkolonego w dużej kolekcji dokumentów. Ten model jest następnie dostrojony lub dostosowany do danych podczas trenowania modelu za pomocą oznaczonego zestawu danych. Niestandardowe modele neuronowe obsługują wyodrębnianie kluczowych pól danych ze strukturą, częściowo ustrukturyzowanych i nieustrukturyzowanych dokumentów. Po wybraniu między dwoma typami modeli zacznij od modelu neuronowego, aby określić, czy spełnia ona twoje potrzeby funkcjonalne. Zobacz modele neuronowe, aby dowiedzieć się więcej o niestandardowych modelach dokumentów.

Niestandardowy model szablonu

Szablon niestandardowy lub niestandardowy model formularza opiera się na spójnym szablonie wizualizacji w celu wyodrębnienia oznaczonych danych. Wariancja w strukturze wizualnej dokumentów wpływa na dokładność modelu. Formularze ustrukturyzowane, takie jak kwestionariusze lub aplikacje, to przykłady spójnych szablonów wizualnych.

Zestaw szkoleniowy składa się z dokumentów strukturalnych, w których formatowanie i układ są statyczne i stałe z jednego wystąpienia dokumentu do następnego. Niestandardowe modele szablonów obsługują pary klucz-wartość, znaczniki wyboru, tabele, pola podpisu i regiony. Modele szablonów i można je wytrenować na dokumentach w dowolnym z obsługiwanych języków. Aby uzyskać więcej informacji, zobacz niestandardowe modele szablonów.

Jeśli język dokumentów i scenariuszy wyodrębniania obsługuje niestandardowe modele neuronowe, zalecamy użycie niestandardowych modeli neuronowych w modelach szablonów w celu zwiększenia dokładności.

Napiwek

Aby potwierdzić, że dokumenty szkoleniowe przedstawiają spójny szablon wizualizacji, usuń wszystkie dane wprowadzone przez użytkownika z każdego formularza w zestawie. Jeśli puste formularze są identyczne w wyglądzie, reprezentują spójny szablon wizualizacji.

Aby uzyskać więcej informacji, zobacz Interpretowanie i zwiększanie dokładności i pewności dla modeli niestandardowych.

Wymagania dotyczące danych wejściowych

  • Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.

  • Obsługiwane formaty plików:

    Model PDF Obraz:
    jpeg/jpg, , bmppng, , tiffheif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx)
    Przeczytaj
    Układ ✔ (2024-02-29-preview, 2023-10-31-preview i nowsze)
    Dokument ogólny
    Wstępnie utworzona
    Niestandardowe wyodrębnianie
    Klasyfikacja niestandardowa

    ✱ Pliki pakietu Microsoft Office nie są obecnie obsługiwane w przypadku innych modeli lub wersji.

  • W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).

  • Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).

  • Wymiary obrazu muszą mieć od 50 x 50 pikseli do 10 000 pikseli x 10 000 pikseli.

  • Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.

  • Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada około 8-point text na 150 kropek na cal.

  • W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.

  • W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1G-MB dla modelu neuronowego.

  • W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1GB maksymalnie 10 000 stron.

Optymalne dane treningowe

Trenowanie danych wejściowych jest podstawą dowolnego modelu uczenia maszynowego. Określa jakość, dokładność i wydajność modelu. W związku z tym kluczowe jest utworzenie najlepszych danych wejściowych szkoleniowych możliwych dla projektu analizy dokumentów. W przypadku korzystania z niestandardowego modelu analizy dokumentów należy podać własne dane szkoleniowe. Oto kilka wskazówek, które pomogą w efektywnym trenowaniu modeli:

  • Używaj plików PDF opartych na tekście zamiast plików PDF opartych na obrazach, jeśli jest to możliwe. Jednym ze sposobów identyfikacji obrazu*opartego na pliku PDF jest próba wybrania określonego tekstu w dokumencie. Jeśli możesz wybrać tylko cały obraz tekstu, dokument jest oparty na obrazie, a nie na podstawie tekstu.

  • Organizuj dokumenty szkoleniowe przy użyciu podfolderu dla każdego formatu (JPEG/JPG, PNG, BMP, PDF lub TIFF).

  • Użyj formularzy, które mają ukończone wszystkie dostępne pola.

  • Użyj formularzy z różnymi wartościami w każdym polu.

  • Użyj większego zestawu danych (więcej niż pięciu dokumentów szkoleniowych), jeśli obrazy są niskiej jakości.

  • Ustal, czy chcesz użyć jednego modelu lub wielu modeli złożonych w jeden model.

  • Rozważ segmentowanie zestawu danych w folderach, w których każdy folder jest unikatowym szablonem. Wytrenuj jeden model na folder i utwórz wynikowe modele w jednym punkcie końcowym. Dokładność modelu może się zmniejszyć, gdy masz różne formaty analizowane za pomocą jednego modelu.

  • Rozważ podzielenie zestawu danych na segmenty, aby wytrenować wiele modeli, jeśli formularz ma odmiany z formatami i podziałami stron. Formularze niestandardowe opierają się na spójnym szablonie wizualizacji.

  • Upewnij się, że masz zrównoważony zestaw danych, uwzględniając formaty, typy dokumentów i strukturę.

Tryb kompilacji

Operacja build custom model dodaje obsługę szablonu i modeli niestandardowych neuronowych. Poprzednie wersje interfejsu API REST i bibliotek klienckich obsługiwały tylko jeden tryb kompilacji, który jest teraz znany jako tryb szablonu.

  • Modele szablonów akceptują tylko dokumenty, które mają tę samą podstawową strukturę strony — jednolity wygląd wizualny — lub takie samo względne pozycjonowanie elementów w dokumencie.

  • Modele neuronowe obsługują dokumenty, które mają te same informacje, ale różne struktury stron. Przykłady tych dokumentów obejmują formularze Stany Zjednoczone W2, które mają te same informacje, ale różnią się wyglądem w różnych firmach.

Ta tabela zawiera linki do odwołań do zestawu SDK języka programowania trybu kompilacji i przykładów kodu w witrynie GitHub:

Język programowania Dokumentacja zestawu SDK Przykład kodu
C#/.NET DocumentBuildMode, struktura Sample_BuildCustomModelAsync.cs
Java DocumentBuildMode, klasa BuildModel.java
JavaScript Typ DocumentBuildMode buildModel.js
Python DocumentBuildMode, wyliczenie sample_build_model.py

Porównanie funkcji modelu

W poniższej tabeli porównaliśmy szablon niestandardowy i niestandardowe funkcje neuronowe:

Funkcja Szablon niestandardowy (formularz) Niestandardowe neuronowe (dokument)
Struktura dokumentu Szablon, formularz i struktura Ustrukturyzowane, częściowo ustrukturyzowane i nieustrukturyzowane
Czas trenowania Od 1 do 5 minut Od 20 minut do 1 godziny
Wyodrębnianie danych Pary klucz-wartość, tabele, znaczniki wyboru, współrzędne i podpisy Pary klucz-wartość, znaczniki wyboru i tabele
Nakładające się pola Nieobsługiwane Obsługiwane
Odmiany dokumentu Wymaga modelu dla każdej odmiany Używa pojedynczego modelu dla wszystkich odmian
Obsługa języków Szablon niestandardowy obsługi języka Język obsługuje niestandardowe neuronowe

Niestandardowy model klasyfikacji

Klasyfikacja dokumentów to nowy scenariusz obsługiwany przez analizę dokumentów za pomocą interfejsu 2023-07-31 API (wersja 3.1 ogólna dostępność). Interfejs API klasyfikatora dokumentów obsługuje scenariusze klasyfikacji i dzielenia. Trenowanie modelu klasyfikacji w celu zidentyfikowania różnych typów dokumentów, które obsługuje aplikacja. Plik wejściowy modelu klasyfikacji może zawierać wiele dokumentów i klasyfikuje każdy dokument w skojarzonym zakresie stron. Aby dowiedzieć się więcej, zobacz niestandardowe modele klasyfikacji .

Uwaga

Począwszy od klasyfikacji dokumentów wersji interfejsu 2024-02-29-preview API, obsługuje teraz typy dokumentów pakietu Office do klasyfikacji. Ta wersja interfejsu API wprowadza również trenowanie przyrostowe dla modelu klasyfikacji.

Niestandardowe narzędzia modelu

Modele analizy dokumentów w wersji 3.1 lub nowszej obsługują następujące narzędzia, aplikacje i biblioteki, programy i biblioteki:

Funkcja Zasoby Model ID
Model niestandardowy • Document Intelligence Studio• REST API
C# SDK
Python SDK
custom-model-id

Niestandardowy cykl życia modelu

Cykl życia modelu niestandardowego zależy od wersji interfejsu API używanej do trenowania. Jeśli wersja interfejsu API jest ogólnie dostępna, model niestandardowy ma ten sam cykl życia co ta wersja. Model niestandardowy nie jest dostępny do wnioskowania, gdy wersja interfejsu API jest przestarzała. Jeśli wersja interfejsu API jest wersją zapoznawcza, model niestandardowy ma ten sam cykl życia co wersja zapoznawcza interfejsu API.

Narzędzie Document Intelligence w wersji 2.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Uwaga

Niestandardowe typy modeli niestandardowego neuronowego i niestandardowego szablonu są dostępne w interfejsach API analizy dokumentów w wersji 3.1 i 3.0.

Funkcja Zasoby
Model niestandardowy Narzędzie
do etykietowania analizy dokumentów• Interfejs API
REST• Zestaw SDK
biblioteki klienta• Kontener docker analizy dokumentów

Tworzenie modelu niestandardowego

Wyodrębnianie danych z określonych lub unikatowych dokumentów przy użyciu modeli niestandardowych. Potrzebne są następujące zasoby:

  • Subskrypcja Azure. Możesz utworzyć go bezpłatnie.

  • Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

    Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

Przykładowe narzędzie do etykietowania

Napiwek

  • Aby uzyskać ulepszone środowisko i zaawansowaną jakość modelu, wypróbuj narzędzie Document Intelligence w wersji 3.0 Studio.
  • Program Studio w wersji 3.0 obsługuje dowolny model trenowany z danymi oznaczonymi etykietami w wersji 2.1.
  • Szczegółowe informacje na temat migracji z wersji 2.1 do wersji 3.0 można znaleźć w przewodniku migracji interfejsu API.
  • Zobacz nasz interfejs API REST lub język C#, Java, JavaScript lub Python SDK. /Quickstarts, aby rozpocząć pracę z wersją 3.0.
  • Narzędzie do etykietowania przykładowego analizy dokumentów to narzędzie typu open source, które umożliwia testowanie najnowszych funkcji funkcji analizy dokumentów i optycznego rozpoznawania znaków (OCR).

  • Wypróbuj przewodnik Szybki start dotyczący przykładowego narzędzia etykietowania, aby rozpocząć tworzenie i używanie modelu niestandardowego.

Document Intelligence Studio

Uwaga

Program Document Intelligence Studio jest dostępny z interfejsami API w wersji 3.1 i 3.0.

  1. Na stronie głównej narzędzia Document Intelligence Studio wybierz pozycję Niestandardowe modele wyodrębniania.

  2. W obszarze Moje projekty wybierz pozycję Utwórz projekt.

  3. Wypełnij pola szczegółów projektu.

  4. Skonfiguruj zasób usługi, dodając konto usługi Storage i kontener obiektów blob w celu nawiązania połączenia ze źródłem danych szkoleniowych.

  5. Przejrzyj i utwórz projekt.

  6. Dodaj przykładowe dokumenty do etykiet, kompilowania i testowania modelu niestandardowego.

Aby zapoznać się ze szczegółowym przewodnikiem tworzenia pierwszego niestandardowego modelu wyodrębniania, zobacz How to create a custom extraction model (Jak utworzyć niestandardowy model wyodrębniania).

Podsumowanie wyodrębniania modelu niestandardowego

W tej tabeli porównaliśmy obsługiwane obszary wyodrębniania danych:

Model Pola formularza Znaczniki zaznaczenia Pola ustrukturyzowane (tabele) Podpis Etykietowanie regionów Nakładające się pola
Szablon niestandardowy N/a
Niestandardowe neuronowe N/a * ✔ (2024-02-29-preview)

Symbole tabeli:
✔ — Obsługiwane
**n/a — obecnie niedostępne;
*-Zachowuje się inaczej w zależności od modelu. W przypadku modeli szablonów syntetyczne dane są generowane w czasie trenowania. W przypadku modeli neuronowych zaznaczono tekst rozpoznany w regionie.

Napiwek

Podczas wybierania między dwoma typami modeli zacznij od niestandardowego modelu neuronowego, jeśli spełnia twoje potrzeby funkcjonalne. Zobacz niestandardowe neuronowe, aby dowiedzieć się więcej o niestandardowych modelach neuronowych.

Opcje tworzenia niestandardowych modeli

W poniższej tabeli opisano funkcje dostępne w skojarzonych narzędziach i bibliotekach klienckich. Najlepszym rozwiązaniem jest upewnienie się, że używasz zgodnych narzędzi wymienionych tutaj.

Document type Interfejs API REST SDK Etykietowanie i testowanie modeli
Szablon niestandardowy w wersji 4.0 3.1 w wersji 3.0 Analiza dokumentów 3.1 Zestaw SDK analizy dokumentów Document Intelligence Studio
Niestandardowe neuronowe v4.0 v3.1 v3.0 Analiza dokumentów 3.1 Zestaw SDK analizy dokumentów Document Intelligence Studio
Formularz niestandardowy w wersji 2.1 Interfejs API analizy dokumentów 2.1 (ogólna dostępność) Zestaw SDK analizy dokumentów Narzędzie do etykietowania próbek

Uwaga

Niestandardowe modele szablonów trenowane za pomocą interfejsu API 3.0 będą miały kilka ulepszeń interfejsu API 2.1 wynikających z ulepszeń aparatu OCR. Zestawy danych używane do trenowania niestandardowego modelu szablonu przy użyciu interfejsu API 2.1 mogą być nadal używane do trenowania nowego modelu przy użyciu interfejsu API 3.0.

  • Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.

  • Obsługiwane formaty plików to JPEG/JPG, PNG, BMP, TIFF i PDF (tekst osadzony lub skanowany). Pliki PDF z osadzonym tekstem są najlepsze, aby wyeliminować możliwość błędów podczas wyodrębniania i lokalizowania znaków.

  • W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron. W przypadku subskrypcji w warstwie Bezpłatna przetwarzane są tylko dwie pierwsze strony.

  • Rozmiar pliku musi być mniejszy niż 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).

  • Obrazy muszą mieć wymiary od 50 x 50 pikseli do 10 000 x 10 000 pikseli.

  • Wymiary formatu PDF są do 17 x 17 cali, co odpowiada rozmiarowi papieru Legal lub A3 lub mniejszemu.

  • Łączny rozmiar danych treningowych wynosi 500 stron lub mniej.

  • Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.

    Napiwek

    Dane szkoleniowe:

    • Jeśli to możliwe, użyj dokumentów tekstowych w formacie PDF zamiast dokumentów opartych na obrazach. Zeskanowane pliki PDF są obsługiwane jako obrazy.
    • Podaj tylko jedno wystąpienie formularza na dokument.
    • W przypadku formularzy wypełnionych użyj przykładów z wypełnionymi polami.
    • Używaj formularzy z różnymi wartościami w każdym polu.
    • Jeśli obrazy formularzy są niższej jakości, użyj większego zestawu danych. Na przykład użyj 10 do 15 obrazów.

Obsługiwane języki i ustawienia regionalne

Zobacz naszą stronę Obsługa języków — modele niestandardowe, aby uzyskać pełną listę obsługiwanych języków.

Następne kroki