Modele przetwarzania dokumentów

Ta zawartość dotyczy:checkmarkv4.0 (GA) | Wcześniejsze wersje:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (wycofywana)red-checkmarkv2.1 (wycofywana)

Ta zawartość dotyczy:checkmarkv3.1 (GA) | Najnowsza wersja:purple-checkmarkv4.0 (GA) | Poprzednie wersje:blue-checkmarkv3.0blue-checkmarkv2.1

Ta zawartość dotyczy:red-checkmarkv3.0 (wycofywana) | Najnowsze wersje:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Poprzednia wersja:blue-checkmarkv2.1 (wycofywana)

Ta zawartość dotyczy:red-checkmarkv2.1 | Najnowsza wersja:blue-checkmarkv4.0 (GA)

Azure Analiza dokumentów w narzędziach Foundry Tools obsługuje różne modele, których można użyć do dodawania inteligentnego przetwarzania dokumentów do aplikacji i przepływów. Możesz użyć wstępnie utworzonego modelu specyficznego dla domeny lub wytrenować niestandardowy model dostosowany do określonych potrzeb biznesowych i przypadków użycia. Analizy dokumentów można używać z interfejsem API REST lub bibliotekami klienta Python, C#, Java i JavaScript.

Uwaga

Projekty przetwarzania dokumentów obejmujące dane finansowe, chronione dane zdrowotne, dane osobowe lub wysoce poufne dane wymagają starannej uwagi. Pamiętaj, aby spełnić wszystkie wymagania krajowe/regionalne i branżowe.

Omówienie modelu

W poniższej tabeli przedstawiono ogólnie dostępne modele dla każdego stabilnego interfejsu API.

Typ modelu Model 2024-11-30 (ogólna dostępność) 2023-07-31 (ogólna dostępność) 2022-08-31 (ogólna dostępność) Wersja 2.1 (ogólna dostępność)
Modele analizy dokumentów Odczytu ✔️ ✔️ ✔️ Niedostępne
Modele analizy dokumentów Układ ✔️ ✔️ ✔️ ✔️
Modele analizy dokumentów Dokument ogólny** Obsługiwane w
model układu
✔️ ✔️ Niedostępne
Wstępnie utworzone modele Czek bankowy ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Wyciąg bankowy ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele payStub ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Umowy ✔️ ✔️ Niedostępne Niedostępne
Wstępnie utworzone modele Karta ubezpieczenia zdrowotnego ✔️ ✔️ ✔️ Niedostępne
Wstępnie utworzone modele Dokument tożsamości ✔️ ✔️ ✔️ ✔️
Wstępnie utworzone modele Faktury ✔️ ✔️ ✔️ ✔️
Wstępnie utworzone modele Otrzymania ✔️ ✔️ ✔️ ✔️
Wstępnie utworzone modele Ujednolicony podatek w USA* ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Formularz podatkowy 1040 (USA)* ✔️ ✔️ Niedostępne Niedostępne
Wstępnie utworzone modele Podatek od usa 1095* ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Formularz podatkowy 1098 z USA* ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Formularz podatku 1099 w USA* ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Podatek w USA W2 ✔️ ✔️ ✔️ Niedostępne
Wstępnie utworzone modele Podatek w USA W4 ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Amerykański kredyt hipoteczny 1003 URLA ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Amerykański kredyt hipoteczny 1004 URAR ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Kredyt hipoteczny USA 1005 ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Podsumowanie hipoteki USA 1008 ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Ujawnienie zamknięcia kredytów hipotecznych w USA ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Akt małżeństwa ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Karta kredytowa ✔️ Niedostępne Niedostępne Niedostępne
Wstępnie utworzone modele Wizytówka przestarzały ✔️ ✔️ ✔️
Niestandardowy model klasyfikacji Klasyfikator niestandardowy ✔️ ✔️ Niedostępne Niedostępne
Niestandardowy model wyodrębniania Niestandardowa sieć neuronowa ✔️ ✔️ ✔️ Niedostępne
Niestandardowy model wyodrębniania Szablon niestandardowy ✔️ ✔️ ✔️ ✔️
Niestandardowy model wyodrębniania Niestandardowo komponowane ✔️ ✔️ ✔️ ✔️
Wszystkie modele Możliwości dodatków ✔️ ✔️ Niedostępne Niedostępne

* Zawiera podmodele. Zobacz informacje specyficzne dla modelu, dotyczące obsługiwanych wariantów i podtypów.
** Wszystkie możliwości ogólnego modelu dokumentów są dostępne w modelu układu. Model ogólny nie jest już obsługiwany.

Opóźnienie

Opóźnienie to czas potrzebny na obsługę i przetwarzanie żądania przychodzącego przez serwer interfejsu API oraz dostarczanie odpowiedzi wychodzącej do klienta. Czas analizowania dokumentu zależy od rozmiaru (na przykład liczby stron) i skojarzonej zawartości na każdej stronie. Analiza dokumentów to wielodostępna usługa asynchroniczna, w której opóźnienie podobnych dokumentów jest porównywalne, ale nie zawsze identyczne. Czasami zmienność opóźnienia i wydajności jest nieodłącznym elementem każdej bezstanowej usługi opartej na mikrousługach, która przetwarza obrazy i duże dokumenty na dużą skalę. Mimo że stale skalujemy sprzęt i pojemność i możliwości skalowania w górę, nadal mogą występować problemy z opóźnieniami w czasie wykonywania.

Możliwość rozszerzeń

Następujące funkcje dodatku są dostępne dla analizy dokumentów. W przypadku wszystkich modeli, z wyjątkiem modelu wizytówek, Document Intelligence obsługuje teraz dodatkowe funkcje, które umożliwiają bardziej zaawansowaną analizę. Możesz włączyć i wyłączyć te opcjonalne funkcje w zależności od scenariusza wyodrębniania dokumentów. Dostępne są następujące dodatkowe funkcje dla wersji API od 2023-07-31 (GA) i nowszych.

Możliwość rozszerzeń Dodatek/bezpłatny 2024-11-30 (ogólna dostępność) 2023-07-31 (ogólna dostępność) 2022-08-31 (ogólna dostępność) Wersja 2.1 (ogólna dostępność)
Wyodrębnianie właściwości czcionki Dodatek ✔️ ✔️ Niedostępne Niedostępne
Wyodrębnianie formuł Dodatek ✔️ ✔️ Niedostępne Niedostępne
Wyodrębnianie o wysokiej rozdzielczości Dodatek ✔️ ✔️ Niedostępne Niedostępne
Wyodrębnianie kodów kreskowych Bezpłatna ✔️ ✔️ Niedostępne Niedostępne
Wykrywanie języka Bezpłatna ✔️ ✔️ Niedostępne Niedostępne
Pary klucz/wartość Bezpłatna ✔️ Niedostępne Niedostępne Niedostępne
Pola zapytania Dodatek* ✔️ Niedostępne Niedostępne Niedostępne
Plik PDF z możliwością wyszukiwania Dodatek* ✔️ Niedostępne Niedostępne Niedostępne

Funkcje analizy modelu

Identyfikator modelu Wyodrębnianie zawartości Pola zapytania Ustępy Role akapitu Znaczniki zaznaczenia Tabele Pary klucz/wartość Języki Kody kreskowe Analiza dokumentów Formuły* Styl czcionki* Wysoka rozdzielczość* Plik PDF z możliwością wyszukiwania
prebuilt-read O O O O O O
prebuilt-layout O O O O O O
prebuilt-contract O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.w4 O O O O O
prebuilt-tax.us.1040 (różne) O O O O O
prebuilt-tax.us.1095A O O O O O
prebuilt-tax.us.1095C O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099 (różne) O O O O O
prebuilt-tax.us.1099SSA O O O O O
{ customModelName } O O O O O

√ - Włączone
O - Opcjonalne
* - Funkcje w warstwie Premium generują dodatkowe koszty

Ceny pól zapytań różnią się od innych funkcji dodatku. Aby uzyskać więcej informacji, zobacz Cennik.

Ramka ograniczająca i współrzędne wielokąta

Pole ograniczenia (polygon w wersji 3.0 lub nowszej) to abstrakcyjny prostokąt, który otacza elementy tekstowe w dokumencie. Pole ograniczenia jest używane jako punkt odniesienia do wykrywania obiektów:

  • Ramka ograniczająca wyznacza położenie za pomocą układu współrzędnych x i y, przedstawionego w tablicy czterech par liczbowych. Każda para reprezentuje róg pudełka w następującej kolejności: lewy górny, prawy górny, prawy dolny, lewy dolny.
  • Współrzędne obrazu są prezentowane w pikselach. W przypadku pliku PDF współrzędne są prezentowane w calach.

Obsługa języków

Uniwersalne modele w usłudze Document Intelligence oparte na uczeniu głębokim obsługują wiele języków. Modele mogą wyodrębniać wielojęzyczny tekst z obrazów i dokumentów, w tym wiersze tekstu z językami mieszanymi. Obsługa języka różni się w zależności od funkcjonalności usługi Analizy dokumentów. Aby uzyskać pełną listę, zobacz następujące artykuły:

Dostępność regionalna

Inteligencja dokumentów jest ogólnie dostępna w wielu z ponad 60 globalnych regionów infrastruktury Azure.

Aby ułatwić wybór regionu, który jest najlepszy dla Ciebie i Twoich klientów, zobacz Azure lokalizacje geograficzne.

Szczegóły modelu

W tej sekcji opisano dane wyjściowe, których można oczekiwać od każdego modelu. Możesz rozszerzyć dane wyjściowe większości modeli za pomocą funkcji dodatków.

Odczyt OCR

Interfejs API odczytu używa optycznego rozpoznawania znaków (OCR) do analizowania i wyodrębniania wierszy i wyrazów, ich lokalizacji, wykrytych języków i stylu pisma ręcznego, jeśli zostanie wykryty.

Ten przykładowy dokument został przetworzony przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładowy dokument przetworzony przy użyciu narzędzia Document Intelligence Studio Read.

Analiza układu

Model analizy układu analizuje i wyodrębnia tekst, tabele, znaczniki zaznaczenia i inne elementy struktury, takie jak tytuły, nagłówki sekcji, nagłówki stron i stopki stron.

Ten przykładowy dokument został przetworzony przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładową stronę gazety przetworzoną przy użyciu programu Document Intelligence Studio.

Karta ubezpieczenia zdrowotnego

Model kart ubezpieczenia zdrowotnego łączy zaawansowane możliwości OCR z modelami uczenia głębokiego w celu analizowania i wyodrębniania kluczowych informacji z kart ubezpieczenia zdrowotnego USA.

Ta przykładowa karta ubezpieczenia zdrowotnego USA została przetworzona przy użyciu usługi Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładową analizę karty ubezpieczenia zdrowotnego USA w usłudze Document Intelligence Studio.

Amerykańskie dokumenty podatkowe

Modele dokumentów podatkowych w USA analizują i wyodrębniają kluczowe pola i elementy wierszy z wybranej grupy dokumentów podatkowych. Interfejs API obsługuje analizę dokumentów podatkowych w języku angielskim USA różnych formatów i jakości, w tym obrazów przechwyconych przez telefon, zeskanowanych dokumentów i cyfrowych plików PDF. Obecnie obsługiwane są następujące modele:

Model Opis Identyfikator modelu
Podatek amerykański W-2 Wyodrębnij szczegóły odszkodowania podlegającego opodatkowaniu. prebuilt-tax.us.w2
Podatek amerykański W-4 Wyodrębnij szczegóły odszkodowania podlegającego opodatkowaniu. prebuilt-tax.us.w4
Podatek amerykański 1040 Wyodrębnij szczegóły odsetek hipotecznych. prebuilt-tax.us.1040 (odmiany)
Podatek amerykański 1095 Wyodrębnij szczegóły ubezpieczenia zdrowotnego. prebuilt-tax.us.1095 (odmiany)
Podatek amerykański 1098 Wyciągnij szczegóły dotyczące odsetek od kredytu hipotecznego. prebuilt-tax.us.1098 (odmiany)
Podatek amerykański 1099 Wyodrębnij dochód uzyskany ze źródeł innych niż pracodawca. prebuilt-tax.us.1099 (odmiany)

Ten przykładowy dokument W-2 został przetworzony przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładowy dokument W-2.

Amerykańskie dokumenty hipoteczne

Amerykańskie modele dokumentów hipotecznych analizują i wyodrębniają kluczowe pola, które obejmują kredytobiorcę, pożyczkę i informacje o nieruchomościach z wybranej grupy dokumentów hipotecznych. Interfejs API obsługuje analizę dokumentów hipotecznych w języku angielskim USA różnych formatów i jakości, w tym obrazów przechwyconych przez telefon, zeskanowanych dokumentów i cyfrowych plików PDF. Następujące modele są obecnie obsługiwane.

Model Opis Identyfikator modelu
1003 Umowa Licencyjna Użytkownika Końcowego Wyodrębnij pożyczkę, kredytobiorcę, szczegóły nieruchomości. prebuilt-mortgage.us.1003
1004 Jednolity raport oceny mieszkaniowej (URAR) Wyodrębnij pożyczkę, kredytobiorcę, szczegóły nieruchomości. prebuilt-mortgage.us.1004
1005 Weryfikacja zatrudnienia Wyodrębnij pożyczkę, kredytobiorcę, szczegóły nieruchomości. prebuilt-mortgage.us.1005
Dokument podsumowujący 1008 Wyodrębnij kredytobiorcę, sprzedawcę, nieruchomość, kredyt hipoteczny i szczegóły ubezpieczania. prebuilt-mortgage.us.1008
Informacje zamknięcia Wyodrębnij szczegóły zamknięcia, koszty transakcji i pożyczki. prebuilt-mortgage.us.closingDisclosure

Ten przykładowy dokument o ujawnieniu zamknięcia został przetworzony przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładowe ujawnienie zamknięcia transakcji.

Umowy

Model kontraktu analizuje i wyodrębnia kluczowe pola i pozycje wierszowe z umów, w tym strony, jurysdykcje, identyfikator umowy i tytuł. Model obsługuje obecnie dokumenty kontraktowe w języku angielskim.

Ten przykładowy kontrakt został przetworzony przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający wyodrębnianie modelu kontraktu przy użyciu programu Document Intelligence Studio.

Czek bankowy w USA

Model kontraktu analizuje i wyodrębnia kluczowe pola z czeków bankowych w USA, w tym szczegóły czeku, szczegóły konta, kwotę i notatkę.

Ten przykład czeku bankowego został przetworzony przy użyciu Document Intelligence Studio.

Zrzut ekranu przedstawiający wyodrębnianie modelu czeku bankowego przy użyciu narzędzia Document Intelligence Studio.

Amerykański rachunek bankowy

Model zestawienia bankowego analizuje i wyodrębnia kluczowe pola i pozycje wierszy z numeru konta bankowego USA, szczegółów banku, szczegółów zestawienia i szczegółów transakcji.

Ta przykładowa instrukcja bankowa została przetworzona przy użyciu usługi Document Intelligence Studio.

Zrzut ekranu przedstawiający wyodrębnianie modelu dokumentacji bankowej przy użyciu narzędzia Document Intelligence Studio.

payStub

Model payStub analizuje i wyodrębnia kluczowe pola i elementy wiersza z dokumentów i plików z informacjami dotyczącymi listy płac.

Ten przykładowy wycink płatności został przetworzony przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający wyodrębnianie modelu payStub przy użyciu programu Document Intelligence Studio.

Faktury

Model faktur automatyzuje przetwarzanie faktur w celu wyodrębnienia nazwy klienta, adresu rozliczeniowego, daty ukończenia, kwoty należnej, elementów wiersza i innych kluczowych danych.

Ta przykładowa faktura została przetworzona przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładową fakturę.

Otrzymania

Użyj modelu paragonu, aby zeskanować paragony sprzedaży dla nazwy sprzedawcy, dat, pozycji wiersza, ilości i sum z paragonów drukowanych i odręcznych. Wersja 3.0 obsługuje również przetwarzanie paragonów hotelowych jednostronicowych.

To przykładowe potwierdzenie zostało przetworzone przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładowe potwierdzenie.

Dokument tożsamości

Użyj modelu dokumentu tożsamości (ID), aby przetworzyć licencje kierowców USA (wszystkie 50 stanów i dystryktu Kolumbii) oraz strony biograficzne z międzynarodowych paszportów (z wyłączeniem wiz i innych dokumentów podróży), aby wyodrębnić kluczowe pola.

Ta przykładowa licencja kierowcy USA została przetworzona przy użyciu usługi Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładową kartę identyfikacji.

Akt małżeństwa

Użyj modelu certyfikatu małżeństwa do przetwarzania amerykańskich certyfikatów małżeńskich w celu wyodrębnienia kluczowych pól, takich jak imiona osób, data i lokalizacja.

Ten przykładowy akt małżeństwa USA został przetworzony przy użyciu usługi Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładowy akt małżeństwa.

Karta kredytowa

Użyj modelu karty kredytowej, aby przetworzyć karty kredytowe i debetowe w celu wyodrębnienia kluczowych pól.

Ta przykładowa karta kredytowa została przetworzona przy użyciu usługi Document Intelligence Studio.

Zrzut ekranu przedstawiający przykładową kartę kredytową.

Modele niestandardowe

Modele niestandardowe są szeroko klasyfikowane na dwa typy. Niestandardowe modele klasyfikacji, które obsługują klasyfikację "typu dokumentu" i niestandardowe modele wyodrębniania, które mogą wyodrębniać zdefiniowany schemat z określonego typu dokumentu.

Diagram przedstawiający typy modeli niestandardowych i skojarzone tryby kompilacji modelu.

Niestandardowe modele dokumentów analizują i wyodrębniają dane z formularzy i dokumentów specyficznych dla Twojej firmy. Rozpoznają pola formularza w obrębie swojej odrębnej zawartości i ekstrahują pary klucz-wartość oraz dane tabeli. Aby rozpocząć pracę, potrzebujesz tylko jednego przykładu typu formularza.

Modele niestandardowe w wersji 3.0 lub nowszej obsługują wykrywanie podpisów w niestandardowym szablonie (formularzu) i tabelach międzystronicowych zarówno w modelach szablonów, jak i neuronowych. Wykrywanie podpisu wyszukuje obecność podpisu, a nie tożsamość osoby, która podpisuje dokument. Jeśli model zwraca niepodpisane do wykrywania podpisów, model nie znalazł podpisu w zdefiniowanym polu.

Ten przykładowy szablon niestandardowy został przetworzony przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający analizę dokumentów analizującą formularz niestandardowy.

Wyodrębnianie niestandardowe

Niestandardowy model wyodrębniania występuje w dwóch wariantach: szablonowym i neuronowym. Aby utworzyć niestandardowy model wyodrębniania, oznacz zestaw danych dokumentów wartościami, które chcesz wyodrębnić i wytrenować model w oznaczonym zestawie danych. Aby rozpocząć pracę, potrzebujesz tylko pięciu przykładów tego samego formularza lub typu dokumentu.

To przykładowe wyodrębnianie niestandardowe zostało przetworzone przy użyciu programu Document Intelligence Studio.

Zrzut ekranu przedstawiający analizę niestandardowego modelu ekstrakcji w programie Document Intelligence Studio.

Klasyfikator niestandardowy

Za pomocą niestandardowego modelu klasyfikacji można zidentyfikować typ dokumentu przed wywołaniem modelu wyodrębniania. Model klasyfikacji jest dostępny od wersji API z dnia 2023-07-31 (GA). Trenowanie niestandardowego modelu klasyfikacji wymaga co najmniej dwóch odrębnych klas i co najmniej pięciu próbek na klasę.

Modele złożone

Utworzony model jest tworzony przez pobranie kolekcji modeli niestandardowych i przypisanie ich do pojedynczego modelu utworzonego na podstawie typów formularzy. Można przypisać wiele modeli niestandardowych do złożonego modelu, który jest wywoływany przy użyciu jednego identyfikatora modelu. Do pojedynczego modelu złożonego można przypisać maksymalnie 200 wytrenowanych modeli niestandardowych.

Ten przykładowy złożony model znajduje się w programie Document Intelligence Studio.

Zrzut ekranu przedstawiający okienko modelu niestandardowego narzędzia Document Intelligence Studio Compose.

Wymagania dotyczące danych wejściowych

Obsługiwane są następujące formaty plików.

Model PDF Obraz:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Odczytu
Układ
Dokument ogólny
Wstępnie zbudowany
Wyodrębnianie niestandardowe
Klasyfikacja niestandardowa
  • Zdjęcia i skanowania: Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
  • Pliki PDF i pliki TIFF: w przypadku plików PDF i plików TIFF można przetworzyć maksymalnie 2000 stron. (W przypadku subskrypcji w warstwie Bezpłatna przetwarzane są tylko dwie pierwsze strony).
  • Rozmiar pliku: rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB dla warstwy bezpłatnej (F0).
  • Wymiary obrazu: Wymiary muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
  • Blokady haseł: jeśli pliki PDF są zablokowane hasłem, należy usunąć blokadę przed przesłaniem.
  • Wysokość tekstu: minimalna wysokość tekstu do wyodrębnienia wynosi 12 pikseli dla obrazu 1024 x 768 pikseli. Ten wymiar odpowiada około 8-punktowemu tekstowi na 150 kropek na cal.
  • Trenowanie modelu niestandardowego: maksymalna liczba stron dla danych szkoleniowych to 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
  • Trenowanie niestandardowego modelu wyodrębniania: całkowity rozmiar danych treningowych wynosi 50 MB dla modelu szablonowego i 1 GB dla modelu neuronowego.
  • Trenowanie niestandardowego modelu klasyfikacyjnego: całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-11-30 (GA) całkowity rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.
  • Typy plików pakietu Office (DOCX, XLSX, PPTX): Maksymalny limit długości ciągu wynosi 8 milionów znaków.

Uwaga

Narzędzie Do etykietowania przykładowego nie obsługuje formatu pliku BMP. Ograniczenie pochodzi od narzędzia, a nie usługi analizy dokumentów.

Migracja wersji

Dowiedz się, jak używać analizy dokumentów w wersji 3.0 w aplikacjach, wykonując kroki opisane w przewodniku migracji analizy dokumentów w wersji 3.1.

Model Opis
Analiza dokumentów
Układ Wyodrębnij informacje o tekście i układzie z dokumentów.
Wstępnie zbudowany
Faktury Wyodrębnij kluczowe informacje z faktur w języku angielskim i hiszpańskim.
Otrzymania Wyodrębnij kluczowe informacje z paragonów w języku angielskim.
Dokument tożsamości Wyodrębnij kluczowe informacje z amerykańskich licencji kierowców i międzynarodowych paszportów.
Wizytówka Wyodrębnij kluczowe informacje z wizytówek w języku angielskim.
Dostosowane
Niestandardowe Wyodrębnianie danych z formularzy i dokumentów specyficznych dla Twojej firmy. Modele niestandardowe są trenowane dla unikatowych danych i przypadków użycia.
Złożony z Utwórz kolekcję modeli niestandardowych i przypisz je do pojedynczego modelu utworzonego na podstawie typów formularzy.

Układ

Interfejs API układu analizuje i wyodrębnia tekst, tabele i nagłówki, znaczniki wyboru i informacje o strukturze z dokumentów.

Ten przykładowy dokument został przetworzony przy użyciu narzędzia Do etykietowania przykładowego.

Zrzut ekranu przedstawiający analizę układu z użyciem narzędzia do etykietowania próbek.

Faktury

Model faktur analizuje i wyodrębnia kluczowe informacje z faktur sprzedaży. Interfejs API analizuje faktury w różnych formatach i wyodrębnia kluczowe informacje, takie jak nazwa klienta, adres rozliczeniowy, data ukończenia i kwota należności.

Ta przykładowa faktura została przetworzona przy użyciu narzędzia Do etykietowania przykładowego.

Zrzut ekranu przedstawiający przykładową analizę faktury przy użyciu narzędzia do etykietowania przykładowego.

Otrzymania

Model paragonu analizuje i wyodrębnia kluczowe informacje z drukowanych i odręcznych paragonów sprzedaży.

To przykładowe potwierdzenie zostało przetworzone przy użyciu narzędzia do etykietowania próbek.

Zrzut ekranu przedstawiający przykładowe potwierdzenie.

Dokument tożsamości

Model dokumentu identyfikatora analizuje i wyodrębnia kluczowe informacje z następujących dokumentów:

  • Licencje kierowców USA (wszystkie 50 stanów i Dystrykt Kolumbii)
  • Strony biograficzne z międzynarodowych paszportów (z wyłączeniem wiz i innych dokumentów podróży). Interfejs API analizuje i wyodrębnia dokumenty tożsamości.

Ta przykładowa licencja kierowcy USA została przetworzona przy użyciu narzędzia do etykietowania przykładowego.

Zrzut ekranu przedstawiający przykładową kartę identyfikacji.

Wizytówka

Model wizytówek analizuje i wyodrębnia kluczowe informacje z obrazów wizytówek.

Ta przykładowa wizytówka została przetworzona przy użyciu narzędzia do etykietowania próbek.

Zrzut ekranu przedstawiający przykładową wizytówkę.

Dostosowane

Modele niestandardowe analizują i wyodrębniają dane z formularzy i dokumentów specyficznych dla Twojej firmy. Interfejs API to program uczenia maszynowego wyszkolony do rozpoznawania pól formularzy w ramach Twojej unikalnej zawartości oraz wyodrębniania par klucz/wartość i danych tabelarycznych. Aby rozpocząć pracę, potrzebujesz tylko pięciu przykładów tego samego typu formularza. Możesz wytrenować model niestandardowy przy użyciu zestawów danych oznaczonych etykietami lub bez tych zestawów danych.

Ten przykładowy model niestandardowy został przetworzony przy użyciu narzędzia Do etykietowania przykładowego.

Zrzut ekranu przedstawiający narzędzie do analizy dokumentów analizujące niestandardowe okienko formularza.

Skomponowany model niestandardowy

Utworzony model jest tworzony przez pobranie kolekcji modeli niestandardowych i przypisanie ich do pojedynczego modelu utworzonego na podstawie typów formularzy. Można przypisać wiele modeli niestandardowych do złożonego modelu, który jest wywoływany przy użyciu jednego identyfikatora modelu. Do pojedynczego modelu złożonego można przypisać maksymalnie 100 wytrenowanych modeli niestandardowych.

Skomponowane okienko modelu przetworzono przy użyciu Sample Labeling tool.

Zrzut ekranu przedstawiający okienko modelu niestandardowego narzędzia Document Intelligence Studio Compose.

Wyodrębnianie danych modelu

Model Wyodrębnianie tekstu Wykrywanie języka Znaczniki zaznaczenia Tabele Ustępy Role akapitu Pary klucz/wartość Pola
Układ
Faktury
Otrzymania
Identyfikator dokumentu
Wizytówka
Formularz niestandardowy

Wymagania dotyczące danych wejściowych

Obsługiwane są następujące formaty plików.

Model PDF Obraz:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Odczytu
Układ
Dokument ogólny
Wstępnie zbudowany
Wyodrębnianie niestandardowe
Klasyfikacja niestandardowa
  • Zdjęcia i skanowania: Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
  • Pliki PDF i pliki TIFF: w przypadku plików PDF i plików TIFF można przetworzyć maksymalnie 2000 stron. (W przypadku subskrypcji w warstwie Bezpłatna przetwarzane są tylko dwie pierwsze strony).
  • Rozmiar pliku: rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB dla warstwy bezpłatnej (F0).
  • Wymiary obrazu: Wymiary muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
  • Blokady haseł: jeśli pliki PDF są zablokowane hasłem, należy usunąć blokadę przed przesłaniem.
  • Wysokość tekstu: minimalna wysokość tekstu do wyodrębnienia wynosi 12 pikseli dla obrazu 1024 x 768 pikseli. Ten wymiar odpowiada około 8-punktowemu tekstowi na 150 kropek na cal.
  • Trenowanie modelu niestandardowego: maksymalna liczba stron dla danych szkoleniowych to 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
  • Trenowanie niestandardowego modelu wyodrębniania: całkowity rozmiar danych treningowych wynosi 50 MB dla modelu szablonowego i 1 GB dla modelu neuronowego.
  • Trenowanie niestandardowego modelu klasyfikacyjnego: całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-11-30 (GA) całkowity rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.
  • Typy plików pakietu Office (DOCX, XLSX, PPTX): Maksymalny limit długości ciągu wynosi 8 milionów znaków.

Uwaga

Narzędzie Do etykietowania przykładowego nie obsługuje formatu pliku BMP. Ograniczenie pochodzi od narzędzia, a nie analizy dokumentów.

Migracja wersji

Aby dowiedzieć się, jak używać analizy dokumentów w wersji 3.0 w aplikacjach, wykonaj kroki opisane w przewodniku migracji analizy dokumentów w wersji 3.1

  • Przetwarzaj własne formularze i dokumenty za pomocą narzędzia etykietowania próbek Document Intelligence.
  • Ukończ Document Intelligence Quickstart, a następnie stwórz aplikację do przetwarzania dokumentów w wybranym języku programowania.