Udostępnij za pośrednictwem


Modele przetwarzania dokumentów

Ważne

  • Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
  • Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview.
  • Publiczna wersja zapoznawcza 2024-07-31-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure. Należy pamiętać, że niestandardowy model generowania (wyodrębniania pól dokumentów) w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:
    • Wschodnie stany USA
    • Zachodnie stany USA 2
    • Europa Zachodnia
    • Północno-środkowe stany USA

Ta zawartość dotyczy:Znacznik v4.0 (wersja zapoznawcza) | Poprzednie wersje: niebieski znacznik wyboru v3.1 (GA) v3.0 (GA) niebieski znacznik wyboru v2.1 (GA) niebieski znacznik wyboru

Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja:Znacznik purpurowy znacznik wyboru v4.0 (wersja zapoznawcza) | | Poprzednie wersje: niebieski znacznik wyboru v3.0niebieski znacznik wyboru v2.1

Ta zawartość dotyczy: Znacznik wersja 3.0 (GA) | Najnowsze wersje: purpurowy znacznik wyboru wersja 4.0 (wersja zapoznawcza) purpurowy znacznik wyboru 3.1 | Poprzednia wersja: niebieski znacznik wyboru wersja 2.1

Ta zawartość dotyczy: Znacznik wersja 2.1 | Najnowsza wersja: niebieski znacznik wyboru wersja 4.0 (wersja zapoznawcza)

Usługa Azure AI Document Intelligence obsługuje szeroką gamę modeli, które umożliwiają dodawanie inteligentnego przetwarzania dokumentów do aplikacji i przepływów. Możesz użyć wstępnie utworzonego modelu specyficznego dla domeny lub wytrenować model niestandardowy dostosowany do konkretnych potrzeb biznesowych i przypadków użycia. Analiza dokumentów może być używana z interfejsem API REST lub bibliotekami klienta języka Python, C#, Java i JavaScript.

Uwaga

  • Projekty przetwarzania dokumentów obejmujące dane finansowe, chronione dane zdrowotne, dane osobowe lub wysoce poufne dane wymagają starannej uwagi.
  • Pamiętaj, aby spełnić wszystkie wymagania krajowe/regionalne i branżowe.

Omówienie modelu

W poniższej tabeli przedstawiono dostępne modele dla każdej bieżącej wersji zapoznawczej i stabilnego interfejsu API:

Typ modelu Model 2024-02-29-preview
2023-10-31-preview
2023-07-31 (ogólna dostępność) 2022-08-31 (ogólna dostępność) Wersja 2.1 (ogólna dostępność)
Modele analizy dokumentów Przeczytaj ✔️ ✔️ ✔️ nie dotyczy
Modele analizy dokumentów Układ ✔️ ✔️ ✔️ ✔️
Modele analizy dokumentów Dokument ogólny przeniesiony do układu** ✔️ ✔️ nie dotyczy
Wstępnie utworzone modele Czek bankowy ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Wyciąg bankowy ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Paystub ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Kontrakt ✔️ ✔️ nie dotyczy nie dotyczy
Wstępnie utworzone modele Karta ubezpieczenia zdrowotnego ✔️ ✔️ ✔️ nie dotyczy
Wstępnie utworzone modele Dokument tożsamości ✔️ ✔️ ✔️ ✔️
Wstępnie utworzone modele Faktura ✔️ ✔️ ✔️ ✔️
Wstępnie utworzone modele Paragon ✔️ ✔️ ✔️ ✔️
Wstępnie utworzone modele US Unified Tax* ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Podatek 1040 USA* ✔️ ✔️ nie dotyczy nie dotyczy
Wstępnie utworzone modele Podatek od USA 1098* ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Podatek od USA 1099* ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Podatek w USA W2 ✔️ ✔️ ✔️ nie dotyczy
Wstępnie utworzone modele US Mortgage 1003 URLA ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele AMERYKAŃSKI kredyt hipoteczny 1004 URAR ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Kredyt hipoteczny USA 1005 ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Podsumowanie kredytu hipotecznego USA 1008 ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Ujawnienie zamknięcia kredytów hipotecznych w USA ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Akt małżeństwa ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Karta kredytowa ✔️ nie dotyczy nie dotyczy nie dotyczy
Wstępnie utworzone modele Wizytówka deprecated ✔️ ✔️ ✔️
Niestandardowy model klasyfikacji Klasyfikator niestandardowy ✔️ ✔️ nie dotyczy nie dotyczy
Niestandardowy model generowania Niestandardowy model generowania ✔️ nie dotyczy nie dotyczy nie dotyczy
Niestandardowy model wyodrębniania Niestandardowe neuronowe ✔️ ✔️ ✔️ nie dotyczy
Model customextraction Szablon niestandardowy ✔️ ✔️ ✔️ ✔️
Niestandardowy model wyodrębniania Komponowane niestandardowe ✔️ ✔️ ✔️ ✔️
Wszystkie modele Możliwości dodatków ✔️ ✔️ nie dotyczy nie dotyczy

* — zawiera modele podrzędne. Zobacz informacje specyficzne dla modelu dotyczące obsługiwanych odmian i podtypów.

Opóźnienie

Opóźnienie to czas potrzebny na obsługę i przetwarzanie żądania przychodzącego przez serwer interfejsu API oraz dostarczanie odpowiedzi wychodzącej do klienta. Czas analizowania dokumentu zależy od rozmiaru (na przykład liczby stron) i skojarzonej zawartości na każdej stronie. Analiza dokumentów to wielodostępna usługa, w której opóźnienie podobnych dokumentów jest porównywalne, ale nie zawsze identyczne. Od czasu do czasu zmienność opóźnienia i wydajności jest nieodłączną każdą mikrousługą, bezstanową, asynchroniczną usługą, która przetwarza obrazy i duże dokumenty na dużą skalę. Mimo że stale skalujemy sprzęt i pojemność i możliwości skalowania w górę, nadal mogą występować problemy z opóźnieniami w czasie wykonywania.

Możliwość dodawania Dodatek/wersja bezpłatna 2024-02-29-preview
Punktor [2023-10-31-preview](/rest/api/aiservices/operation-groups?view=rest-aiservices-v4.0%20(2024-07-31-preview)&preserve-view=true
2023-07-31 (ogólna dostępność) 2022-08-31 (ogólna dostępność) Wersja 2.1 (ogólna dostępność)
Wyodrębnianie właściwości czcionki Dodatek ✔️ ✔️ nie dotyczy nie dotyczy
Wyodrębnianie formuł Dodatek ✔️ ✔️ nie dotyczy nie dotyczy
Wyodrębnianie o wysokiej rozdzielczości Dodatek ✔️ ✔️ nie dotyczy nie dotyczy
Wyodrębnianie kodów kreskowych Bezpłatna ✔️ ✔️ nie dotyczy nie dotyczy
Wykrywanie języka Bezpłatna ✔️ ✔️ nie dotyczy nie dotyczy
Pary klucz-wartość Bezpłatna ✔️ nie dotyczy nie dotyczy nie dotyczy
Pola zapytania Dodatek* ✔️ nie dotyczy nie dotyczy nie dotyczy
Plik PDF z możliwością wyszukiwania Dodatek* ✔️ nie dotyczy nie dotyczy nie dotyczy

Funkcje analizy modelu

Model ID Wyodrębnianie zawartości Pola zapytania Ustępów Role akapitu Znaczniki zaznaczenia Tabele Pary klucz-wartość Języki Kody kreskowe Analiza dokumentów Formuły* Czcionka stylu* Wysoka rozdzielczość* Plik PDF z możliwością wyszukiwania
odczyt wstępnie utworzony O O O O O
wstępnie utworzony układ O O O O O
wstępnie utworzony dokument O O O O O
wstępnie utworzona karta biznesowa
wstępnie utworzony kontrakt O O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
wstępnie utworzona faktura O O O O O O
wstępnie utworzone potwierdzenie O O O O O
prebuilt-marriageCertificate.us O O O O O
wstępnie utworzona karta kredytowa O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099(odmiany) O O O O O
prebuilt-tax.us.1040(odmiany) O O O O O
{ customModelName } O O O O O

√ - Włączone
O - Opcjonalne
* - Funkcje w warstwie Premium generują dodatkowe koszty

Dodatek* — pola zapytania są wyceniane inaczej niż inne funkcje dodatku. Aby uzyskać szczegółowe informacje, zobacz cennik .

Pola ograniczenia i współrzędne wielokątne

Pole ograniczenia (polygon w wersji 3.0 i nowszych) to abstrakcyjny prostokąt, który otacza elementy tekstowe w dokumencie używanym jako punkt odniesienia do wykrywania obiektów.

  • Pole ograniczenia określa położenie przy użyciu płaszczyzny współrzędnych x i y przedstawionej w tablicy czterech par liczbowych. Każda para reprezentuje róg pola w następującej kolejności: lewy górny, prawy górny, prawy dolny, dolny lewy.

  • Współrzędne obrazu są prezentowane w pikselach. W przypadku pliku PDF współrzędne są prezentowane w calach.

W przypadku wszystkich modeli, z wyjątkiem modelu wizytówek, analiza dokumentów obsługuje teraz funkcje dodatków, aby umożliwić bardziej zaawansowaną analizę. Te opcjonalne możliwości można włączyć i wyłączyć w zależności od scenariusza wyodrębniania dokumentów. Dostępnych jest siedem funkcji dodatku dla wersji interfejsu API (GA) i nowszej wersji interfejsu 2023-07-31 API:

Obsługa języków

Uniwersalne modele oparte na uczeniu głębokim w usłudze Document Intelligence obsługują wiele języków, które mogą wyodrębniać wielojęzyczny tekst z obrazów i dokumentów, w tym wiersze tekstu w językach mieszanych. Obsługa języka różni się w zależności od funkcjonalności usługi Analizy dokumentów. Aby uzyskać pełną listę, zobacz następujące artykuły:

Dostępność w regionach

Analiza dokumentów jest ogólnie dostępna w wielu 60+ regionach globalnej infrastruktury platformy Azure.

Aby uzyskać więcej informacji, zobacz stronę Geografie platformy Azure, aby pomóc wybrać region, który jest najlepszy dla Ciebie i Twoich klientów.

Szczegóły modelu

W tej sekcji opisano dane wyjściowe, których można oczekiwać od każdego modelu. Możesz rozszerzyć dane wyjściowe większości modeli za pomocą funkcji dodatków.

Odczytywanie metodą OCR

Interfejs API odczytu analizuje i wyodrębnia wiersze, wyrazy, ich lokalizacje, wykryte języki i styl odręczny, jeśli zostanie wykryty.

Przykładowy dokument przetworzony przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający zrzut ekranu przedstawiający przykładowy dokument przetwarzany przy użyciu narzędzia Document Intelligence Studio Read

Analiza układu

Model analizy układu analizuje i wyodrębnia tekst, tabele, znaczniki zaznaczenia i inne elementy struktury, takie jak tytuły, nagłówki sekcji, nagłówki stron, stopki stron i inne.

Przykładowy dokument przetworzony przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładową stronę gazety przetworzoną przy użyciu programu Document Intelligence Studio.

Karta ubezpieczenia zdrowotnego

Model karty ubezpieczenia zdrowotnego łączy zaawansowane funkcje optycznego rozpoznawania znaków (OCR) z modelami uczenia głębokiego w celu analizowania i wyodrębniania kluczowych informacji z amerykańskich kart ubezpieczenia zdrowotnego.

Przykładowa karta ubezpieczenia zdrowotnego USA przetworzona przy użyciu usługi Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładową analizę karty ubezpieczenia zdrowotnego USA w usłudze Document Intelligence Studio.

Amerykańskie dokumenty podatkowe

Modele dokumentów podatkowych w USA analizują i wyodrębniają kluczowe pola i elementy wierszy z wybranej grupy dokumentów podatkowych. Interfejs API obsługuje analizę dokumentów podatkowych w języku angielskim USA różnych formatów i jakości, w tym obrazów przechwyconych przez telefon, zeskanowanych dokumentów i cyfrowych plików PDF. Obecnie obsługiwane są następujące modele:

Model opis Identyfikator modelu
Amerykański podatek W-2 Wyodrębnij szczegóły odszkodowania podlegającego opodatkowaniu. prebuilt-tax.us.w2
Podatek amerykański 1040 Wyodrębnij szczegóły odsetek hipotecznych. prebuilt-tax.us.1040(odmiany)
Podatek amerykański 1098 Wyodrębnij szczegóły odsetek hipotecznych. prebuilt-tax.us.1098(odmiany)
Podatek amerykański 1099 Wyodrębnij dochód uzyskany ze źródeł innych niż pracodawca. prebuilt-tax.us.1099(odmiany)

Przykładowy dokument W-2 przetworzony przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładowy W-2.

Amerykańskie dokumenty hipoteczne

Amerykańskie modele dokumentów hipotecznych analizują i wyodrębniają kluczowe pola, w tym kredytobiorca, pożyczka i informacje o nieruchomościach z wybranej grupy dokumentów hipotecznych. Interfejs API obsługuje analizę dokumentów hipotecznych w języku angielskim USA różnych formatów i jakości, w tym obrazów przechwyconych przez telefon, zeskanowanych dokumentów i cyfrowych plików PDF. Obecnie obsługiwane są następujące modele:

Model opis Identyfikator modelu
1003 Umowa licencyjna użytkownika końcowego (EULA) Wyodrębnij pożyczkę, kredytobiorcę, szczegóły nieruchomości. prebuilt-mortgage.us.1003
Dokument podsumowujący 1008 Wyodrębnij kredytobiorcę, sprzedawcę, nieruchomość, kredyt hipoteczny i szczegóły ubezpieczania. prebuilt-mortgage.us.1008
Zamykanie ujawnienia Wyodrębnianie szczegółów zamknięcia, kosztów transakcji i pożyczki. prebuilt-mortgage.us.closingDisclosure
Akt małżeństwa Wyodrębnij szczegóły informacji o małżeństwie dla osób ubiegających się o wspólne pożyczki. wstępnie utworzone małżeństwoCertificate
Amerykański podatek W-2 Wyodrębnij szczegóły odszkodowania podlegającego opodatkowaniu na potrzeby weryfikacji dochodów. prebuilt-tax.us.w2

Przykładowy dokument ujawnienia zamknięcia przetwarzany przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładowe ujawnienie zamknięcia.

Kontrakt

Model kontraktu analizuje i wyodrębnia kluczowe pola i elementy wierszy z umów, w tym stron, jurysdykcji, identyfikatora umowy i tytułu. Model obsługuje obecnie dokumenty kontraktowe w języku angielskim.

Przykładowy kontrakt przetwarzany przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający wyodrębnianie modelu kontraktu przy użyciu programu Document Intelligence Studio.

Faktura

Model faktur automatyzuje przetwarzanie faktur w celu wyodrębnienia nazwy klienta, adresu rozliczeniowego, daty ukończenia i kwoty należnej, elementów wiersza i innych kluczowych danych. Obecnie model obsługuje faktury angielskie, hiszpańskie, niemieckie, francuskie, włoskie, portugalskie i holenderskie.

Przykładowa faktura przetworzona przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładową fakturę.

Przyjęcie

Użyj modelu paragonu, aby zeskanować paragony sprzedaży pod kątem nazwy sprzedawcy, dat, pozycji wiersza, ilości i sum z paragonów drukowanych i odręcznych. Wersja 3.0 obsługuje również przetwarzanie paragonów hotelowych jednostronicowych.

Przykładowe potwierdzenie przetworzone przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładowe potwierdzenie.

Dokument tożsamości (ID)

Użyj modelu Dokumentu tożsamości (ID), aby przetworzyć licencje kierowców USA (wszystkie 50 stanów i dystryktu Kolumbii) oraz strony biograficzne z międzynarodowych paszportów (z wyjątkiem wiz i innych dokumentów podróży), aby wyodrębnić kluczowe pola.

Przykładowa licencja kierowcy USA przetworzona przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładową kartę identyfikacji.

Akt małżeństwa

Użyj modelu certyfikatu małżeństwa, aby przetworzyć amerykańskie certyfikaty małżeńskie, aby wyodrębnić kluczowe pola, w tym osoby, datę i lokalizację.

Przykładowy certyfikat małżeństwa USA przetworzony przy użyciu usługi Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładowy akt małżeństwa.

Karta kredytowa

Użyj modelu karty kredytowej, aby przetworzyć karty kredytowe i debetowe w celu wyodrębnienia pól kluczy.

Przykładowa karta kredytowa przetworzona przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładową kartę kredytową.

Modele niestandardowe

Modele niestandardowe można ogólnie klasyfikować na dwa typy. Niestandardowe modele klasyfikacji, które obsługują klasyfikację "typu dokumentu" i niestandardowe modele wyodrębniania, które mogą wyodrębniać zdefiniowany schemat z określonego typu dokumentu.

Diagram typów modeli niestandardowych i skojarzonych trybów kompilacji modelu.

Niestandardowe modele dokumentów analizują i wyodrębniają dane z formularzy i dokumentów specyficznych dla Twojej firmy. Rozpoznają pola formularza w obrębie odrębnej zawartości i wyodrębniają pary klucz-wartość i dane tabeli. Aby rozpocząć pracę, potrzebujesz tylko jednego przykładu typu formularza.

Modele niestandardowe w wersji 3.0 lub nowszej obsługują wykrywanie podpisów w niestandardowym szablonie (formularzu) i tabelach międzystronicowych zarówno w modelach szablonów, jak i neuronowych. Wykrywanie podpisu wyszukuje obecność podpisu, a nie tożsamość osoby, która podpisuje dokument. Jeśli model zwraca niepodpisane do wykrywania podpisów, model nie znalazł podpisu w zdefiniowanym polu.

Przykładowy szablon niestandardowy przetworzony przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający okno analizy dokumentów analyze-a-custom-form.

Niestandardowe wyodrębnianie

Niestandardowy model wyodrębniania może być jednym z dwóch typów, szablonem niestandardowym lub niestandardowym neuronowym. Aby utworzyć niestandardowy model wyodrębniania, oznacz zestaw danych dokumentów wartościami, które chcesz wyodrębnić i wytrenować model w oznaczonym zestawie danych. Do rozpoczęcia pracy potrzebujesz tylko pięciu przykładów tego samego formularza lub typu dokumentu.

Przykładowe wyodrębnianie niestandardowe przetworzone przy użyciu programu Document Intelligence Studio:

Zrzut ekranu przedstawiający niestandardową analizę modelu wyodrębniania w narzędziu Document Intelligence Studio.

Klasyfikator niestandardowy

Niestandardowy model klasyfikacji umożliwia zidentyfikowanie typu dokumentu przed wywołaniem modelu wyodrębniania. Model klasyfikacji jest dostępny od interfejsu 2023-07-31 (GA) API. Trenowanie niestandardowego modelu klasyfikacji wymaga co najmniej dwóch odrębnych klas i co najmniej pięciu próbek na klasę.

Modele złożone

Utworzony model jest tworzony przez pobranie kolekcji modeli niestandardowych i przypisanie ich do pojedynczego modelu utworzonego na podstawie typów formularzy. Można przypisać wiele modeli niestandardowych do złożonego modelu o nazwie z jednym identyfikatorem modelu. Do pojedynczego modelu złożonego można przypisać maksymalnie 200 wytrenowanych modeli niestandardowych.

Okno dialogowe złożonego modelu w programie Document Intelligence Studio:

Zrzut ekranu przedstawiający okno dialogowe tworzenia modelu niestandardowego w programie Document Intelligence Studio.

Wymagania dotyczące danych wejściowych

  • Obsługiwane formaty plików:

    Model PDF Obraz:
    JPEG/JPG, , BMPPNG, , TIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Przeczytaj
    Układ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Dokument ogólny
    Wstępnie utworzona
    Niestandardowe wyodrębnianie
    Klasyfikacja niestandardowa ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.

  • W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).

  • Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).

  • Wymiary obrazu muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.

  • Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.

  • Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada tekstowi 8 punktowemu na 150 kropek na cal (DPI).

  • W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.

    • W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1 GB dla modelu neuronowego.

    • W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-07-31-preview i nowszych łączny rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.

Uwaga

Przykładowe narzędzie etykietowania nie obsługuje formatu pliku BMP. Jest to ograniczenie narzędzia, a nie usługi analizy dokumentów.

Migracja wersji

Dowiedz się, jak używać analizy dokumentów w wersji 3.0 w aplikacjach, postępując zgodnie z naszym przewodnikiem migracji analizy dokumentów w wersji 3.1

Model Opis
Analiza dokumentów
Układ Wyodrębnij informacje o tekście i układzie z dokumentów.
Wstępnie utworzone
Faktura Wyodrębnij kluczowe informacje z faktur w języku angielskim i hiszpańskim.
Paragon Wyodrębnij kluczowe informacje z rachunków w języku angielskim.
Dokument tożsamości Wyodrębnij kluczowe informacje z amerykańskich licencji kierowców i międzynarodowych paszportów.
Wizytówka Wyodrębnij kluczowe informacje z angielskich wizytówek.
Okres niestandardowy
Okres niestandardowy Wyodrębnianie danych z formularzy i dokumentów specyficznych dla Twojej firmy. Modele niestandardowe są trenowane dla unikatowych danych i przypadków użycia.
Składający się Utwórz kolekcję modeli niestandardowych i przypisz je do pojedynczego modelu utworzonego na podstawie typów formularzy.

Układ

Interfejs API układu analizuje i wyodrębnia tekst, tabele i nagłówki, znaczniki wyboru i informacje o strukturze z dokumentów.

Przykładowy dokument przetworzony przy użyciu narzędzia do etykietowania przykładowego:

Zrzut ekranu przedstawiający analizę

Faktura

Model faktur analizuje i wyodrębnia kluczowe informacje z faktur sprzedaży. Interfejs API analizuje faktury w różnych formatach i wyodrębnia kluczowe informacje, takie jak nazwa klienta, adres rozliczeniowy, data ukończenia i kwota należności.

Przykładowa faktura przetworzona przy użyciu narzędzia do etykietowania przykładowego:

Zrzut ekranu przedstawiający przykładową analizę faktury przy użyciu narzędzia do etykietowania przykładowego.

Przyjęcie

  • Model paragonu analizuje i wyodrębnia kluczowe informacje z drukowanych i odręcznych paragonów sprzedaży.

Przykładowe potwierdzenie przetworzone przy użyciu narzędzia do etykietowania przykładowego:

Zrzut ekranu przedstawiający przykładowe potwierdzenie.

Dokument tożsamości

Model dokumentu identyfikatora analizuje i wyodrębnia kluczowe informacje z następujących dokumentów:

  • Licencje kierowców USA (wszystkie 50 stanów i Dystrykt Kolumbii)

  • Strony biograficzne z międzynarodowych paszportów (z wyłączeniem wiz i innych dokumentów podróży). Interfejs API analizuje dokumenty tożsamości i wyodrębnia

Przykładowa licencja kierowcy USA przetworzona przy użyciu narzędzia do etykietowania przykładowego:

Zrzut ekranu przedstawiający przykładową kartę identyfikacji.

Karta biznesowa

Model wizytówek analizuje i wyodrębnia kluczowe informacje z obrazów wizytówek.

Przykładowa wizytówka przetworzona przy użyciu narzędzia do etykietowania przykładowego:

Zrzut ekranu przedstawiający przykładową wizytówkę.

Niestandardowy

  • Modele niestandardowe analizują i wyodrębniają dane z formularzy i dokumentów specyficznych dla Twojej firmy. Interfejs API to program uczenia maszynowego wyszkolony do rozpoznawania pól formularzy w ramach odrębnej zawartości i wyodrębniania par klucz-wartość i danych tabeli. Aby rozpocząć pracę, potrzebujesz tylko pięciu przykładów tego samego typu formularza, a model niestandardowy można wytrenować przy użyciu zestawów danych oznaczonych etykietami lub bez ich użycia.

Przykładowe przetwarzanie modelu niestandardowego przy użyciu narzędzia do etykietowania przykładowego:

Zrzut ekranu przedstawiający okno analizy dokumentów analyze-a-custom-form.

Skomponowany model niestandardowy

Utworzony model jest tworzony przez pobranie kolekcji modeli niestandardowych i przypisanie ich do pojedynczego modelu utworzonego na podstawie typów formularzy. Można przypisać wiele modeli niestandardowych do złożonego modelu o nazwie z jednym identyfikatorem modelu. Do jednego modelu składanego można przypisać maksymalnie 100 wytrenowanych modeli niestandardowych.

Okno dialogowe złożonego modelu przy użyciu narzędzia Przykładowe etykietowanie:

Zrzut ekranu przedstawiający okno dialogowe tworzenia modelu niestandardowego w programie Document Intelligence Studio.

Wyodrębnianie danych modelu

Model Wyodrębnianie tekstu Wykrywanie języka Znaczniki zaznaczenia Tabele Ustępów Role akapitu Pary klucz-wartość Pola
Układ
Faktura
Paragon
Identyfikator dokumentu
Wizytówka
Formularz niestandardowy

Wymagania dotyczące danych wejściowych

  • Obsługiwane formaty plików:

    Model PDF Obraz:
    JPEG/JPG, , BMPPNG, , TIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Przeczytaj
    Układ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Dokument ogólny
    Wstępnie utworzona
    Niestandardowe wyodrębnianie
    Klasyfikacja niestandardowa ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.

  • W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).

  • Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).

  • Wymiary obrazu muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.

  • Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.

  • Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada tekstowi 8 punktowemu na 150 kropek na cal (DPI).

  • W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.

    • W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1 GB dla modelu neuronowego.

    • W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-07-31-preview i nowszych łączny rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.

Uwaga

Przykładowe narzędzie etykietowania nie obsługuje formatu pliku BMP. Jest to ograniczenie narzędzia, a nie usługi analizy dokumentów.

Migracja wersji

Aby dowiedzieć się, jak używać analizy dokumentów w wersji 3.0 w aplikacjach, zapoznaj się z naszym przewodnikiem migracji analizy dokumentów w wersji 3.1

Następne kroki