Korzystanie ze wstępnie utworzonych modeli

Ukończone

Wskazówka

Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .

Wstępnie utworzone modele w usłudze Azure Document Intelligence umożliwiają wyodrębnianie danych z typowych typów formularzy bez trenowania własnych modeli. Firma Microsoft trenuje te modele na dużej liczbie przykładowych dokumentów, dzięki czemu można oczekiwać dokładnych i niezawodnych wyników dla standardowych typów dokumentów.

Modele analizy dokumentów

Zanim przyjrzymy się wstępnie utworzonym modelom specyficznym dla domeny, ważne jest, aby zrozumieć modele analizy dokumentów, które są ich podstawą.

Odczyt modelu

Model odczytu wyodrębnia tekst drukowany i odręczny z dokumentów i obrazów. Wykrywa język każdego wiersza tekstu i klasyfikuje, czy tekst jest odręczny, czy drukowany. Model odczytu jest używany jako podstawa wyodrębniania tekstu we wszystkich innych modelach analizy dokumentów.

W przypadku wielostronicowych plików PDF lub TIFF można użyć parametru pages w żądaniu, aby określić zakres stron do analizy.

Model odczytu jest idealny, gdy chcesz wyodrębnić wyrazy i wiersze z dokumentów bez stałej lub przewidywalnej struktury.

Zrzut ekranu przedstawiający model odczytu analizujący przykładowy dokument w programie Document Intelligence Studio.

Model układu

Model układu rozszerza funkcje wyodrębniania tekstu modelu odczytu o wykrywanie znaków zaznaczenia, tabel oraz informacji dotyczących struktury dokumentu. Obsługuje również funkcję keyValuePairs, która opcjonalnie wyodrębnia pary klucz-wartość.

Podczas cyfryzacji dokumentu może być on pochylony, a tabele mogą mieć złożone struktury z scalonymi komórkami lub niekompletnymi wierszami. Model układu może poradzić sobie z tymi trudnościami. Każda komórka tabeli jest wyodrębniona z zawartością, położeniem pola ograniczenia i indeksami wierszy/kolumn.

Znaczniki zaznaczenia (pola wyboru i przyciski radiowe) są wyodrębniane wraz z ich prostokątem ograniczającym, poziomem pewności i informacją, czy są zaznaczone.

Zrzut ekranu przedstawiający model układu wyodrębniając tabele i strukturę z przykładowego dokumentu w programie Document Intelligence Studio.

Uwaga / Notatka

Ogólny model dokumentów był dostępny we wcześniejszych wersjach narzędzia Document Intelligence, ale był przestarzały w wydaniu2023-10-31-preview. Funkcjonalność par klucz-wartość oraz wyodrębniania jednostek została włączona do modelu układu i innych funkcji.

Wstępnie utworzone modele dla określonych typów dokumentów

Usługa Azure Document Intelligence obejmuje wstępnie utworzone modele wytrenowane na określonych typach dokumentów. Poniżej przedstawiono kilka wstępnie utworzonych modeli, które umożliwiają wyodrębnianie pól z typowych dokumentów biznesowych:

Model Opis
Faktura Wyodrębnia nazwę klienta, szczegóły dostawcy, numer zamówienia zakupu, daty faktur i terminy płatności, adresy rozliczeń i wysyłki, pozycje zamówienia i sumy.
Paragon Wyodrębnia szczegóły sprzedawcy, datę i godzinę transakcji, pozycje na paragonie i sumy. Obsługuje przetwarzanie paragonów hotelowych jednostronicowych.
Wyciąg bankowy Wyodrębnia informacje o koncie, początkowe i końcowe salda oraz szczegóły transakcji.
Sprawdź Wyodrębnia odbiorcę płatności, kwotę, datę i inne istotne informacje.
Odcinek wypłaty Wyodrębnia płace, godziny, odliczenia, wynagrodzenie netto i inne typowe pola wycinków płac.
Karta kredytowa Wyodrębnia informacje o karcie płatniczej.
Kontrakt Wyodrębnia szczegóły umowy i stron.

Amerykańskie dokumenty podatkowe

Model Opis
Ujednolicony podatek amerykański Jeden model, który wyodrębnia dane z dowolnego typu obsługiwanego formularza podatkowego w USA.
W-2 Wyodrębnia szczegóły odszkodowania podlegającego opodatkowaniu.
1098 i odmiany Wyodrębnia odsetki hipoteczne i powiązane szczegóły.
1099 i odmiany Wyodrębnia dochód z różnych źródeł.
1040 i odmiany Wyodrębnia szczegóły indywidualnego zeznania podatkowego od osób fizycznych.

Amerykańskie dokumenty hipoteczne

Model Opis
1003 (URLA) Wyodrębnia szczegóły wniosku o pożyczkę.
1004 (URAR) Wyodrębnia informacje z ocen nieruchomości.
1005 Wyodrębnia informacje dotyczące potwierdzenia zatrudnienia.
1008 Wyodrębnia detale przekazu pożyczki.
Zamykanie ujawnienia Wyodrębnia ostateczne warunki kredytu końcowego.

Osobiste dokumenty identyfikacyjne

Model Opis
Dokument tożsamości Wyodrębnia szczegóły z licencji kierowców USA, identyfikatorów Unii Europejskiej i praw jazdy oraz międzynarodowych paszportów. Zawiera nazwy, daty urodzenia, numery dokumentów i zatwierdzenia lub ograniczenia.
Karta ubezpieczenia zdrowotnego Wyodrębnia typowe pola z amerykańskich kart ubezpieczenia zdrowotnego.
Akt małżeństwa Wyodrębnia certyfikowane informacje o małżeństwie.

Ważna

Model dokumentów identyfikatorów wyodrębnia dane osobowe objęte przepisami dotyczącymi ochrony danych w większości jurysdykcji. Upewnij się, że masz uprawnienia osoby fizycznej do przechowywania ich danych i że spełniasz wszystkie odpowiednie wymagania prawne.

Funkcje wstępnie utworzonych modeli

Wstępnie utworzone modele są przeznaczone do wyodrębniania różnych typów danych z dokumentów. Do tych funkcji należą:

  • Wyodrębnianie tekstu: wszystkie wstępnie utworzone modele wyodrębniają wiersze i wyrazy z tekstu odręcznego i drukowanego.
  • Pary klucz-wartość: zakresy tekstu identyfikujące etykietę i jej odpowiedź. Na przykład waga i 31 kg.
  • Znaczniki zaznaczenia: pola wyboru i przyciski radiowe, niezależnie od tego, czy są zaznaczone.
  • Tabele: dane w komórkach, w tym liczba kolumn i wierszy, nagłówki kolumn i wierszy oraz scalone komórki.
  • Pola: Modele trenowane dla określonego typu formularza identyfikują stały zestaw pól. Na przykład model faktury wyodrębnia CustomerName i InvoiceTotal.

Kiedy należy używać wstępnie utworzonych i niestandardowych modeli

Wstępnie utworzone modele obejmują najbardziej typowe typy dokumentów. Jeśli masz typ formularza specyficzny dla branży lub unikatowy, możesz uzyskać dokładniejsze wyniki w modelu niestandardowym. Jednak modele niestandardowe wymagają czasu i przykładowych danych do trenowania. Zawsze sprawdzaj, czy istnieje wstępnie utworzony model dla danego scenariusza, zanim zainwestujesz w opracowanie niestandardowych modeli.

Dowiedz się więcej