Korzystanie ze wstępnie utworzonych modeli
Wskazówka
Aby uzyskać więcej szczegółów, zobacz kartę Tekst i obrazy .
Wstępnie utworzone modele w usłudze Azure Document Intelligence umożliwiają wyodrębnianie danych z typowych typów formularzy bez trenowania własnych modeli. Firma Microsoft trenuje te modele na dużej liczbie przykładowych dokumentów, dzięki czemu można oczekiwać dokładnych i niezawodnych wyników dla standardowych typów dokumentów.
Modele analizy dokumentów
Zanim przyjrzymy się wstępnie utworzonym modelom specyficznym dla domeny, ważne jest, aby zrozumieć modele analizy dokumentów, które są ich podstawą.
Odczyt modelu
Model odczytu wyodrębnia tekst drukowany i odręczny z dokumentów i obrazów. Wykrywa język każdego wiersza tekstu i klasyfikuje, czy tekst jest odręczny, czy drukowany. Model odczytu jest używany jako podstawa wyodrębniania tekstu we wszystkich innych modelach analizy dokumentów.
W przypadku wielostronicowych plików PDF lub TIFF można użyć parametru pages w żądaniu, aby określić zakres stron do analizy.
Model odczytu jest idealny, gdy chcesz wyodrębnić wyrazy i wiersze z dokumentów bez stałej lub przewidywalnej struktury.
Model układu
Model układu rozszerza funkcje wyodrębniania tekstu modelu odczytu o wykrywanie znaków zaznaczenia, tabel oraz informacji dotyczących struktury dokumentu. Obsługuje również funkcję keyValuePairs, która opcjonalnie wyodrębnia pary klucz-wartość.
Podczas cyfryzacji dokumentu może być on pochylony, a tabele mogą mieć złożone struktury z scalonymi komórkami lub niekompletnymi wierszami. Model układu może poradzić sobie z tymi trudnościami. Każda komórka tabeli jest wyodrębniona z zawartością, położeniem pola ograniczenia i indeksami wierszy/kolumn.
Znaczniki zaznaczenia (pola wyboru i przyciski radiowe) są wyodrębniane wraz z ich prostokątem ograniczającym, poziomem pewności i informacją, czy są zaznaczone.
Uwaga / Notatka
Ogólny model dokumentów był dostępny we wcześniejszych wersjach narzędzia Document Intelligence, ale był przestarzały w wydaniu2023-10-31-preview. Funkcjonalność par klucz-wartość oraz wyodrębniania jednostek została włączona do modelu układu i innych funkcji.
Wstępnie utworzone modele dla określonych typów dokumentów
Usługa Azure Document Intelligence obejmuje wstępnie utworzone modele wytrenowane na określonych typach dokumentów. Poniżej przedstawiono kilka wstępnie utworzonych modeli, które umożliwiają wyodrębnianie pól z typowych dokumentów biznesowych:
Dokumenty finansowe i prawne
| Model | Opis |
|---|---|
| Faktura | Wyodrębnia nazwę klienta, szczegóły dostawcy, numer zamówienia zakupu, daty faktur i terminy płatności, adresy rozliczeń i wysyłki, pozycje zamówienia i sumy. |
| Paragon | Wyodrębnia szczegóły sprzedawcy, datę i godzinę transakcji, pozycje na paragonie i sumy. Obsługuje przetwarzanie paragonów hotelowych jednostronicowych. |
| Wyciąg bankowy | Wyodrębnia informacje o koncie, początkowe i końcowe salda oraz szczegóły transakcji. |
| Sprawdź | Wyodrębnia odbiorcę płatności, kwotę, datę i inne istotne informacje. |
| Odcinek wypłaty | Wyodrębnia płace, godziny, odliczenia, wynagrodzenie netto i inne typowe pola wycinków płac. |
| Karta kredytowa | Wyodrębnia informacje o karcie płatniczej. |
| Kontrakt | Wyodrębnia szczegóły umowy i stron. |
Amerykańskie dokumenty podatkowe
| Model | Opis |
|---|---|
| Ujednolicony podatek amerykański | Jeden model, który wyodrębnia dane z dowolnego typu obsługiwanego formularza podatkowego w USA. |
| W-2 | Wyodrębnia szczegóły odszkodowania podlegającego opodatkowaniu. |
| 1098 i odmiany | Wyodrębnia odsetki hipoteczne i powiązane szczegóły. |
| 1099 i odmiany | Wyodrębnia dochód z różnych źródeł. |
| 1040 i odmiany | Wyodrębnia szczegóły indywidualnego zeznania podatkowego od osób fizycznych. |
Amerykańskie dokumenty hipoteczne
| Model | Opis |
|---|---|
| 1003 (URLA) | Wyodrębnia szczegóły wniosku o pożyczkę. |
| 1004 (URAR) | Wyodrębnia informacje z ocen nieruchomości. |
| 1005 | Wyodrębnia informacje dotyczące potwierdzenia zatrudnienia. |
| 1008 | Wyodrębnia detale przekazu pożyczki. |
| Zamykanie ujawnienia | Wyodrębnia ostateczne warunki kredytu końcowego. |
Osobiste dokumenty identyfikacyjne
| Model | Opis |
|---|---|
| Dokument tożsamości | Wyodrębnia szczegóły z licencji kierowców USA, identyfikatorów Unii Europejskiej i praw jazdy oraz międzynarodowych paszportów. Zawiera nazwy, daty urodzenia, numery dokumentów i zatwierdzenia lub ograniczenia. |
| Karta ubezpieczenia zdrowotnego | Wyodrębnia typowe pola z amerykańskich kart ubezpieczenia zdrowotnego. |
| Akt małżeństwa | Wyodrębnia certyfikowane informacje o małżeństwie. |
Ważna
Model dokumentów identyfikatorów wyodrębnia dane osobowe objęte przepisami dotyczącymi ochrony danych w większości jurysdykcji. Upewnij się, że masz uprawnienia osoby fizycznej do przechowywania ich danych i że spełniasz wszystkie odpowiednie wymagania prawne.
Funkcje wstępnie utworzonych modeli
Wstępnie utworzone modele są przeznaczone do wyodrębniania różnych typów danych z dokumentów. Do tych funkcji należą:
- Wyodrębnianie tekstu: wszystkie wstępnie utworzone modele wyodrębniają wiersze i wyrazy z tekstu odręcznego i drukowanego.
- Pary klucz-wartość: zakresy tekstu identyfikujące etykietę i jej odpowiedź. Na przykład waga i 31 kg.
- Znaczniki zaznaczenia: pola wyboru i przyciski radiowe, niezależnie od tego, czy są zaznaczone.
- Tabele: dane w komórkach, w tym liczba kolumn i wierszy, nagłówki kolumn i wierszy oraz scalone komórki.
-
Pola: Modele trenowane dla określonego typu formularza identyfikują stały zestaw pól. Na przykład model faktury wyodrębnia
CustomerNameiInvoiceTotal.
Kiedy należy używać wstępnie utworzonych i niestandardowych modeli
Wstępnie utworzone modele obejmują najbardziej typowe typy dokumentów. Jeśli masz typ formularza specyficzny dla branży lub unikatowy, możesz uzyskać dokładniejsze wyniki w modelu niestandardowym. Jednak modele niestandardowe wymagają czasu i przykładowych danych do trenowania. Zawsze sprawdzaj, czy istnieje wstępnie utworzony model dla danego scenariusza, zanim zainwestujesz w opracowanie niestandardowych modeli.
Dowiedz się więcej
- Wstępnie utworzone modele analizy dokumentów platformy Azure
- Model odczytu analizy dokumentów platformy Azure
- Model układu analizy dokumentów platformy Azure
- Model faktury usługi Azure Document Intelligence
- Model paragonów w inteligentnej analizie dokumentów Azure
- Model dokumentu tożsamości Azure Document Intelligence