Który model należy wybrać?
Ważne
- Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
- Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview.
- Publiczna wersja zapoznawcza 2024-07-31-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure. Należy pamiętać, że niestandardowy model generowania (wyodrębniania pól dokumentów) w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:
- Wschodnie stany USA
- Zachodnie stany USA 2
- Europa Zachodnia
- Północno-środkowe stany USA
Usługa Azure AI Document Intelligence obsługuje szeroką gamę modeli, które umożliwiają dodawanie inteligentnego przetwarzania dokumentów do aplikacji i optymalizowanie przepływów pracy. Wybór odpowiedniego modelu jest niezbędny do zapewnienia sukcesu przedsiębiorstwa. W tym artykule zapoznamy się z dostępnymi modelami analizy dokumentów i przedstawimy wskazówki dotyczące wybierania najlepszego rozwiązania dla projektów.
Poniższe wykresy decyzyjne przedstawiają funkcje każdego obsługiwanego modelu, aby ułatwić wybór modelu, który najlepiej spełnia wymagania i wymagania aplikacji.
Ważne
Pamiętaj, aby sprawdzić stronę obsługi języka pod kątem obsługiwanego tekstu językowego i wyodrębniania pól według funkcji.
Wstępnie wytrenowane modele analizy dokumentów
Document type | Przykład | Dane do wyodrębnienia | Najlepsze rozwiązanie |
---|---|---|---|
Ogólny dokument. | Kontrakt lub list. | Chcesz przede wszystkim wyodrębnić napisane lub drukowane wiersze tekstu, wyrazy, lokalizacje i wykryte języki. | Odczytywanie modelu OCR |
Dokument zawierający informacje strukturalne. | Raport lub badanie. | Oprócz tekstu pisanego lub drukowanego należy wyodrębnić informacje strukturalne, takie jak tabele, znaczniki wyboru, akapity, tytuły, nagłówki i podpozycje. | Model analizy układu |
Dokument ustrukturyzowany lub częściowo ustrukturyzowany zawierający zawartość sformatowaną jako pola (klucze) i wartości. | Formularz lub dokument, który jest standardowym formatem używanym w twojej firmie lub branży, takim jak aplikacja kredytowa lub ankieta. | Chcesz wyodrębnić pola i wartości, w tym te, które nie są objęte wstępnie utworzonymi modelami specyficznymi dla scenariusza bez konieczności trenowania modelu niestandardowego. | **Model analizy układu z włączonym opcjonalnym parametrem features=keyValuePairs ciągu zapytania ** |
Wstępnie wytrenowane modele specyficzne dla scenariuszy
Document type | Dane do wyodrębnienia | Najlepsze rozwiązanie |
---|---|---|
US Unified Tax | Chcesz wyodrębnić kluczowe informacje we wszystkich formularzach podatkowych W2, 1040, 1090, 1098 z jednego pliku bez konieczności uruchamiania własnej niestandardowej klasyfikacji. | Amerykański ujednolicony model podatkowy |
Podatek od podatku W-2 w USA | Chcesz wyodrębnić kluczowe informacje, takie jak wynagrodzenie, płace i podatki wstrzymane. | Model W-2 podatku amerykańskiego |
Podatek amerykański 1098 | Chcesz wyodrębnić szczegóły odsetek hipotecznych, takie jak podmiot zabezpieczeń, punktów i podatku. | Model podatku 1098 w USA |
Podatek amerykański 1098-E | Chcesz wyodrębnić szczegóły odsetek pożyczek studenckich, takich jak kredytodawca i kwota odsetek. | Model 1098-E podatku amerykańskiego |
Podatek amerykański 1098T | Chcesz wyodrębnić kwalifikowane szczegóły czesnego, takie jak korekty stypendiów, status studenta i informacje kredytodawcy. | Model 1098-T podatku amerykańskiego |
Us Tax 1099(Odmiany) | Chcesz wyodrębnić informacje z 1099 formularzy i jego odmian (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB). |
Model podatku 1099 w USA |
Podatek amerykański 1040 (odmiany) | Chcesz wyodrębnić informacje z 1040 formularzy i jego odmian (Harmonogram 1, Harmonogram 2, Harmonogram 3, Harmonogram 8812, Harmonogram A, Harmonogram B, Harmonogram C, Harmonogram D, Harmonogram E, EIC Harmonogram F, Harmonogram H, Harmonogram J, Harmonogram R, Harmonogram , Harmonogram SE starszy). |
Model podatku 1040 w USA |
Wyciąg bankowy | Chcesz wyodrębnić kluczowe informacje z amerykańskiego oświadczenia bankowego | \Bank Statement |
Czek bankowy | Chcesz wyodrębnić kluczowe informacje z dokumentu sprawdzania. | Czek bankowy |
Umowa (umowa prawna między stronami). | Chcesz wyodrębnić szczegóły umowy, takie jak strony, daty i interwały. | Model kontraktu |
Karta ubezpieczenia zdrowotnego lub identyfikator ubezpieczenia zdrowotnego. | Chcesz wyodrębnić kluczowe informacje, takie jak ubezpieczyciel, identyfikator członka, ubezpieczenie na receptę i numer grupy. | Model karty ubezpieczenia zdrowotnego |
Karta kredytowa/debetowa | Chcesz wyodrębnić kluczowe karty bankowe, takie jak numer karty i nazwa banku. | Model karty kredytowej/debetowej |
Akt małżeństwa | Chcesz wyodrębnić kluczowe informacje z certyfikatów małżeńskich. | Model certyfikatu małżeństwa |
Faktura lub zestawienie rozliczeń | Chcesz wyodrębnić kluczowe informacje, takie jak nazwa klienta, adres rozliczeniowy i kwota należna. | Model faktury |
Paragon, kupon lub jednostronicowy paragon hotelowy. | Chcesz wyodrębnić kluczowe informacje, takie jak nazwa sprzedawcy, data transakcji i suma transakcji. | Model paragonu |
Dokument tożsamości (id), taki jak prawo jazdy USA lub międzynarodowy paszport | Chcesz wyodrębnić kluczowe informacje, takie jak imię, nazwisko, data urodzenia, adres i podpis. | Model dokumentu tożsamości (ID) |
Płatność za wycinkę | Chcesz wyodrębnić kluczowe informacje z dokumentu wycinkowego płatności. | Model wycinków płatności |
Kredyt hipoteczny USA 1003 | Chcesz wyodrębnić kluczowe informacje z aplikacji ujednoliconej pożyczki mieszkaniowej. | Model formularza 1003 |
Kredyt hipoteczny USA 1004 | Chcesz wyodrębnić kluczowe informacje z raportu jednolitej oceny mieszkaniowej (URAR). | Model formularza 1004 |
Kredyt hipoteczny USA 1005 | Chcesz wyodrębnić kluczowe informacje z formularza weryfikacji zatrudnienia | Model formularza 1005 |
Kredyt hipoteczny USA 1008 | Chcesz wyodrębnić kluczowe informacje z podsumowania jednolitych zapisów i przesyłania. | Model formularza 1008 |
Ujawnienie zamknięcia kredytów hipotecznych w USA | Chcesz wyodrębnić kluczowe informacje z formularza ujawnienia zamknięcia kredytu hipotecznego. | Model formularza zamknięcia kredytów hipotecznych |
Dokumenty typu mieszanego z elementami ustrukturyzowanymi , częściowo ustrukturyzowanymi i/lub bez struktury | Chcesz wyodrębnić pary klucz-wartość, znaczniki wyboru, tabele, pola podpisu i wybrane regiony, które nie są wyodrębniane przez wstępnie utworzone lub ogólne modele dokumentów. | Model niestandardowy |
Napiwek
- Jeśli nadal nie masz pewności, który wstępnie wytrenowany model ma być używany, wypróbuj model układu z włączonym opcjonalnym parametrem
features=keyValuePairs
ciągu zapytania. - Model układu jest obsługiwany przez aparat OCR do wykrywania stron, tabel, stylów, tekstu, wierszy, wyrazów, lokalizacji i języków.
Niestandardowe modele wyodrębniania
Zestaw szkoleniowy | Przykładowe dokumenty | Najlepsze rozwiązanie |
---|---|---|
Ustrukturyzowane, spójne dokumenty z układem statycznym. | Formularze ustrukturyzowane, takie jak kwestionariusze lub aplikacje. | Niestandardowy model szablonu |
Ustrukturyzowane i częściowo ustrukturyzowane. | ● Ankiety → ustrukturyzowane● faktury ze strukturą częściowo ustrukturyzowaną → |
Niestandardowy model neuronowy |
Dokumenty bez struktury, dokumenty o różnych szablonach. | ● Dokumenty bez struktury, takie jak umowy lub listy ● Różne szablony dokumentów, takie jak oświadczenia kredytowe od różnych firm hipotecznych |
Niestandardowy model generowania |
Kolekcja kilku modeli wytrenowanych na dokumentach podobnych typów. | ● Dostarczanie zamówień zakupu● Zamówienia zakupu sprzętu● Zamówienia zakupu mebli Wszystkie składa się w jeden model. |
Skomponowany model niestandardowy |
Niestandardowy model klasyfikacji
Zestaw szkoleniowy | Przykładowe dokumenty | Najlepsze rozwiązanie |
---|---|---|
Co najmniej dwa różne typy dokumentów. | Formularze, litery lub dokumenty | Niestandardowy model klasyfikacji |