Model paragonu analizy dokumentów

Artykuł
10/17/2024

Ważne

Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview.
Publiczna wersja zapoznawcza 2024-07-31-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure. Należy pamiętać, że niestandardowy model generowania (wyodrębniania pól dokumentów) w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:
- Wschodnie stany USA
- Zachodnie stany USA 2
- Europa Zachodnia
- Północno-środkowe stany USA

Ta zawartość dotyczy: v4.0 (wersja zapoznawcza) | Poprzednie wersje: v3.1 (GA) v3.0 (GA) v2.1 (GA)

Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja: v4.0 (wersja zapoznawcza) | | Poprzednie wersje: v3.0 v2.1

Ta zawartość dotyczy: wersja 3.0 (GA) | Najnowsze wersje: wersja 4.0 (wersja zapoznawcza) 3.1 | Poprzednia wersja: wersja 2.1

Ta zawartość dotyczy: wersja 2.1 | Najnowsza wersja: wersja 4.0 (wersja zapoznawcza)

Model paragonu analizy dokumentów łączy zaawansowane funkcje optycznego rozpoznawania znaków (OCR) z modelami uczenia głębokiego w celu analizowania i wyodrębniania kluczowych informacji z paragonów sprzedaży. Paragony mogą mieć różne formaty i jakość, w tym paragony drukowane i odręczne. Interfejs API wyodrębnia kluczowe informacje, takie jak nazwa sprzedawcy, numer telefonu sprzedawcy, data transakcji, podatek i suma transakcji oraz zwraca ustrukturyzowane dane JSON.

Obsługiwane typy paragonów:

Cieplny
Karta kredytowa
instalacja gazowa;
Parkowanie
Hotel
Transport
Komunikacja
Rozrywka
Lot
Szkolenia
Apteka/Medyczna

Wyodrębnianie danych paragonu

Cyfryzacja paragonów obejmuje transformację różnych rodzajów paragonów, w tym zeskanowanych, sfotografowanych i drukowanych kopii w formacie cyfrowym w celu usprawnionego przetwarzania podrzędnego. Przykłady obejmują zarządzanie wydatkami, analizę zachowań konsumentów, automatyzację podatków itp. Korzystanie z analizy dokumentów z technologią optycznego rozpoznawania znaków (optycznego rozpoznawania znaków) umożliwia wyodrębnianie i interpretowanie danych z tych zróżnicowanych formatów paragonów. Przetwarzanie analizy dokumentów upraszcza proces konwersji, ale także znacznie skraca czas i nakład pracy, co ułatwia efektywne zarządzanie danymi i pobieranie.

Przykładowe potwierdzenie przetworzone za pomocą programu Document Intelligence Studio:

Przykładowe potwierdzenie przetworzone za pomocą narzędzia do etykietowania przykładowego analizy dokumentów:

Zrzut ekranu przedstawiający przykładowe potwierdzenie przetworzone za pomocą narzędzia do etykietowania przykładowego formularza.

Opcje programowania

Analiza dokumentów w wersji 4.0 (2024-07-31-preview) obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Model ID
Model paragonu	• Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK	wstępnie utworzone potwierdzenie

Narzędzie Document Intelligence w wersji 3.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Model ID
Model paragonu	• Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK	wstępnie utworzone potwierdzenie

Narzędzie Document Intelligence w wersji 3.0 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Model ID
Model paragonu	• Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK	wstępnie utworzone potwierdzenie

Narzędzie Document Intelligence w wersji 2.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby
Model paragonu	• Narzędzie do etykietowania analizy dokumentów• Interfejs API REST• Zestaw SDK biblioteki klienckiej• Kontener docker analizy dokumentów

Wymagania dotyczące danych wejściowych

Obsługiwane formaty plików:

Model	PDF	Obraz: `JPEG/JPG`, , `BMPPNG`, , `TIFFHEIF`	Microsoft Office: Word (), Excel (`XLSXDOCX`), PowerPoint (`PPTX`), HTML
Przeczytaj	✔	✔	✔
Układ	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Dokument ogólny	✔	✔
Wstępnie utworzona	✔	✔
Niestandardowe wyodrębnianie	✔	✔
Klasyfikacja niestandardowa	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).
Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).
Wymiary obrazu muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada tekstowi 8 punktowemu na 150 kropek na cal (DPI).
W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
- W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1 GB dla modelu neuronowego.
- W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-07-31-preview i nowszych łączny rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.

Obsługiwane formaty plików: JPEG, PNG, PDF i TIFF.
Obsługiwany limit stron dla plików PDF i TIFF: Analiza dokumentów może przetwarzać maksymalnie 2000 stron dla subskrybentów warstwy Standardowa lub tylko dwie pierwsze strony dla subskrybentów warstwy bezpłatnie.
Obsługiwany rozmiar pliku: mniejszy niż 50 MB; minimalna liczba pikseli 50 x 50 pikseli; maksymalna liczba pikseli: 10 000 x 10 000 pikseli.

Wyodrębnianie danych modelu paragonu

Zobacz, w jaki sposób analiza dokumentów wyodrębnia dane, w tym godzinę i datę transakcji, informacje o kupcu i sumy kwot od wpływów. Potrzebne są następujące zasoby:

Subskrypcja platformy Azure — możesz utworzyć jedną bezpłatnie.
Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

Uwaga

Program Document Intelligence Studio jest dostępny z interfejsami API w wersji 3.1 i 3.0 oraz nowszymi wersjami.

Na stronie głównej Document Intelligence Studio wybierz pozycję Paragony.
Możesz przeanalizować przykładowe potwierdzenie lub przekazać własne pliki.
Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:

Wypróbuj narzędzie Document Intelligence Studio.

Narzędzie do etykietowania przykładowego analizy dokumentów

Przejdź do narzędzia przykładowego analizy dokumentów.
Na stronie głównej przykładowego narzędzia wybierz kafelek Użyj wstępnie utworzonego modelu, aby pobrać dane .
Wybierz typ formularza do przeanalizowania z menu rozwijanego.
Wybierz adres URL pliku, który chcesz przeanalizować z poniższych opcji:
- Przykładowy dokument faktury.
- Przykładowy dokument o identyfikatorze.
- Przykładowy obraz potwierdzenia.
- Przykładowy obraz wizytówki.
W polu Źródło wybierz pozycję Adres URL z menu rozwijanego, wklej wybrany adres URL i wybierz przycisk Pobierz.
W polu Punkt końcowy usługi Analizy dokumentów wklej punkt końcowy uzyskany w ramach subskrypcji analizy dokumentów.
W polu klucza wklej klucz uzyskany z zasobu analizy dokumentów.
Wybierz pozycję Uruchom analizę. Narzędzie do etykietowania przykładowego analizy dokumentów wywołuje interfejs API analizy wstępnie utworzonej i analizuje dokument.
Wyświetl wyniki — zobacz wyodrębnione pary klucz-wartość, elementy wiersza, wyróżniony tekst wyodrębniony i wykryte tabele.

Uwaga

Przykładowe narzędzie etykietowania nie obsługuje formatu pliku BMP. Jest to ograniczenie narzędzia, a nie usługi analizy dokumentów.

Obsługiwane języki i ustawienia regionalne

Aby uzyskać pełną listę obsługiwanych języków, zobacz naszą wstępnie utworzoną stronę obsługi języka modeli.

Wyodrębnianie pól

Nazwisko	Pisz	Opis	Standardowe dane wyjściowe
Typ paragonu	String	Typ paragonu sprzedaży	Wyszczególnione
Nazwa handlowca	String	Imię i nazwisko sprzedawcy wystawiającego paragon
Numer MerchantPhone	phoneNumber	Wymieniony numer telefonu sprzedawcy	+1 xxx xxx xxxx
Adres handlowca	String	Wymieniony adres sprzedawcy
Data transakcji	Data	Data wystawienia paragonu	rrrr-mm-dd
Czas transakcji	Czas	Czas wystawienia paragonu	hh-mm-ss (24-godzinne)
Łącznie	Liczba (USD)	Całkowita liczba transakcji odbioru	Liczba zmiennoprzecinkowa dwuprzecinkowa
Suma częściowa	Liczba (USD)	Suma częściowa paragonu, często przed zastosowaniem podatków	Liczba zmiennoprzecinkowa dwuprzecinkowa
Podatek	Liczba (USD)	Całkowity podatek od paragonu (często podatek od sprzedaży lub odpowiednik). Zmieniono nazwę na "TotalTax" w wersji 2022-06-30.	Liczba zmiennoprzecinkowa dwuprzecinkowa
Napiwek	Liczba (USD)	Porada dołączona przez kupującego	Liczba zmiennoprzecinkowa dwuprzecinkowa
Elementy	Tablica obiektów	Wyodrębnione elementy wiersza z nazwą, ilością, ceną jednostkową i łączną ceną wyodrębnionej
Nazwisko	String	Opis elementu. Zmieniono nazwę na "Opis" w wersji 2022-06-30.
Ilość	Liczba	Ilość każdego elementu	Liczba zmiennoprzecinkowa dwuprzecinkowa
Cena	Liczba	Pojedyncza cena każdej jednostki przedmiotów	Liczba zmiennoprzecinkowa dwuprzecinkowa
Cena_łączna	Liczba	Łączna cena elementu wiersza	Liczba zmiennoprzecinkowa dwuprzecinkowa

W przypadku obsługiwanych pól wyodrębniania dokumentów zapoznaj się ze stroną schematu modelu paragonów w naszym przykładowym repozytorium GitHub.

Przewodnik migracji i interfejs API REST w wersji 3.1

Postępuj zgodnie z naszym przewodnikiem migracji do analizy dokumentów w wersji 3.1, aby dowiedzieć się, jak używać wersji 3.1 w aplikacjach i przepływach pracy.

Następne kroki

Spróbuj przetwarzać własne formularze i dokumenty za pomocą programu Document Intelligence Studio.
Ukończ przewodnik Szybki start dotyczący analizy dokumentów i rozpocznij tworzenie aplikacji do przetwarzania dokumentów w wybranym języku programowania.

Znajdź więcej przykładów w witrynie GitHub.

Znajdź więcej przykładów w witrynie GitHub.

Spróbuj przetwarzać własne formularze i dokumenty za pomocą narzędzia do etykietowania przykładowego analizy dokumentów.
Ukończ przewodnik Szybki start dotyczący analizy dokumentów i rozpocznij tworzenie aplikacji do przetwarzania dokumentów w wybranym języku programowania.

Udostępnij za pośrednictwem