Udostępnij za pośrednictwem


Model paragonu analizy dokumentów

Ważne

  • Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
  • Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview.
  • Publiczna wersja zapoznawcza 2024-07-31-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure. Należy pamiętać, że niestandardowy model generowania (wyodrębniania pól dokumentów) w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:
    • Wschodnie stany USA
    • Zachodnie stany USA 2
    • Europa Zachodnia
    • Północno-środkowe stany USA

Ta zawartość dotyczy:Znacznik v4.0 (wersja zapoznawcza) | Poprzednie wersje: niebieski znacznik wyboru v3.1 (GA) v3.0 (GA) niebieski znacznik wyboru v2.1 (GA) niebieski znacznik wyboru

Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja:Znacznik purpurowy znacznik wyboru v4.0 (wersja zapoznawcza) | | Poprzednie wersje: niebieski znacznik wyboru v3.0niebieski znacznik wyboru v2.1

Ta zawartość dotyczy: Znacznik wersja 3.0 (GA) | Najnowsze wersje: purpurowy znacznik wyboru wersja 4.0 (wersja zapoznawcza) purpurowy znacznik wyboru 3.1 | Poprzednia wersja: niebieski znacznik wyboru wersja 2.1

Ta zawartość dotyczy: Znacznik wersja 2.1 | Najnowsza wersja: niebieski znacznik wyboru wersja 4.0 (wersja zapoznawcza)

Model paragonu analizy dokumentów łączy zaawansowane funkcje optycznego rozpoznawania znaków (OCR) z modelami uczenia głębokiego w celu analizowania i wyodrębniania kluczowych informacji z paragonów sprzedaży. Paragony mogą mieć różne formaty i jakość, w tym paragony drukowane i odręczne. Interfejs API wyodrębnia kluczowe informacje, takie jak nazwa sprzedawcy, numer telefonu sprzedawcy, data transakcji, podatek i suma transakcji oraz zwraca ustrukturyzowane dane JSON.

Obsługiwane typy paragonów:

  • Cieplny
  • Karta kredytowa
  • instalacja gazowa;
  • Parkowanie
  • Hotel
  • Transport
  • Komunikacja
  • Rozrywka
  • Lot
  • Szkolenia
  • Apteka/Medyczna

Wyodrębnianie danych paragonu

Cyfryzacja paragonów obejmuje transformację różnych rodzajów paragonów, w tym zeskanowanych, sfotografowanych i drukowanych kopii w formacie cyfrowym w celu usprawnionego przetwarzania podrzędnego. Przykłady obejmują zarządzanie wydatkami, analizę zachowań konsumentów, automatyzację podatków itp. Korzystanie z analizy dokumentów z technologią optycznego rozpoznawania znaków (optycznego rozpoznawania znaków) umożliwia wyodrębnianie i interpretowanie danych z tych zróżnicowanych formatów paragonów. Przetwarzanie analizy dokumentów upraszcza proces konwersji, ale także znacznie skraca czas i nakład pracy, co ułatwia efektywne zarządzanie danymi i pobieranie.

Przykładowe potwierdzenie przetworzone za pomocą programu Document Intelligence Studio:

Zrzut ekranu przedstawiający przykładowe potwierdzenie przetworzone w programie Document Intelligence Studio.

Przykładowe potwierdzenie przetworzone za pomocą narzędzia do etykietowania przykładowego analizy dokumentów:

Zrzut ekranu przedstawiający przykładowe potwierdzenie przetworzone za pomocą narzędzia do etykietowania przykładowego formularza.

Opcje programowania

Analiza dokumentów w wersji 4.0 (2024-07-31-preview) obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Model ID
Model paragonu • Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
JavaScript SDK
wstępnie utworzone potwierdzenie

Narzędzie Document Intelligence w wersji 3.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Model ID
Model paragonu • Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
JavaScript SDK
wstępnie utworzone potwierdzenie

Narzędzie Document Intelligence w wersji 3.0 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Model ID
Model paragonu • Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
JavaScript SDK
wstępnie utworzone potwierdzenie

Narzędzie Document Intelligence w wersji 2.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby
Model paragonu Narzędzie
do etykietowania analizy dokumentów• Interfejs API
REST• Zestaw SDK
biblioteki klienckiej• Kontener docker analizy dokumentów

Wymagania dotyczące danych wejściowych

  • Obsługiwane formaty plików:

    Model PDF Obraz:
    JPEG/JPG, , BMPPNG, , TIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Przeczytaj
    Układ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Dokument ogólny
    Wstępnie utworzona
    Niestandardowe wyodrębnianie
    Klasyfikacja niestandardowa ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.

  • W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).

  • Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).

  • Wymiary obrazu muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.

  • Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.

  • Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada tekstowi 8 punktowemu na 150 kropek na cal (DPI).

  • W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.

    • W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1 GB dla modelu neuronowego.

    • W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-07-31-preview i nowszych łączny rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.

  • Obsługiwane formaty plików: JPEG, PNG, PDF i TIFF.
  • Obsługiwany limit stron dla plików PDF i TIFF: Analiza dokumentów może przetwarzać maksymalnie 2000 stron dla subskrybentów warstwy Standardowa lub tylko dwie pierwsze strony dla subskrybentów warstwy bezpłatnie.
  • Obsługiwany rozmiar pliku: mniejszy niż 50 MB; minimalna liczba pikseli 50 x 50 pikseli; maksymalna liczba pikseli: 10 000 x 10 000 pikseli.

Wyodrębnianie danych modelu paragonu

Zobacz, w jaki sposób analiza dokumentów wyodrębnia dane, w tym godzinę i datę transakcji, informacje o kupcu i sumy kwot od wpływów. Potrzebne są następujące zasoby:

  • Subskrypcja platformy Azure — możesz utworzyć jedną bezpłatnie.

  • Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

Uwaga

Program Document Intelligence Studio jest dostępny z interfejsami API w wersji 3.1 i 3.0 oraz nowszymi wersjami.

  1. Na stronie głównej Document Intelligence Studio wybierz pozycję Paragony.

  2. Możesz przeanalizować przykładowe potwierdzenie lub przekazać własne pliki.

  3. Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:

    Zrzut ekranu przedstawiający przyciski Run analysis and Analyze (Uruchamianie analizy i analizowanie) w narzędziu Document Intelligence Studio.

Narzędzie do etykietowania przykładowego analizy dokumentów

  1. Przejdź do narzędzia przykładowego analizy dokumentów.

  2. Na stronie głównej przykładowego narzędzia wybierz kafelek Użyj wstępnie utworzonego modelu, aby pobrać dane .

    Zrzut ekranu przedstawiający proces analizowania wyników przez model układu.

  3. Wybierz typ formularza do przeanalizowania z menu rozwijanego.

  4. Wybierz adres URL pliku, który chcesz przeanalizować z poniższych opcji:

  5. W polu Źródło wybierz pozycję Adres URL z menu rozwijanego, wklej wybrany adres URL i wybierz przycisk Pobierz.

    Zrzut ekranu przedstawiający menu rozwijane lokalizacji źródłowej.

  6. W polu Punkt końcowy usługi Analizy dokumentów wklej punkt końcowy uzyskany w ramach subskrypcji analizy dokumentów.

  7. W polu klucza wklej klucz uzyskany z zasobu analizy dokumentów.

    Zrzut ekranu przedstawiający menu rozwijane select-form-type.

  8. Wybierz pozycję Uruchom analizę. Narzędzie do etykietowania przykładowego analizy dokumentów wywołuje interfejs API analizy wstępnie utworzonej i analizuje dokument.

  9. Wyświetl wyniki — zobacz wyodrębnione pary klucz-wartość, elementy wiersza, wyróżniony tekst wyodrębniony i wykryte tabele.

    Zrzut ekranu przedstawiający operację analizowania wyników w modelu układu.

Uwaga

Przykładowe narzędzie etykietowania nie obsługuje formatu pliku BMP. Jest to ograniczenie narzędzia, a nie usługi analizy dokumentów.

Obsługiwane języki i ustawienia regionalne

Aby uzyskać pełną listę obsługiwanych języków, zobacz naszą wstępnie utworzoną stronę obsługi języka modeli.

Wyodrębnianie pól

Nazwisko Pisz Opis Standardowe dane wyjściowe
Typ paragonu String Typ paragonu sprzedaży Wyszczególnione
Nazwa handlowca String Imię i nazwisko sprzedawcy wystawiającego paragon
Numer MerchantPhone phoneNumber Wymieniony numer telefonu sprzedawcy +1 xxx xxx xxxx
Adres handlowca String Wymieniony adres sprzedawcy
Data transakcji Data Data wystawienia paragonu rrrr-mm-dd
Czas transakcji Czas Czas wystawienia paragonu hh-mm-ss (24-godzinne)
Łącznie Liczba (USD) Całkowita liczba transakcji odbioru Liczba zmiennoprzecinkowa dwuprzecinkowa
Suma częściowa Liczba (USD) Suma częściowa paragonu, często przed zastosowaniem podatków Liczba zmiennoprzecinkowa dwuprzecinkowa
Podatek Liczba (USD) Całkowity podatek od paragonu (często podatek od sprzedaży lub odpowiednik). Zmieniono nazwę na "TotalTax" w wersji 2022-06-30. Liczba zmiennoprzecinkowa dwuprzecinkowa
Napiwek Liczba (USD) Porada dołączona przez kupującego Liczba zmiennoprzecinkowa dwuprzecinkowa
Elementy Tablica obiektów Wyodrębnione elementy wiersza z nazwą, ilością, ceną jednostkową i łączną ceną wyodrębnionej
Nazwisko String Opis elementu. Zmieniono nazwę na "Opis" w wersji 2022-06-30.
Ilość Liczba Ilość każdego elementu Liczba zmiennoprzecinkowa dwuprzecinkowa
Cena Liczba Pojedyncza cena każdej jednostki przedmiotów Liczba zmiennoprzecinkowa dwuprzecinkowa
Cena_łączna Liczba Łączna cena elementu wiersza Liczba zmiennoprzecinkowa dwuprzecinkowa

W przypadku obsługiwanych pól wyodrębniania dokumentów zapoznaj się ze stroną schematu modelu paragonów w naszym przykładowym repozytorium GitHub.

Przewodnik migracji i interfejs API REST w wersji 3.1

  • Postępuj zgodnie z naszym przewodnikiem migracji do analizy dokumentów w wersji 3.1, aby dowiedzieć się, jak używać wersji 3.1 w aplikacjach i przepływach pracy.

Następne kroki