Model kontraktu analizy dokumentów

Artykuł
10/17/2024

Ważne

Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview.
Publiczna wersja zapoznawcza 2024-07-31-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure. Należy pamiętać, że niestandardowy model generowania (wyodrębniania pól dokumentów) w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:
- Wschodnie stany USA
- Zachodnie stany USA 2
- Europa Zachodnia
- Północno-środkowe stany USA

Ta zawartość dotyczy: wersja 4.0 (wersja zapoznawcza) | Poprzednia wersja: wersja 3.1 (GA)

Ta zawartość dotyczy: wersja 3.1 (GA) | Najnowsza wersja: wersja 4.0 (wersja zapoznawcza)

Model kontraktu analizy dokumentów używa zaawansowanych funkcji optycznego rozpoznawania znaków (OCR) do analizowania i wyodrębniania kluczowych pól i elementów liniowych z wybranej grupy ważnych jednostek kontraktu. Kontrakty mogą mieć różne formaty i jakość, w tym obrazy przechwycone przez telefon, zeskanowane dokumenty i cyfrowe pliki PDF. Interfejs API analizuje tekst dokumentu; wyodrębnia kluczowe informacje, takie jak Strony, Jurysdykcje, Identyfikator umowy i Tytuł; funkcja zwraca ustrukturyzowaną reprezentację danych JSON. Model obsługuje obecnie formaty dokumentów w języku angielskim.

Automatyczne przetwarzanie kontraktów

Automatyczne przetwarzanie kontraktów to proces wyodrębniania pól kontraktu klucza z dokumentów. W przeszłości proces analizy kontraktu jest osiągany ręcznie i dlatego bardzo czasochłonny. Dokładne wyodrębnianie kluczowych danych z kontraktów jest zazwyczaj pierwszym i jednym z najważniejszych kroków w procesie automatyzacji kontraktu.

Opcje programowania

Analiza dokumentów w wersji 4.0 (2024-07-31-preview) obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Model ID
Model kontraktu	• Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK	wstępnie utworzony kontrakt

Narzędzie Document Intelligence w wersji 3.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Model ID
Model kontraktu	• Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK	wstępnie utworzony kontrakt

Narzędzie Document Intelligence w wersji 3.0 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja	Zasoby	Model ID
Model kontraktu	• Document Intelligence Studio • REST API • C# SDK • Python SDK• Java SDK • JavaScript SDK	wstępnie utworzony kontrakt

Wymagania dotyczące danych wejściowych

Obsługiwane formaty plików:

Model	PDF	Obraz: `JPEG/JPG`, , `BMPPNG`, , `TIFFHEIF`	Microsoft Office: Word (), Excel (`XLSXDOCX`), PowerPoint (`PPTX`), HTML
Przeczytaj	✔	✔	✔
Układ	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Dokument ogólny	✔	✔
Wstępnie utworzona	✔	✔
Niestandardowe wyodrębnianie	✔	✔
Klasyfikacja niestandardowa	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).
Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).
Wymiary obrazu muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada tekstowi 8 punktowemu na 150 kropek na cal (DPI).
W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
- W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1 GB dla modelu neuronowego.
- W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1 GB z maksymalnie 10 000 stron. W przypadku wersji 2024-07-31-preview i nowszych łączny rozmiar danych treningowych wynosi 2 GB z maksymalnie 10 000 stron.

Wypróbowanie wyodrębniania danych dokumentu kontraktu

Zobacz, jak dane, w tym informacje o kliencie, szczegóły dostawcy i elementy wiersza, są wyodrębniane z kontraktów. Potrzebne są następujące zasoby:

Subskrypcja platformy Azure — możesz utworzyć jedną bezpłatnie.
Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

Document Intelligence Studio

Na stronie głównej Document Intelligence Studio wybierz pozycję Dokumenty podatkowe.
Możesz przeanalizować przykładowe dokumenty podatkowe lub przekazać własne pliki.
Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:

Wypróbuj narzędzie Document Intelligence Studio

Obsługiwane języki i ustawienia regionalne

Aby uzyskać pełną listę obsługiwanych języków, zobacz naszą stronę Obsługa języków — wstępnie utworzone modele .

Wyodrębnianie pól

W przypadku obsługiwanych pól wyodrębniania dokumentów zapoznaj się ze stroną schematu modelu kontraktu w naszym przykładowym repozytorium GitHub.
Pary klucz-wartość kontraktu i wyodrębnione elementy wiersza znajdują się w documentResults sekcji danych wyjściowych JSON.

Następne kroki

Spróbuj przetwarzać własne formularze i dokumenty za pomocą programu Document Intelligence Studio.
Ukończ przewodnik Szybki start dotyczący analizy dokumentów i rozpocznij tworzenie aplikacji do przetwarzania dokumentów w wybranym języku programowania.

Udostępnij za pośrednictwem