Wyodrębnianie pól dokumentów — niestandardowy model AI generowania
Ważne
- Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
- Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview i jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure.
- Wschodnie stany USA
- Północno-środkowe stany USA
Model wyodrębniania pól dokumentów (niestandardowego generowania sztucznej inteligencji) wykorzystuje generowanie sztucznej inteligencji do wyodrębniania pól określonych przez użytkownika z dokumentów w wielu różnych szablonach wizualnych. Niestandardowy model generowania sztucznej inteligencji łączy możliwości interpretacji dokumentów z dużymi modelami językowymi (LLMs) oraz rygorem i schematem z niestandardowych możliwości wyodrębniania w celu utworzenia modelu o wysokiej dokładności w ciągu kilku minut. Za pomocą tego typu modelu generowania można rozpocząć od jednego dokumentu i przejść przez proces dodawania schematu i tworzenia modelu z minimalnym etykietowaniem. Niestandardowy model generowania umożliwia deweloperom i przedsiębiorstwom łatwe automatyzowanie przepływów pracy wyodrębniania danych z większą dokładnością i szybkością dla dowolnego typu dokumentu. Niestandardowy model generowania sztucznej inteligencji wyróżnia się w wyodrębnieniu prostych pól z dokumentów bez oznaczonych etykietami przykładów. Jednak udostępnienie kilku oznaczonych etykietami próbek zwiększa dokładność wyodrębniania dla złożonych pól i pól zdefiniowanych przez użytkownika, takich jak tabele. Za pomocą interfejsu API REST lub bibliotek klienckich można przesłać dokument do analizy za pomocą kompilacji modelu i użyć niestandardowego procesu generowania.
Niestandardowe korzyści z generowania modelu sztucznej inteligencji
Automatyczne etykietowanie. Korzystanie z dużych modeli językowych (LLM) i wyodrębnianie pól określonych przez użytkownika dla różnych typów dokumentów i szablonów wizualizacji.
Ulepszona uogólnienie. Wyodrębnij dane z danych bez struktury i różne szablony dokumentów o wyższej dokładności.
Uziemione wyniki. Lokalizowanie danych wyodrębnionych w dokumentach. Niestandardowe modele generowania uziemiły wyniki w stosownych przypadkach, zapewniając generowanie odpowiedzi na podstawie zawartości i włączanie przepływów pracy przeglądu przez człowieka.
Wyniki ufności. Użyj współczynników ufności dla każdego wyodrębnionego pola, aby filtrować wyodrębnione dane o wysokiej jakości, maksymalizuj je bezpośrednio przez przetwarzanie dokumentów i minimalizuj koszty przeglądu przez człowieka.
Typowe przypadki użycia
Zarządzanie cyklem życia kontraktu. Utwórz model generowania i wyodrębnij pola, klauzule i zobowiązania z szerokiej gamy typów kontraktów.
Pożyczki i wnioski hipoteczne. Automatyzacja procesu składania pożyczek i kredytów hipotecznych umożliwia bankom, kredytodawcom i podmiotom rządowymi szybkie przetwarzanie pożyczek i wniosków hipotecznych.
Usługi finansowe. Za pomocą niestandardowego modelu sztucznej inteligencji można analizować złożone dokumenty, takie jak raporty finansowe i raporty zarządzania zasobami.
Zarządzanie wydatkami. W celu zweryfikowania wydatków należy przeanalizować wpływy i faktury od różnych sprzedawców detalicznych i firm. Niestandardowy model generowania sztucznej inteligencji może wyodrębnić wydatki w różnych formatach i dokumentach z różnymi szablonami.
Zarządzanie zestawem danych szkoleniowych
W przypadku innych modeli niestandardowych należy zachować zestaw danych, dodać nowe przykłady i wytrenować model pod kątem ulepszeń dokładności. W przypadku niestandardowego modelu generowania sztucznej inteligencji dokumenty oznaczone etykietami są przekształcane, szyfrowane i przechowywane w ramach modelu. Ten proces gwarantuje, że model może stale używać oznaczonych próbek, aby poprawić jakość wyodrębniania. Podobnie jak w przypadku innych modeli niestandardowych, modele są przechowywane w magazynie firmy Microsoft i można je usunąć w dowolnym momencie.
Usługa analizy dokumentów zarządza zestawami danych, ale dokumenty są przechowywane jako zaszyfrowane i używane tylko do ulepszania wyników modelu dla określonego modelu. Klucz zarządzany przez usługę może służyć do szyfrowania danych lub można go opcjonalnie zaszyfrować przy użyciu klucza zarządzanego przez klienta. Zmiana zarządzania i cyklu życia zestawu danych dotyczy tylko niestandardowych modeli generowania.
Możliwości modelu
Niestandardowy model generowania pól obsługuje obecnie tabelę dynamiczną z następującymi 2024-07-31-preview
polami:
Pola formularza | Znaczniki zaznaczenia | Pola tabelaryczne | Podpis | Etykietowanie regionów | Nakładające się pola |
---|---|---|---|---|---|
Obsługiwane | Obsługiwane | Obsługiwane | Nieobsługiwane | Nieobsługiwane | Obsługiwane |
Tryb kompilacji
Operacja build custom model
obsługuje niestandardowe szablony, neuronowe i generowanie modeli. ZobaczTryb kompilacji modelu niestandardowego. Poniżej przedstawiono różnice w typach modeli:
Niestandardowe modele generowania sztucznej inteligencji mogą przetwarzać złożone dokumenty w różnych formatach, różnych szablonach i danych bez struktury.
Niestandardowe modele neuronowe obsługują złożone przetwarzanie dokumentów, a także obsługują większą wariancję na stronach dla dokumentów ustrukturyzowanych i częściowo ustrukturyzowanych.
Niestandardowe modele szablonów opierają się na spójnych szablonach wizualnych, takich jak kwestionariusze lub aplikacje, aby wyodrębnić oznaczone dane.
Obsługa języków i ustawień regionalnych
Wersja niestandardowego modelu 2024-07-31-preview
generowania pól obsługuje ustawienia regionalne en-us . Aby uzyskać więcej informacji na temat obsługi języka, zobacz Obsługa języka — modele niestandardowe.
Obsługa regionów
Wersja niestandardowego modelu 2024-07-31-preview
generowania pól jest dostępna tylko w regionach "Wschodnie stany USA" i North Central US
.
Wymagania dotyczące danych wejściowych
Obsługiwane formaty plików:
Model PDF Obraz: JPEG/JPG
, ,BMP
PNG
, ,TIFF
HEIF
Microsoft Office:
Word (), Excel (XLSX
DOCX
), PowerPoint (PPTX
), HTMLPrzeczytaj ✔ ✔ ✔ Układ ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Dokument ogólny ✔ ✔ Wstępnie utworzona ✔ ✔ Niestandardowe wyodrębnianie ✔ ✔ Klasyfikacja niestandardowa ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.
W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji warstwy Bezpłatna przetwarzane są tylko pierwsze dwie strony).
Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i
4
MB za bezpłatną (F0).Wymiary obrazu muszą mieć od 50 pikseli x 50 pikseli do 10 000 pikseli x 10 000 pikseli.
Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.
Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada tekstowi
8
punktowemu na 150 kropek na cal (DPI).W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.
W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i
1
GB dla modelu neuronowego.W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi
1
GB z maksymalnie 10 000 stron. W przypadku wersji 2024-07-31-preview i nowszych łączny rozmiar danych treningowych wynosi2
GB z maksymalnie 10 000 stron.
Najlepsze rozwiązania
Reprezentatywne dane. Użyj reprezentatywnych dokumentów przeznaczonych dla rzeczywistego rozkładu danych i wytrenuj niestandardowy model generowania o wysokiej jakości. Jeśli na przykład dokument docelowy zawiera częściowo wypełnione pola tabelaryczne, dodaj dokumenty szkoleniowe składające się z częściowo wypełnionych tabel. Lub jeśli pole ma nazwę date, wartości dla tego pola powinny być datą, ponieważ losowe ciągi mogą mieć wpływ na wydajność modelu.
Nazewnictwo pól. Wybierz dokładną nazwę pola reprezentującą wartości pól. Na przykład w przypadku wartości pola zawierającej datę transakcji rozważ nadanie nazwy pole TransactionDate zamiast
Date1
.Opis pola. Podaj więcej informacji kontekstowych w opisie, aby ułatwić wyjaśnienie pola, które należy wyodrębnić. Przykłady obejmują lokalizację w dokumencie, potencjalne etykiety pól, z którymi można skojarzyć, oraz sposoby rozróżniania innych terminów, które mogą być niejednoznaczne.
Odmiana. Niestandardowe modele generowania mogą uogólniać różne szablony dokumentów tego samego typu dokumentu. Najlepszym rozwiązaniem jest utworzenie pojedynczego modelu dla wszystkich odmian typu dokumentu. Aby zwiększyć dokładność i spójność modelu w generowaniu lub przetwarzaniu dokumentów, dołącz szablon wizualizacji dla każdego typu, szczególnie te wymagające określonego formatowania i/lub elementów strukturalnych.
Wskazówki dotyczące usługi
Niestandardowy model generowania w wersji zapoznawczej nie obsługuje obecnie stałego wyodrębniania tabel i podpisów.
Wnioskowanie na tym samym dokumencie może przynieść nieco inne wyniki między wywołaniami i jest znanym ograniczeniem bieżących
GPT
modeli.Wyniki ufności dla każdego pola mogą się różnić. Zalecamy przetestowanie danych reprezentatywnych w celu ustalenia progów ufności dla danego scenariusza.
Uziemienia, zwłaszcza w przypadku pól tabelarycznych, jest trudne i może nie być idealne w niektórych przypadkach.
Opóźnienie dużych dokumentów jest wysokie i znane ograniczenie w wersji zapoznawczej.
Modele złożone nie obsługują niestandardowego wyodrębniania generowania.
Trenowanie modelu
Niestandardowe modele generowania są dostępne w 2024-07-31-preview
wersji i nowszych modelach.
Aby build operation
wytrenować model, obsługuje buildMode
właściwość , aby wytrenować niestandardowy model generowania, ustaw wartość buildMode
generative
.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "generative",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Następne kroki
- Dowiedz się, jak tworzyć niestandardowe modele generowania
- Dowiedz się więcej o modelach niestandardowych