Udostępnij za pośrednictwem


Możliwości dodatku analizy dokumentów

Ważne

  • Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane. Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
  • Publiczna wersja zapoznawcza bibliotek klienckich analizy dokumentów jest domyślna dla interfejsu API REST w wersji 2024-07-31-preview.
  • Publiczna wersja zapoznawcza 2024-07-31-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure. Należy pamiętać, że niestandardowy model generowania (wyodrębniania pól dokumentów) w programie AI Studio jest dostępny tylko w regionie Północno-środkowe stany USA:
    • Wschodnie stany USA
    • Zachodnie stany USA 2
    • Europa Zachodnia
    • Północno-środkowe stany USA

Ta zawartość dotyczy: Znacznik wersja 4.0 (wersja zapoznawcza) | Poprzednie wersje: niebieski znacznik wyboru wersja 3.1 (ogólna dostępność)

Ta zawartość dotyczy: wersja 3.1 (GA) | Najnowsza wersja:purpurowy znacznik wyboru Znacznik wersja 4.0 (wersja zapoznawcza)

Uwaga

Funkcje dodatków są dostępne we wszystkich modelach z wyjątkiem modelu wizytówek.

Możliwości

Analiza dokumentów obsługuje bardziej zaawansowane i modułowe możliwości analizy. Użyj funkcji dodatku, aby rozszerzyć wyniki, aby uwzględnić więcej funkcji wyodrębnionych z dokumentów. Niektóre funkcje dodatków generują dodatkowe koszty. Te opcjonalne funkcje można włączyć i wyłączyć w zależności od scenariusza wyodrębniania dokumentów. Aby włączyć funkcję, dodaj skojarzona nazwa funkcji do features właściwości ciągu zapytania. Możesz włączyć więcej niż jedną funkcję dodatku na żądanie, podając rozdzielaną przecinkami listę funkcji. Następujące funkcje dodatku są dostępne dla 2023-07-31 (GA) wersji i nowszych.

W przypadku 2024-07-31-preview wersji i nowszych model odczytu obsługuje przeszukiwalne dane wyjściowe PDF:

Uwaga

  • Nie wszystkie funkcje dodatku są obsługiwane przez wszystkie modele. Aby uzyskać więcej informacji, zobacz wyodrębnianie danych modelu.

  • Możliwości dodatków nie są obecnie obsługiwane w przypadku typów plików pakietu Microsoft Office.

Analiza dokumentów obsługuje opcjonalne funkcje, które można włączyć i wyłączyć w zależności od scenariusza wyodrębniania dokumentów. Następujące funkcje dodatku są dostępne dla 2023-10-31-previewwersji i nowszych:

Uwaga

Implementacja pól zapytania w interfejsie API 2023-10-30-preview różni się od ostatniej wersji zapoznawczej. Nowa implementacja jest tańsza i dobrze współpracuje ze ustrukturyzowanymi dokumentami.

Dostępność wersji

Możliwość dodawania Dodatek/wersja bezpłatna 2024-02-29-preview 2023-07-31 (ogólna dostępność) 2022-08-31 (ogólna dostępność) Wersja 2.1 (ogólna dostępność)
Wyodrębnianie właściwości czcionki Dodatek ✔️ ✔️ nie dotyczy nie dotyczy
Wyodrębnianie formuł Dodatek ✔️ ✔️ nie dotyczy nie dotyczy
Wyodrębnianie o wysokiej rozdzielczości Dodatek ✔️ ✔️ nie dotyczy nie dotyczy
Wyodrębnianie kodów kreskowych Bezpłatna ✔️ ✔️ nie dotyczy nie dotyczy
Wykrywanie języka Bezpłatna ✔️ ✔️ nie dotyczy nie dotyczy
Pary klucz-wartość Bezpłatna ✔️ nie dotyczy nie dotyczy nie dotyczy
Pola zapytania Dodatek* ✔️ nie dotyczy nie dotyczy nie dotyczy

✱ Dodatek — pola zapytania są wyceniane inaczej niż inne funkcje dodatku. Aby uzyskać szczegółowe informacje, zobacz cennik .

Obsługiwane formaty plików

  • PDF

  • Obrazy: JPEG/JPG, , BMPPNG, , TIFFHEIF

✱ Pliki pakietu Microsoft Office nie są obecnie obsługiwane.

Wyodrębnianie o wysokiej rozdzielczości

Zadanie rozpoznawania małego tekstu z dużych dokumentów, takich jak rysunki inżynieryjne, jest wyzwaniem. Często tekst jest mieszany z innymi elementami graficznymi i ma różne czcionki, rozmiary i orientacje. Ponadto tekst można podzielić na oddzielne części lub połączyć się z innymi symbolami. Analiza dokumentów obsługuje teraz wyodrębnianie zawartości z tych typów dokumentów z ocr.highResolution możliwością. Ulepszono jakość wyodrębniania zawartości z dokumentów A1/A2/A3, włączając tę funkcję dodatku.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Wyodrębnianie formuł

Funkcja ocr.formula wyodrębnia wszystkie zidentyfikowane formuły, takie jak równania matematyczne, w formulas kolekcji jako obiekt najwyższego poziomu w obszarze content. Wewnątrz contentfunkcji wykryte formuły są reprezentowane jako :formula:. Każdy wpis w tej kolekcji reprezentuje formułę zawierającą typ formuły jako inline lub display, a jej reprezentację LaTeX wraz value ze polygon współrzędnymi. Początkowo formuły są wyświetlane na końcu każdej strony.

Uwaga

Wynik confidence jest zakodowany na twardo.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Wyodrębnianie właściwości czcionki

Funkcja ocr.font wyodrębnia wszystkie właściwości czcionki tekstu wyodrębnionego w styles kolekcji jako obiekt najwyższego poziomu w obszarze content. Każdy obiekt stylu określa pojedynczą właściwość czcionki, zakres tekstu, do których ma zastosowanie, oraz odpowiadający mu współczynnik ufności. Istniejąca właściwość stylu jest rozszerzona o więcej właściwości czcionki, takich jak czcionka tekstu, fontStyle style, takie jak similarFontFamily kursywa i normalna, fontWeight dla pogrubienia lub normalnego, color kolor tekstu i backgroundColor kolor pola ograniczenia tekstu.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Wyodrębnianie właściwości kodu kreskowego

Funkcja ocr.barcode wyodrębnia wszystkie zidentyfikowane kody kreskowe w barcodes kolekcji jako obiekt najwyższego poziomu w obszarze content. W obiekcie contentwykryte kody kreskowe są reprezentowane jako :barcode:. Każdy wpis w tej kolekcji reprezentuje kod kreskowy i zawiera typ kodu kreskowego jako kind i osadzoną zawartość kodu kreskowego wraz value ze polygon współrzędnymi. Początkowo kody kreskowe są wyświetlane na końcu każdej strony. Element confidence jest zakodowany jako 1.

Obsługiwane typy kodów kreskowych

Typ kodu kreskowego Przykład
QR Code Zrzut ekranu przedstawiający kod QR.
Code 39 Zrzut ekranu przedstawiający kod 39.
Code 93 Zrzut ekranu przedstawiający kod 93.
Code 128 Zrzut ekranu przedstawiający kod 128.
UPC (UPC-A & UPC-E) Zrzut ekranu przedstawiający upC.
PDF417 Zrzut ekranu przedstawiający plik PDF417.
EAN-8 Zrzut ekranu przedstawiający kod kreskowy z numerem europejskiego artykułu ean-8.
EAN-13 Zrzut ekranu przedstawiający kod kreskowy z numerem europejskiego artykułu ean-13.
Codabar Zrzut ekranu przedstawiający codabar.
Databar Zrzut ekranu przedstawiający pasek danych.
Databar Rozszerzony Zrzut ekranu przedstawiający rozwinięty pasek danych.
ITF Zrzut ekranu przedstawiający przeplatane dwa z pięciu kodów kreskowych (ITF).
Data Matrix Zrzut ekranu przedstawiający macierz danych.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Wykrywanie języka

languages Dodanie funkcji do analyzeResult żądania przewiduje wykryty język podstawowy dla każdego wiersza tekstu wraz z elementem confidence w kolekcji w languages obszarze analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Plik PDF z możliwością wyszukiwania

Możliwość przeszukiwania plików PDF umożliwia konwertowanie analogowych plików PDF, takich jak pliki PDF zeskanowanych obrazów, do formatu PDF z osadzonym tekstem. Osadzony tekst umożliwia wyszukiwanie tekstu głębokiego w wyodrębnionej zawartości pliku PDF przez zastąpienie wykrytych jednostek tekstowych na podstawie plików obrazów.

Ważne

  • Obecnie możliwość przeszukiwania plików PDF jest obsługiwana tylko przez model prebuilt-readOCR odczytu. W przypadku korzystania z tej funkcji określ modelId parametr jako prebuilt-read, ponieważ inne typy modeli będą zwracać błąd dla tej wersji zapoznawczej.
  • Plik PDF z możliwością wyszukiwania jest dołączony do modelu 2024-07-31-preview prebuilt-read bez kosztów użycia ogólnego użycia plików PDF.

Korzystanie z pliku PDF z możliwością wyszukiwania

Aby użyć pliku PDF z możliwością wyszukiwania, utwórz POST żądanie przy użyciu Analyze operacji i określ format danych wyjściowych jako pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Po zakończeniu Analyze operacji utwórz GET żądanie pobrania Analyze wyników operacji.

Po pomyślnym zakończeniu plik PDF można pobrać i pobrać jako application/pdf. Ta operacja umożliwia bezpośrednie pobieranie osadzonej formy tekstu PDF zamiast kodu JSON zakodowanego w formacie Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Pary klucz-wartość

We wcześniejszych wersjach prebuilt-document interfejsu API model wyodrębnił pary klucz-wartość z formularzy i dokumentów. Po dodaniu funkcji do wstępnie utworzonego keyValuePairs układu model układu generuje teraz te same wyniki.

Pary klucz-wartość są określonymi zakresami w dokumencie, które identyfikują etykietę lub klucz i powiązaną z nią odpowiedź lub wartość. W formularzu ustrukturyzowanym te pary mogą być etykietą i wartością wprowadzoną przez użytkownika dla tego pola. W dokumencie bez struktury mogą one być datą wykonania umowy na podstawie tekstu w akapicie. Model sztucznej inteligencji jest trenowany w celu wyodrębniania możliwych do zidentyfikowania kluczy i wartości w oparciu o szeroką gamę typów dokumentów, formatów i struktur.

Klucze mogą również istnieć w izolacji, gdy model wykryje, że klucz istnieje, bez skojarzonej wartości lub podczas przetwarzania pól opcjonalnych. Na przykład pole nazwy środkowej może być puste w formularzu w niektórych przypadkach. Pary klucz-wartość to zakresy tekstu zawartego w dokumencie. W przypadku dokumentów, w których ta sama wartość jest opisana na różne sposoby, na przykład klient/użytkownik, skojarzony klucz jest klientem lub użytkownikiem (na podstawie kontekstu).

Interfejs API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Pola zapytania

Pola zapytań to możliwość rozszerzenia schematu wyodrębnionego z dowolnego wstępnie utworzonego modelu lub zdefiniowania określonej nazwy klucza, gdy nazwa klucza jest zmienna. Aby użyć pól zapytania, ustaw funkcje na queryFields i podaj rozdzielaną przecinkami listę nazw pól we queryFields właściwości .

  • Analiza dokumentów obsługuje teraz wyodrębnianie pól zapytań. Wyodrębnianie pól zapytania umożliwia dodawanie pól do procesu wyodrębniania przy użyciu żądania zapytania bez konieczności dodawania trenowania.

  • Użyj pól zapytania, gdy musisz rozszerzyć schemat wstępnie utworzonego lub niestandardowego modelu lub wyodrębnić kilka pól z danymi wyjściowymi układu.

  • Pola zapytań to funkcja dodatku w warstwie Premium. Aby uzyskać najlepsze wyniki, zdefiniuj pola, które chcesz wyodrębnić przy użyciu wielkości liter wielbłądu lub nazw pól wielkości liter Pascal dla nazw pól wielo wyrazów.

  • Pola zapytania obsługują maksymalnie 20 pól na żądanie. Jeśli dokument zawiera wartość pola, zwracane jest pole i wartość.

  • Ta wersja ma nową implementację możliwości pól zapytań, która jest wyceniona poniżej wcześniejszej implementacji i powinna zostać zweryfikowana.

Uwaga

Wyodrębnianie pól zapytań programu Document Intelligence Studio jest obecnie dostępne w interfejsie API układów i wstępnie utworzonych modeli 2024-02-29-preview 2023-10-31-preview oraz nowszych wersjach z wyjątkiem US tax modeli W2, 1098 i 1099s.

Wyodrębnianie pól zapytania

W przypadku wyodrębniania pól zapytania określ pola, które chcesz wyodrębnić, a analiza dokumentów analizuje odpowiednio dokument. Oto przykład:

  • Jeśli przetwarzasz kontrakt w programie Document Intelligence Studio, użyj wersji 2024-02-29-preview lub 2023-10-31-preview :

    Zrzut ekranu przedstawiający przycisk pól zapytania w narzędziu Document Intelligence Studio.

  • Możesz przekazać listę etykiet pól, takich jak Party1, Party2, TermsOfUse, PaymentTerms, PaymentDatei TermEndDate w ramach analyze document żądania.

    Zrzut ekranu przedstawiający okno wyboru pól zapytania w programie Document Intelligence Studio.

  • Analiza dokumentów umożliwia analizowanie i wyodrębnianie danych pól oraz zwracanie wartości w danych wyjściowych JSON ze strukturą.

  • Oprócz pól zapytania odpowiedź zawiera tekst, tabele, znaczniki wyboru i inne istotne dane.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Następne kroki

Dowiedz się więcej: Odczyt modelu Układu modelu

Przykłady zestawu SDK: python

Znajdź więcej przykładów: możliwości dodatków

Znajdź więcej przykładów: możliwości dodatków