Возможности надстройки аналитики документов

Статья
05/06/2024

Внимание

Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
Восточная часть США
Западная часть США2
Западная Европа

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:v3.1 (GA)

Это содержимое относится к:v3.1 (GA) | Latest version:v4.0 (предварительная версия)

Примечание.

Возможности надстройки доступны во всех моделях, кроме модели бизнес-карта.

Возможности

Аналитика документов поддерживает более сложные и модульные возможности анализа. Используйте функции надстройки, чтобы расширить результаты, чтобы включить дополнительные функции, извлеченные из документов. Некоторые функции надстройки требуют дополнительных затрат. Эти необязательные функции можно включить и отключить в зависимости от сценария извлечения документов. Чтобы включить функцию, добавьте связанное имя функции в features свойство строки запроса. Вы можете включить несколько функций надстройки по запросу, предоставив разделенный запятыми список функций. Следующие возможности надстройки доступны для 2023-07-31 (GA) и более поздних выпусков.

ocrHighResolution
formulas
styleFont
barcodes
languages

Примечание.

Не все возможности надстройки поддерживаются всеми моделями. Дополнительные сведения см. в статьеоб извлечении данных модели.

Для и 2024-02-29-previewболее поздних выпусков доступны2024-02-29-preview следующие возможности надстройки:

keyValuePairs
queryFields

Примечание.

Реализация полей запроса в API предварительной версии 2023-10-30 отличается от последнего предварительного выпуска. Новая реализация является менее дорогой и хорошо работает с структурированными документами.

Доступность версий

Возможность надстройки	Надстройка или бесплатная	2024-02-29-preview	`2023-07-31` (GA)	`2022-08-31` (GA)	v2.1 (GA)
Извлечение свойств шрифта	Надстройка	✔️	✔️	Недоступно	Недоступно
Извлечение формул	Надстройка	✔️	✔️	Недоступно	Недоступно
Извлечение высокого разрешения	Надстройка	✔️	✔️	Недоступно	Недоступно
Извлечение штрихкодов	Бесплатно	✔️	✔️	Недоступно	Недоступно
Распознавание языка	Бесплатно	✔️	✔️	Недоступно	Недоступно
Пары "ключ — значение"	Бесплатно	✔️	Недоступно	н/д	Недоступно
Поля запроса	Надстройка*	✔️	Недоступно	н/д	Недоступно

✱ Надстройка — поля запросов отличаются от других функций надстройки. Подробные сведения см. в разделе Цены.

Поддерживаемые типы файлов

PDF
Изображения: JPEG/JPG, , BMP, TIFFPNGHEIF

✱ Файлы Microsoft Office в настоящее время не поддерживаются.

Извлечение высокого разрешения

Задача распознавания небольшого текста из документов большого размера, таких как инженерные рисунки, является проблемой. Часто текст смешан с другими графическими элементами и имеет различные шрифты, размеры и ориентации. Кроме того, текст можно разбить на отдельные части или подключиться к другим символам. Аналитика документов теперь поддерживает извлечение содержимого из этих типов документов с ocr.highResolution возможностью. Вы получаете улучшенное качество извлечения содержимого из документов A1/A2/A3, включив эту возможность надстройки.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Извлечение формул

Возможность ocr.formula извлекает все определенные формулы, такие как математические уравнения, в коллекции как formulas объект верхнего уровня в разделе content. Внутри contentобнаруженные формулы представлены как :formula:. Каждая запись в этой коллекции представляет формулу, которая включает тип формулы как inline или display, а также его представление LaTeX, как value и его polygon координаты. Изначально формулы отображаются в конце каждой страницы.

Примечание.

Оценка confidence жестко закодирована.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Извлечение свойств шрифта

Функция ocr.font извлекает все свойства шрифта текста, извлеченного в коллекции, styles как объект верхнего уровня в разделе content. Каждый объект стиля задает одно свойство шрифта, диапазон текста, к нему применяется и соответствующая оценка достоверности. Существующее свойство стиля расширяется с большим количеством свойств шрифта, таких как similarFontFamily шрифт текста, fontStyle для стилей, таких как курсив и обычный, полужирный или обычныйcolor, fontWeight для цвета текста и backgroundColor цвета ограничивающего текста поля.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont

  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Извлечение свойств Штрихкода

Функция ocr.barcode извлекает все определенные штрихкоды в barcodes коллекции как объект верхнего уровня в разделе content. Внутри , обнаруженные contentштрихкоды представлены как :barcode:. Каждая запись в этой коллекции представляет штрихкод и включает тип штрихкода как kind и внедренное содержимое штрихкода, как value и его polygon координаты. Изначально штрихкоды отображаются в конце каждой страницы. Жестко confidence закодирован для 1.

Поддерживаемые типы штрихкодов

Тип штрихкода	Пример
`QR Code`
`Code 39`
`Code 93`
`Code 128`
`UPC (UPC-A & UPC-E)`
`PDF417`
`EAN-8`
`EAN-13`
`Codabar`
`Databar`
`Databar` Расширена
`ITF`
`Data Matrix`

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Распознавание языка

languages Добавление функции в analyzeResult запрос прогнозирует обнаруженный первичный язык для каждой текстовой строки вместе с confidence коллекцией в languages разделе analyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages

{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Пары "Ключ-значение"

В более ранних версиях API предварительно созданная модель документа извлекла пары "ключ-значение" из форм и документов. При добавлении функции к предварительно созданному макету модель макета keyValuePairs теперь выдает те же результаты.

Пары "ключ-значение" — это отдельные фрагменты внутри документа, которые определяют метку или ключ и связанный с ними ответ или значение. В структурированной форме эти пары могут быть меткой и значением, которое пользователь указал для данного поля. В неструктурированном документе они могут быть датой подписания договора на основании текста в абзаце. Модель искусственного интеллекта предназначена для извлечения идентифицируемых ключей и значений на основе широкого спектра типов документов, форматов и структур.

Ключи также могут существовать в изоляции, когда модель обнаруживает, что ключ существует, но с ним не связано ни одно значение, или при обработке необязательных полей. Например, поле промежуточного имени можно оставить пустым в форме в некоторых экземплярах. Пары "ключ-значение" всегда представляют собой фрагменты текста, содержащиеся в документе. Для документов, в которых одно и то же значение описано разными способами, например клиент или пользователь, связанный ключ является клиентом или пользователем (в зависимости от контекста).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Поля запроса

Поля запросов — это возможность расширения схемы, извлеченной из любой предварительно созданной модели, или определения определенного имени ключа при переменной имени ключа. Чтобы использовать поля запроса, задайте функции queryFields и укажите список имен полей с разделием запятыми в свойстве queryFields .

Аналитика документов теперь поддерживает извлечение полей запросов. При извлечении поля запроса можно добавлять поля в процесс извлечения с помощью запроса без необходимости в добавленном обучении.
Используйте поля запроса, если необходимо расширить схему предварительно созданной или пользовательской модели или извлечь несколько полей с выходными данными макета.
Поля запросов — это возможность надстройки уровня "Премиум". Для получения наилучших результатов определите поля, которые требуется извлечь с помощью имен полей верблюдьего регистра или Pascal для имен полей с несколькими словами.
Поля запросов поддерживают не более 20 полей на запрос. Если документ содержит значение для поля, возвращается поле и значение.
Этот выпуск имеет новую реализацию возможностей полей запроса, которая имеет более низкую цену, чем более ранняя реализация, и должна быть проверена.

Примечание.

Извлечение поля запросов Document Intelligence Studio в настоящее время доступно с ПОМОЩЬЮ API макетов и предварительно созданных моделей 2024-02-29-preview2023-10-31-preview и более поздних выпусков, кроме US tax моделей (W2, 1098s и 1099s).

Извлечение поля запроса

Для извлечения полей запроса укажите поля, которые необходимо извлечь, и аналитика документов анализирует документ соответствующим образом. Приведем пример:

Если вы обрабатываете контракт в Студии аналитики документов, используйте 2024-02-29-preview2023-10-31-preview следующие версии:
Вы можете передать список меток полей, например Party1, Party2, TermsOfUse, PaymentTermsи PaymentDateTermEndDate как часть analyze document запроса.
Аналитика документов может анализировать и извлекать данные поля и возвращать значения в структурированных выходных данных JSON.
В дополнение к полям запроса ответ включает текст, таблицы, метки выделения и другие соответствующие данные.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Следующие шаги

Дополнительные сведения: чтение модели макета модели

Примеры пакета SDK: Python

Share via

Возможности надстройки аналитики документов

Возможности

Доступность версий

Поддерживаемые типы файлов

Извлечение высокого разрешения

REST API

Извлечение формул

REST API

Извлечение свойств шрифта

REST API

Извлечение свойств Штрихкода

Поддерживаемые типы штрихкодов

REST API

Распознавание языка

REST API

Пары "Ключ-значение"

REST API

Поля запроса

Извлечение поля запроса

REST API

Следующие шаги

Дополнительные ресурсы