Возможности надстройки аналитики документов

Внимание

  • Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
  • Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
  • Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
  • Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
  • Восточная часть США
  • Западная часть США2
  • Западная Европа

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:синий проверка markфлажокv3.1 (GA)

Это содержимое относится к:v3.1 (GA) | Latest versionфиолетовый проверка mark:флажокv4.0 (предварительная версия)

Примечание.

Возможности надстройки доступны во всех моделях, кроме модели бизнес-карта.

Аналитика документов поддерживает более сложные и модульные возможности анализа. Используйте функции надстройки, чтобы расширить результаты, чтобы включить дополнительные функции, извлеченные из документов. Некоторые функции надстройки требуют дополнительных затрат. Эти необязательные функции можно включить и отключить в зависимости от сценария извлечения документов. Чтобы включить функцию, добавьте связанное имя функции в features свойство строки запроса. Вы можете включить несколько функций надстройки по запросу, предоставив разделенный запятыми список функций. Следующие возможности надстройки доступны для 2023-07-31 (GA) и более поздних выпусков.

Примечание.

Не все возможности надстройки поддерживаются всеми моделями. Дополнительные сведения см. в статьеоб извлечении данных модели.

Для и 2024-02-29-previewболее поздних выпусков доступны2024-02-29-preview следующие возможности надстройки:

Примечание.

Реализация полей запроса в API предварительной версии 2023-10-30 отличается от последнего предварительного выпуска. Новая реализация является менее дорогой и хорошо работает с структурированными документами.

Возможность надстройки Надстройка или бесплатная 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Извлечение свойств шрифта Надстройка ✔️ ✔️ Недоступно Недоступно
Извлечение формул Надстройка ✔️ ✔️ Недоступно Недоступно
Извлечение высокого разрешения Надстройка ✔️ ✔️ Недоступно Недоступно
Извлечение штрихкодов Бесплатно ✔️ ✔️ Недоступно Недоступно
Распознавание языка Бесплатно ✔️ ✔️ Недоступно Недоступно
Пары "ключ — значение" Бесплатно ✔️ Недоступно н/д Недоступно
Поля запроса Надстройка* ✔️ Недоступно н/д Недоступно

Надстройка* — поля запросов отличаются от других функций надстройки. Подробные сведения см. в разделе Цены.

Извлечение высокого разрешения

Задача распознавания небольшого текста из документов большого размера, таких как инженерные рисунки, является проблемой. Часто текст смешан с другими графическими элементами и имеет различные шрифты, размеры и ориентации. Кроме того, текст можно разбить на отдельные части или подключиться к другим символам. Аналитика документов теперь поддерживает извлечение содержимого из этих типов документов с ocr.highResolution возможностью. Вы получаете улучшенное качество извлечения содержимого из документов A1/A2/A3, включив эту возможность надстройки.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Извлечение формул

Возможность ocr.formula извлекает все определенные формулы, такие как математические уравнения, в коллекции как formulas объект верхнего уровня в разделе content. Внутри contentобнаруженные формулы представлены как :formula:. Каждая запись в этой коллекции представляет формулу, которая включает тип формулы как inline или display, а также его представление LaTeX, как value и его polygon координаты. Изначально формулы отображаются в конце каждой страницы.

Примечание.

Оценка confidence жестко закодирована.

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Извлечение свойств шрифта

Функция ocr.font извлекает все свойства шрифта текста, извлеченного в коллекции, styles как объект верхнего уровня в разделе content. Каждый объект стиля задает одно свойство шрифта, диапазон текста, к нему применяется и соответствующая оценка достоверности. Существующее свойство стиля расширяется с большим количеством свойств шрифта, таких как similarFontFamily шрифт текста, fontStyle для стилей, таких как курсив и обычный, полужирный или обычныйcolor, fontWeight для цвета текста и backgroundColor цвета ограничивающего текста поля.

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Извлечение свойств Штрихкода

Функция ocr.barcode извлекает все определенные штрихкоды в barcodes коллекции как объект верхнего уровня в разделе content. Внутри , обнаруженные contentштрихкоды представлены как :barcode:. Каждая запись в этой коллекции представляет штрихкод и включает тип штрихкода как kind и внедренное содержимое штрихкода, как value и его polygon координаты. Изначально штрихкоды отображаются в конце каждой страницы. Жестко confidence закодирован для 1.

Поддерживаемые типы штрихкодов

Тип штрихкода Пример
QR Code Снимок экрана: QR-код.
Code 39 Снимок экрана: код 39.
Code 93 Снимок экрана: код 93.
Code 128 Снимок экрана: код 128.
UPC (UPC-A & UPC-E) Снимок экрана: КОД JSON.
PDF417 Снимок экрана: PDF417.
EAN-8 Снимок экрана: штрихкод европейского номера статьи ean-8.
EAN-13 Снимок экрана: штрихкод европейского номера статьи ean-13.
Codabar Снимок экрана: Codabar.
Databar Снимок экрана: панель данных.
Databar Расширена Снимок экрана: развернутая панель данных.
ITF Снимок экрана: чередование двух из пяти штрихкодов (ITF).
Data Matrix Снимок экрана: матрица данных.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Распознавание языка

languages Добавление функции в analyzeResult запрос прогнозирует обнаруженный первичный язык для каждой текстовой строки вместе с confidence коллекцией в languages разделе analyzeResult.

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Пары "Ключ-значение"

В более ранних версиях API предварительно созданная модель документа извлекла пары "ключ-значение" из форм и документов. При добавлении функции к предварительно созданному макету модель макета keyValuePairs теперь выдает те же результаты.

Пары "ключ-значение" — это отдельные фрагменты внутри документа, которые определяют метку или ключ и связанный с ними ответ или значение. В структурированной форме эти пары могут быть меткой и значением, которое пользователь указал для данного поля. В неструктурированном документе они могут быть датой подписания договора на основании текста в абзаце. Модель искусственного интеллекта предназначена для извлечения идентифицируемых ключей и значений на основе широкого спектра типов документов, форматов и структур.

Ключи также могут существовать в изоляции, когда модель обнаруживает, что ключ существует, но с ним не связано ни одно значение, или при обработке необязательных полей. Например, поле промежуточного имени можно оставить пустым в форме в некоторых экземплярах. Пары "ключ-значение" всегда представляют собой фрагменты текста, содержащиеся в документе. Для документов, в которых одно и то же значение описано разными способами, например клиент или пользователь, связанный ключ является клиентом или пользователем (в зависимости от контекста).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Поля запроса

Поля запросов — это возможность расширения схемы, извлеченной из любой предварительно созданной модели, или определения определенного имени ключа при переменной имени ключа. Чтобы использовать поля запроса, задайте функции queryFields и укажите список имен полей с разделием запятыми в свойстве queryFields .

  • Аналитика документов теперь поддерживает извлечение полей запросов. При извлечении поля запроса можно добавлять поля в процесс извлечения с помощью запроса без необходимости в добавленном обучении.

  • Используйте поля запроса, если необходимо расширить схему предварительно созданной или пользовательской модели или извлечь несколько полей с выходными данными макета.

  • Поля запросов — это возможность надстройки уровня "Премиум". Для получения наилучших результатов определите поля, которые требуется извлечь с помощью имен полей верблюдьего регистра или Pascal для имен полей с несколькими словами.

  • Поля запросов поддерживают не более 20 полей на запрос. Если документ содержит значение для поля, возвращается поле и значение.

  • Этот выпуск имеет новую реализацию возможностей полей запроса, которая имеет более низкую цену, чем более ранняя реализация, и должна быть проверена.

Примечание.

Извлечение поля запросов Document Intelligence Studio в настоящее время доступно с ПОМОЩЬЮ API макетов и предварительно созданных моделей 2024-02-29-preview2023-10-31-preview и более поздних выпусков, кроме US tax моделей (W2, 1098s и 1099s).

Извлечение поля запроса

Для извлечения полей запроса укажите поля, которые необходимо извлечь, и аналитика документов анализирует документ соответствующим образом. Приведем пример:

  • Если вы обрабатываете контракт в Студии аналитики документов, используйте 2024-02-29-preview2023-10-31-preview следующие версии:

    Снимок экрана: кнопка полей запроса в Document Intelligence Studio.

  • Вы можете передать список меток полей, например Party1, Party2, TermsOfUse, PaymentTermsи PaymentDateTermEndDate как часть analyze document запроса.

    Снимок экрана: окно выбора полей запроса в Document Intelligence Studio.

  • Аналитика документов может анализировать и извлекать данные поля и возвращать значения в структурированных выходных данных JSON.

  • В дополнение к полям запроса ответ включает текст, таблицы, метки выделения и другие соответствующие данные.

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Следующие шаги

Дополнительные сведения: чтение модели макета модели

Примеры пакета SDK: Python