Пользовательская нейронная модель аналитики документов

Статья
03/08/2024

Внимание

Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
Восточная часть США
Западная часть США2
Западная Европа

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:v3.1 (GA)v3.0 (GA)

Это содержимое относится к:v3.1 (GA) | Последняя версия:v4.0 (предварительная версия) | Предыдущие версии:v3.0

Это содержимое относится к:v3.0 (GA) | Latest versions:v4.0 (preview)v3.1

Пользовательские модели нейронных документов или нейронные модели — это тип модели глубокого обучения, который объединяет функции макета и языка для точного извлечения помеченных полей из документов. Базовая настраиваемая нейронная модель обучена на различных типах документов, которые позволяют обучены для извлечения полей из структурированных, полуструктурированных и неструктурированных документов. Пользовательские нейронные модели доступны в моделях версии 3.0 и более поздних моделей . В таблице ниже перечислены распространенные типы документов для каждой категории:

Документы	Примеры
структурированные	Опросы, анкеты
частично структурированные	Счета, заказы на покупку
Неструктурировано	Контракты, письма

Пользовательские нейронные модели используют те же формат меток и стратегию, что и модели пользовательских шаблонов. В настоящее время пользовательские нейронные модели поддерживают только подмножество типов полей, поддерживаемых пользовательскими моделями шаблонов.

Возможности модели

Внимание

Начиная с версии 2024-02-29-preview API пользовательские нейронные модели добавляют поддержку перекрывающихся полей и достоверности ячеек таблицы.

Пользовательские нейронные модели в настоящее время поддерживают только пары "ключ-значение" и метки выбора и структурированные поля (таблицы), будущие выпуски включают поддержку подписей.

Поля формы	Метки выделения	Табличные поля	Подпись	Область/регион	Перекрывающиеся поля
Поддерживается	Поддерживаемые	Поддерживается	Не поддерживается	Поддерживается ¹	Поддерживается ²

¹ Метки регионов в пользовательских нейронных моделях используют результаты из API макета для указанного региона. Эта функция отличается от моделей шаблонов, в которых при отсутствии значения текст создается во время обучения. ² Перекрывающиеся поля поддерживаются начиная с версии 2024-02-29-previewREST API. Перекрывающиеся поля имеют некоторые ограничения. Дополнительные сведения см. в перекрывающихся полях.

Режим создания

Операция пользовательской модели сборки поддерживает шаблон и нейронные пользовательские модели. Предыдущие версии REST API и клиентских библиотек поддерживают только один режим сборки, который теперь называется режимом шаблона .

Нейронные модели поддерживают документы с одинаковыми сведениями, но разной структурой страниц. Примеры этих документов включают США формы W2, которые имеют одинаковую информацию, но могут различаться в разных компаниях. Дополнительные сведения см. в разделе"Режим сборки пользовательской модели".

Поддерживаемые языки и языковые стандарты

Ознакомьтесь со страницей поддержки языка — пользовательские модели для полного списка поддерживаемых языков.

Перекрывающиеся поля

В выпуске API версии 2024-02-29-preview и более поздних версий пользовательские нейронные модели будут поддерживать перекрывающиеся поля:

Чтобы использовать перекрывающиеся поля, набор данных должен содержать по крайней мере один пример с ожидаемым перекрытием. Чтобы пометить перекрытие, используйте метку регионов для обозначения каждого диапазона содержимого (с перекрытием) для каждого поля. Метка перекрытия с выделением поля (выделение значения) завершится сбоем в студии, так как метка регионов является единственным поддерживаемым средством маркировки для указания перекрывающихся полей. Поддержка перекрытия включает:

Полное перекрытие. Один и тот же набор маркеров помечен для двух разных полей.
Частичное перекрытие. Некоторые маркеры относятся к обоим полям, но есть маркеры, которые являются только частью одного поля или другого.

Перекрывающиеся поля имеют некоторые ограничения:

Любой маркер или слово можно пометить только как два поля.
Перекрывающиеся поля в таблице не могут охватывать строки таблицы.
Перекрывающиеся поля можно распознать только в том случае, если хотя бы один пример в наборе данных содержит перекрывающиеся метки для этих полей.

Чтобы использовать перекрывающиеся поля, пометьте набор данных с перекрывающимися данными и обучите модель версией 2024-02-29-preview API или более поздней.

Табличные поля добавляют доверие к таблицам, строкам и ячейкам

В выпуске API версии 2022-06-30-preview и более поздних пользовательские нейронные модели будут поддерживать табличные поля (таблицы):

Модели, обученные с помощью API версии 2022-08-31 или более поздней, будут принимать метки табличных полей.
Документы, проанализированные с помощью пользовательских нейронных моделей с использованием API версии 2022-06-30-preview или более поздней, будут создавать табличные поля, агрегированные по таблицам.
Результаты можно найти в массиве documents объекта analyzeResult, который возвращается после операции анализа.

Табличные поля поддерживают межстраничные таблицы по умолчанию:

Чтобы пометить таблицу, охватывающую несколько страниц, пометьте каждую строку таблицы на разных страницах в одной таблице.
Рекомендуется убедиться, что набор данных содержит несколько примеров ожидаемых вариантов. Например, включите образцы, в которых вся таблица находится на одной странице, и в которых таблицы занимают две или более страниц.

Табличные поля также полезны при извлечении повторяющихся данных в документе, который не распознается как таблица. Например, повторяющийся раздел об опыте работы в резюме можно пометить и извлечь как табличное поле.

Табличные поля предоставляют доверие к таблицам, строкам и ячейкам 2024-02-29-preview , начиная с API:

Исправленные или динамические таблицы добавляют поддержку достоверности для следующих элементов:
- Достоверность таблицы— мера точного распознавания всей таблицы.
- Достоверность строк— мера распознавания отдельной строки.
- Достоверность ячеек— мера распознавания отдельной ячейки.
Рекомендуемый подход — проверить точность в начале таблицы, а затем строку, а затем ячейку.

Ознакомьтесь с оценками достоверности и точности, чтобы узнать больше о таблице, строке и достоверности ячеек.

Поддерживаемые регионы

По состоянию на 18 октября 2022 г. обучение пользовательской нейронной модели аналитики документов будет доступно только в следующих регионах Azure до дальнейшего уведомления:

Восточная Австралия
Южная Бразилия
Центральная Канада
Центральная Индия
Центральная часть США
Восточная Азия
Восточная часть США
восточная часть США 2
Центральная Франция
Восточная Япония
Центрально-южная часть США
Юго-Восточная Азия
южная часть Соединенного Королевства
Западная Европа
западная часть США 2
US Gov (Аризона)
US Gov (Вирджиния)

Совет

Вы можете скопировать модель , обученную в одном из регионов выбора, перечисленных в любом другом регионе , и использовать ее соответствующим образом.

Используйте REST API или Document Intelligence Studio для копирования модели в другой регион.

Совет

Используйте REST API или Document Intelligence Studio для копирования модели в другой регион.

Совет

Используйте REST API или Document Intelligence Studio для копирования модели в другой регион.

Требования к входным данным

Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

Поддерживаемые форматы файлов:

Модель	PDF	Изображение: jpeg/jpg, png, bmp, tiff, heif	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx) и HTML
Читать	✔	✔	✔
Макет	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview или более поздней версии)
Документ общего назначения	✔	✔
Готовое	✔	✔
Настраиваемая нейронная модель	✔	✔

✱ Файлы Microsoft Office сейчас не поддерживаются в других моделях или версиях.

Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).
Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ бесплатного уровня (F0).
Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту около 8точки в 150 точек на дюйм.
Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.
Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.
Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1GB не более 10 000 страниц.

Текущие ограничения

Пользовательская нейронная модель не распознает значения, разделенные по границам страницы.
Пользовательские неподдерживаемые типы полей игнорируются, если набор данных, помеченный для пользовательских моделей шаблонов, используется для обучения пользовательской нейронной модели.
Пользовательские нейронные модели ограничены 20 операциями сборки в месяц. Если нужно увеличить этот лимит, отправьте запрос в службу поддержки. Дополнительные сведения см. в разделе "Квоты и ограничения службы аналитики документов".

Обучение модели

Пользовательские нейронные модели доступны в моделях версии 3.0 и более поздних версий.

Тип документа	REST API	SDK	Создание меток и тестирование моделей
Пользовательский документ	Аналитика документов 3.1	Пакет SDK для аналитики документов	Document Intelligence Studio

Операция сборки для обучения модели поддерживает новое свойство buildMode. Чтобы выполнить обучение пользовательской нейронной модели, присвойте свойству buildMode значение neural.

https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-02-29-preview

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels:build?api-version=v3.1:2023-07-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

https://{endpoint}/formrecognizer/documentModels/{modelId}:copyTo?api-version=2022-08-31

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Следующие шаги

Создание и объединение настраиваемых моделей:

Создание пользовательской моделиCompose настраиваемых моделей

Пользовательская нейронная модель аналитики документов

Возможности модели

Режим создания

Поддерживаемые языки и языковые стандарты

Перекрывающиеся поля

Табличные поля добавляют доверие к таблицам, строкам и ячейкам

Поддерживаемые регионы

Требования к входным данным

Рекомендации

Работа с вариантами

Именование полей

Добавление меток для смежных значений

Репрезентативные данные

Текущие ограничения

Обучение модели

Следующие шаги

Дополнительные ресурсы