Пользовательские модели аналитики документов

Статья
02/29/2024

Внимание

Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
Восточная часть США
Западная часть США2
Западная Европа

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:v3.1 (GA)v3.0 (GA)v2.1 (GA)

Это содержимое относится к:v3.1 (GA)Последняя версия:v4.0 (предварительная версия) | | Предыдущие версии:v3.0версии 2.1

Это содержимое относится к:v3.0 (GA) | Последние версии:v4.0 (предварительная версия)3.1 | Предыдущая версия:v2.1

Это содержимое относится к:v2.1 Последняя версия:v4.0 (предварительная версия) |

Аналитика документов использует расширенную технологию машинного обучения для идентификации документов, обнаружения и извлечения информации из форм и документов и возврата извлеченных данных в структурированных выходных данных JSON. С помощью аналитики документов можно использовать модели анализа документов, предварительно созданные или предварительно обученные или обученные автономные пользовательские модели.

Теперь пользовательские модели включают пользовательские модели классификации для сценариев, где необходимо определить тип документа перед вызовом модели извлечения. Модели классификатора доступны начиная с 2023-07-31 (GA) API. Модель классификации можно связать с пользовательской моделью извлечения для анализа и извлечения полей из форм и документов, относящихся к вашей организации, для создания решения для обработки документов. Автономные пользовательские модели извлечения можно объединить для создания составных моделей.

Типы пользовательских моделей документов

Пользовательские модели документов могут быть одним из двух типов, пользовательского шаблона или пользовательской формы и пользовательских нейронных или пользовательских моделей документов. Процесс создания меток и обучения для обеих моделей идентичен, однако эти модели различаются следующим образом:

Пользовательские модели извлечения

Чтобы создать пользовательскую модель извлечения, наклейте набор данных документов со значениями, которые требуется извлечь и обучить модель в помеченном наборе данных. Для начала работы вам потребуется всего пять примеров формы или документа одного типа.

Пользовательская нейронная модель

Внимание

Начиная с версии 4.0 — 2024-02-29-preview API, пользовательские нейронные модели теперь поддерживают перекрывающиеся поля и таблицы, достоверность на уровне строк и ячеек.

Настраиваемая нейронная модель (модель пользовательского документа) использует модели глубокого обучения и базовую модель, обученную большой коллекцией документов. Затем эта модель подстраивается или адаптируется к данным при обучении модели с помощью набора данных с метками. Настраиваемые нейронные модели поддерживают структурированные, частично структурированные и неструктурированные документы для извлечения полей. Сейчас настраиваемые нейронные модели поддерживают документы на английском языке. При выборе между двумя типами моделей начинайте с нейронной модели, чтобы определить, соответствует ли она вашим требованиям к функциональности. Дополнительные сведения о моделях пользовательских документов см. в описании нейронных моделей.

Пользовательская модель шаблона

Модель настраиваемого шаблона или настраиваемой формы полагается на единообразный визуальный шаблон для извлечения помеченных данных. Дисперсии в визуальной структуре документов влияют на точность модели. Примерами единообразных визуальных шаблонов являются такие структурированные формы, как вопросники или приложения.

Набор обучения состоит из структурированных документов, в которых форматирование и макет являются статическими и константными из одного экземпляра документа в следующий. Модели настраиваемого шаблона поддерживают пары "ключ-значение", метки выделения, таблицы, поля подписи и регионы. Модели шаблона можно обучить на документах, составленных на любом из поддерживаемых языков. Дополнительные сведения см. в описаниимоделей настраиваемого шаблона.

Если язык документов и сценариев извлечения поддерживает пользовательские нейронные модели, рекомендуется использовать пользовательские нейронные модели для моделей шаблонов для повышения точности.

Совет

Чтобы убедиться, что в документах для обучения имеется единообразный визуальный шаблон, удалите все введенные пользователем данные из каждой формы в наборе. Если внешний вид пустых форм идентичен, они представляют единообразный визуальный шаблон.

Дополнительные сведения см. в разделеИнтерпретация и повышение точности и достоверности для настраиваемых моделей.

Требования к входным данным

Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

Поддерживаемые форматы файлов:

Модель	PDF	Изображение: jpeg/jpg, png, bmp, tiff, heif	Microsoft Office: Word (docx), Excel (xlsx), PowerPoint (pptx)
Читать	✔	✔	✔
Макет	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview и более поздних версий)
Документ общего назначения	✔	✔
Готовое	✔	✔
Настраиваемая функция извлечения	✔	✔
Настраиваемая классификация	✔	✔	✔

✱ Файлы Microsoft Office сейчас не поддерживаются в других моделях или версиях.

Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).
Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ бесплатного уровня (F0).
Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту около 8точки в 150 точек на дюйм.
Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.
Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.
Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1GB не более 10 000 страниц.

Режим создания

Операция пользовательской модели сборки добавляет поддержку шаблона и нейронных пользовательских моделей . Предыдущие версии REST API и клиентских библиотек поддерживают только один режим сборки, который теперь называется режимом шаблона .

Модели шаблонов принимают только документы с одинаковой базовой структурой страницы — единообразным внешним видом — или одинаковым относительным расположением элементов в документе.
Нейронные модели поддерживают документы с одинаковыми сведениями, но разной структурой страниц. Примеры этих документов включают США формы W2, которые используют одну и ту же информацию, но различаются по внешнему виду в разных компаниях. Сейчас нейронные модели поддерживают только текст на английском языке.

В этой таблице приведены справочники по SDK и примеры кода на GitHub для языка программирования, используемого для режима создания:

Язык программирования	Справочник по SDK	Пример кода
C#/.NET	Структура DocumentBuildMode	Sample_BuildCustomModelAsync.cs
Java	Класс DocumentBuildMode	BuildModel.java
JavaScript	Тип DocumentBuildMode	buildModel.js
Python	Перечисление DocumentBuildMode	sample_build_model.py

Сравнение функций моделей

В следующей таблице сравниваются пользовательские функции шаблона и пользовательские нейронные функции:

Функция	Модель настраиваемого шаблона (настраиваемой формы)	Настраиваемая нейронная модель (пользовательский документ)
Структура документа	Шаблон, форма и структурированные	Структурированные, частично структурированные и неструктурированные
Время обучения	1–5 минут	От 20 минут до 1 часа
Извлечение данных	Пары "ключ-значение", таблицы, метки выделения, координаты и подписи	Пары "ключ-значение", метки выделения и таблицы
Перекрывающиеся поля	Не поддерживается	Поддерживается
Варианты документа	Требуется модель для каждого варианта	Используется одну модель для всех вариантов
Поддержка языков	Поддержка нескольких языков	Английский, с поддержкой предварительной версии для поддержки испанского, французского, немецкого, итальянского и голландского языков

Пользовательская модель классификации

Классификация документов — это новый сценарий, поддерживаемый аналитикой документов с 2023-07-31 ПОМОЩЬЮ API (версии 3.1 GA). API классификатора документов поддерживает сценарии классификации и разделения. Обучите модель классификации, чтобы определить различные типы документов, поддерживаемых приложением. Входной файл для модели классификации может содержать несколько документов и классифицирует каждый документ в соответствующем диапазоне страниц. Дополнительные сведения см. в разделе"Пользовательские модели классификации ".

Примечание.

Начиная с 2024-02-29-preview классификации документов версии API теперь поддерживает типы документов Office для классификации. Эта версия API также содержит добавочное обучение для модели классификации.

Средства настраиваемой модели

Модели Аналитики документов версии 3.1 и более поздних версий поддерживают следующие средства, приложения и библиотеки, программы и библиотеки:

Функция	Ресурсы	Model ID
Настраиваемая модель	• Аналитика документов • REST API • ПАКЕТ SDK для C# • Пакет SDK для Python	custom-model-id

Аналитика документов версии 2.1 поддерживает следующие средства, приложения и библиотеки:

Примечание.

Пользовательские типы моделей, настраиваемые нейронные и настраиваемые шаблоны доступны в API аналитики документов версии 3.1 и версии 3.0.

Функция	Ресурсы
Настраиваемая модель	• Средство аналитики документов • REST API • пакет SDK для клиентской библиотеки• Контейнер Docker аналитики документов

Создание настраиваемой модели

Извлеките данные из конкретных или уникальных документов с помощью пользовательских моделей. Вам потребуются следующие ресурсы:

Подписка Azure. Вы можете создать бесплатную учетную запись.
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Пример средства создания меток

Совет

Для повышения качества и расширенного качества модели попробуйте в Студии аналитики документов версии 3.0.
Студия версии 3.0 поддерживает любую модель, обученную с помощью маркированных данных версии 2.1.
Подробные сведения о переходе с версии 2.1 на версию 3.0 см. в руководстве по миграции API.
Чтобы приступить к работе с версией 3.0, ознакомьтесь с нашими краткими руководствами по пакетам SDK для REST API или C#, Java, JavaScript или Python.

Средство создания меток для аналитики документов — это средство открытый код, которое позволяет протестировать новейшие функции аналитики документов и оптического распознавания символов (OCR).
Краткое руководство по созданию и использованию пользовательской модели см. в кратком руководстве по созданию примера меток.

Document Intelligence Studio

Примечание.

Document Intelligence Studio доступен с API версии 3.1 и версии 3.0.

На домашней странице Document Intelligence Studio выберите пользовательские модели извлечения.
В разделе Мои проекты выберите Создать проект.
Заполните поля сведений о проекте.
Настройте ресурс службы, добавив Учетную запись хранения и Контейнер BLOB-объектов в Connect your training data source (Подключение источника данных для обучения).
Проверьте и создайте проект.
Добавьте примеры документов в метку, сборку и тестирование пользовательской модели.

Попробуйте использовать Document Intelligence Studio

Подробное пошаговое руководство по созданию первой пользовательской модели извлечения см. в статье"Создание пользовательской модели извлечения".

Сводка по извлечению пользовательских моделей

В этой таблице сравниваются поддерживаемые области извлечения данных:

Модель	Поля формы	Метки выделения	Структурированные поля (таблицы)	Подпись	Метки регионов	Перекрывающиеся поля
Пользовательский шаблон	✔	✔	✔	✔	✔	Недоступно
Настраиваемая нейронная модель	✔	✔	✔	Недоступно	*	✔ (2024-02-29-preview)

Символы таблицы:
✔ — поддерживается
**n/a— в настоящее время недоступно;
*-Ведет себя по-разному в зависимости от модели. При использовании моделей шаблонов искусственные данные создаются во время обучения. При использовании нейронных моделей выбран выход из текста, распознанного в регионе.

Совет

При выборе между двумя типами моделей начинайте с настраиваемой нейронной модели, если она соответствует вашим требованиям к функциональности. Дополнительные сведения о настраиваемых нейронных моделях см. в соответствующем описании.

Параметры разработки настраиваемых моделей

В следующей таблице описываются функции, доступные с соответствующими инструментами и клиентскими библиотеками. Рекомендуется использовать перечисленные здесь совместимые средства.

Document type	REST API	SDK	Создание меток и тестирование моделей
Пользовательский шаблон версии 4.0 v3.1 v3.0	Аналитика документов 3.1	Пакет SDK для аналитики документов	Document Intelligence Studio
Пользовательская нейронная версия 4.0 v3.1 v3.0	Аналитика документов 3.1	Пакет SDK для аналитики документов	Document Intelligence Studio
Пользовательская форма версии 2.1	API аналитики документов 2.1	Пакет SDK для аналитики документов	Средство маркировки данных

Примечание.

Модели настраиваемого шаблона, обученные с помощью API 3.0, будут иметь несколько улучшений по сравнению с выделением корней в API 2.1, что связано с улучшениями в модуле OCR. Наборы данных, используемые для обучения модели настраиваемого шаблона с помощью API 2.1, по-прежнему можно использовать для обучения новой модели с помощью API 3.0.

Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.
Поддерживаемые форматы файлов: JPEG/JPG, PNG, BMP, TIFF и PDF (внедренный или отсканированный текст). PDF-файлы с внедренным текстом позволяют исключить возможность ошибки при извлечении и расположении символов.
Для файлов PDF и TIFF можно обработать до 2000 страниц. Для подписки уровня "Бесплатный" обрабатываются только две первые страницы.
Размер файла должен быть меньше 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
Размер страницы PDF-файла не должен превышать 17 x 17 дюймов, что соответствует размеру листа Legal или A3.
Общий размер набора данных для обучения не должен превышать 500 страниц.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Совет

Обучающие данные.
- По возможности используйте текстовые документы PDF вместо документов на основе изображений. Отсканированные PDF-файлы обрабатываются как изображения.
- Укажите только один экземпляр формы для каждого документа.
- При использовании заполненных форм убедитесь, что в примере заполнены все поля.
- Используйте формы с разными значениями в каждом поле.
- Если изображения форм имеют низкое качество, используйте более крупный набор данных. Например, используйте от 10 до 15 изображений.

Поддерживаемые языки и языковые стандарты

Ознакомьтесь со страницей поддержки языка — пользовательские модели для полного списка поддерживаемых языков.

Следующие шаги

Попробуйте обработать собственные формы и документы с помощью средства проверки меток для аналитики документов.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.

Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.

Пользовательские модели аналитики документов

Типы пользовательских моделей документов

Пользовательские модели извлечения

Пользовательская нейронная модель

Пользовательская модель шаблона

Требования к входным данным

Режим создания

Сравнение функций моделей

Пользовательская модель классификации

Средства настраиваемой модели

Создание настраиваемой модели

Пример средства создания меток

Document Intelligence Studio

Сводка по извлечению пользовательских моделей

Параметры разработки настраиваемых моделей

Поддерживаемые языки и языковые стандарты

Следующие шаги

Дополнительные ресурсы