Поделиться через


Аналитика документов, состоящие из пользовательских моделей

Внимание

  • Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке. Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
  • Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует REST API версии 2024-07-31-preview.
  • Общедоступная предварительная версия 2024-07-31-preview в настоящее время доступна только в следующих регионах Azure. Обратите внимание, что пользовательская модель создания (извлечение полей документов) в AI Studio доступна только в регионе "Северная часть США":
    • Восточная часть США
    • Западная часть США2
    • Западная Европа
    • Северная часть США

Это содержимое относится к: версии 4.0 (предварительная версия) | Предыдущие версии: флажоксиняя галочка версия 3.1 (GA) версии 3.0 (GA) синяя галочка версии 2.1 (GA) синяя галочка

Это содержимое относится к: версия 3.1 (GA) | Последняя версия: фиолетовый флажокфлажок версия 4.0 (предварительная версия) | Предыдущие версии: синяя галочка версии 3.0синяя галочка версии 2.1

Это содержимое относится к: версия 3.0 (GA) | Последние версии: флажок фиолетовый флажок v4.0 (предварительная версия) фиолетовый флажок версии 3.1 | Предыдущая версия: синяя галочка версия 2.1

Это содержимое относится к: версия 2.1 Последняя версия: флажоксиняя галочка версия 4.0 (предварительная версия) |

Внимание

Поведение model compose операции изменяется с api-version=2024-07-31-preview. Операция model compose версии 4.0 и более поздних версий добавляет явно обученный классификатор вместо неявного классификатора для анализа. Предыдущая версия модели компонуется в разделе "Составные пользовательские модели" версии 3.1. Если вы используете в настоящее время составные модели, рассмотрите возможность обновления до последней реализации.

Что такое составная модель?

С помощью составных моделей можно сгруппировать несколько пользовательских моделей в составную модель с одним идентификатором модели. Например, составная модель может содержать настраиваемые модели, обученные для анализа заказов на покупку материалов, оборудования и мебели. Вместо того чтобы вручную выбирать нужную модель, можно использовать составную модель, чтобы определять соответствующую настраиваемую модель для каждой операции анализа и извлечения.

Для некоторых сценариев необходимо сначала классифицировать документ, а затем анализировать документ с помощью модели, лучше всего подходит для извлечения полей из модели. Такие сценарии могут включать такие сценарии, когда пользователь отправляет документ, но тип документа не известен явным образом. Другой сценарий может быть, если несколько документов сканируются вместе в один файл и файл отправляется для обработки. Затем приложение должно определить документы компонентов и выбрать лучшую модель для каждого документа.

В предыдущих версиях операция выполнила неявную классификацию, model compose чтобы решить, какая пользовательская модель лучше всего представляет отправленный документ. Реализация 2024-07-31-preview model compose операции заменяет неявную классификацию из предыдущих версий явным шагом классификации и добавляет условную маршрутизацию.

Преимущества операции создания новой модели

Новая model compose операция требует обучения явного классификатора и предоставляет несколько преимуществ.

  • Постоянное добавочное улучшение. Вы можете последовательно улучшить качество классификатора, добавив дополнительные примеры и постепенно повышая классификацию. Такая настройка гарантирует, что документы всегда направляются в нужную модель для извлечения.

  • Полный контроль над маршрутизацией. Добавляя маршрутизацию на основе доверия, вы предоставляете порог доверия для типа документа и ответа на классификацию.

  • Игнорировать определенные типы документов во время операции. Предыдущие model compose реализации операции выбрали лучшую модель анализа для извлечения на основе оценки достоверности, даже если самые высокие оценки достоверности были относительно низкими. Предоставляя порог доверия или явно не сопоставляя известный тип документа из классификации с моделью извлечения, можно игнорировать определенные типы документов.

  • Анализ нескольких экземпляров одного типа документа. При паре с splitMode параметром классификатора model compose операция может обнаружить несколько экземпляров одного документа в файле и разделить файл для обработки каждого документа независимо. Использование splitMode позволяет обрабатывать несколько экземпляров документа в одном запросе.

  • Поддержка добавления функций. Также можно указать функции , такие как поля запроса или штрихкоды, как часть параметров модели анализа.

  • Назначенная настраиваемая модель максимально расширена до 500. Новая реализация model compose операции позволяет назначать до 500 обученных пользовательских моделей одной составной модели.

Использование создания модели

  • Начните с сбора образцов всех необходимых документов, включая примеры с информацией, которая должна быть извлечена или проигнорирована.

  • Обучите классификатор, упорядочив документы в папках, в которых имена папок являются типом документа, который вы планируете использовать в определении модели.

  • Наконец, обучить модель извлечения для каждого из типов документов, которые вы планируете использовать.

  • После обучения моделей классификации и извлечения используйте Document Intelligence Studio, клиентские библиотеки или REST API для создания моделей классификации и извлечения в составную модель.

splitMode Используйте параметр для управления поведением разделения файлов:

  • Нет. Весь файл рассматривается как один документ.
  • perPage. Каждая страница в файле рассматривается как отдельный документ.
  • auto. Файл автоматически разбивается на документы.

Выставление счетов и ценообразование

Выставление счетов за составные модели совпадает с отдельными пользовательскими моделями. Цены основаны на количестве страниц, проанализированных нижестоящей моделью анализа. Выставление счетов основано на цене извлечения страниц, перенаправленных в модель извлечения. При добавлении явных расходов на классификацию всех страниц в входном файле взимается плата за явную классификацию. Дополнительные сведения см. на странице цен на аналитику документов.

Использование создания модели

  • Сначала создайте список всех идентификаторов модели, которые вы хотите создать в одну модель.

  • Создайте модели в один идентификатор модели с помощью Студии, REST API или клиентских библиотек.

  • Используйте идентификатор составной модели для анализа документов.

Выставление счетов

Выставление счетов за составные модели совпадает с отдельными пользовательскими моделями. Цены основаны на количестве страниц, проанализированных. Выставление счетов основано на цене извлечения страниц, перенаправленных в модель извлечения. Дополнительные сведения см. на странице цен на аналитику документов.

  • Нет изменений в ценах на анализ документа с помощью отдельной пользовательской модели или созданной пользовательской модели.

Функции составных моделей

  • Custom template модели custom neural можно объединить в одну составную модель в нескольких версиях API.

  • Ответ содержит docType свойство, указывающее, какие из составных моделей использовались для анализа документа.

  • Для custom template моделей можно создать созданную модель с помощью вариантов пользовательского шаблона или различных типов форм. Эта операция полезна, если входящие формы принадлежат одному из нескольких шаблонов.

  • Для моделей custom neural рекомендуется добавить все различные варианты одного типа документа в один набор обучающих данных и обучить пользовательскую нейронную модель. Эта model compose операция лучше всего подходит для сценариев при отправке документов различных типов для анализа.

Ограничения при объединении моделей

  • model compose С помощью операции можно назначить до 500 моделей одному идентификатору модели. Если количество моделей, которые я хочу создать, превышает верхний предел составной модели, можно использовать один из следующих вариантов:

  • Анализ документа с помощью составных моделей идентичен анализу документа с помощью одной модели. Результат Analyze Document возвращает docType свойство, указывающее, какие из моделей компонентов, выбранных для анализа документа.

  • В model compose настоящее время операция доступна только для пользовательских моделей, обученных с помощью меток.

Совместимость составных моделей

Тип настраиваемой модели Модели, обученные с помощью версии 2.1 и версии 2.0 Пользовательские модели шаблонов и нейронных моделей версии 3.1 и версии 3.0 Предварительная версия пользовательских шаблонов и нейронных моделей версии 4.0 Предварительная версия пользовательских моделей создания версии 4.0
Модели, обученные с использованием версии 2.1 и версии 2.0 Не поддерживается Не поддерживается Не поддерживается Не поддерживается
Пользовательские модели шаблонов и нейронных моделей версии 3.0 и версии 3.1 Не поддерживается Поддерживается Поддерживается Не поддерживается
Предварительная версия пользовательских шаблонов и нейронных моделей версии 4.0 Не поддерживается Поддерживается Поддерживается Не поддерживается
Предварительная версия пользовательских формовых моделей версии 4.0 Не поддерживается Не поддерживается Не поддерживается Не поддерживается
  • Чтобы объединить модель, обученную с использованием предыдущей версии API (версия 2.1 или более ранняя), обучите модель с помощью API версии 3.0, используя тот же набор данных с меткой. Это дополнение гарантирует, что модель версии 2.1 может быть составлена с другими моделями.

  • При использовании моделей, состоящих из API версии 2.1, по-прежнему поддерживается, не требуя обновлений.

Варианты разработки

Аналитика документов версии 4.0:2024-07-31-preview поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы
Пользовательская модель Аналитика
документов• REST API
• пакет SDK для C#
пакет SDK java• пакет SDK javaScript
пакет SDK
для Python
Составная модель Аналитика
документов• REST API
• пакет SDK для C#
пакет SDK java• пакет SDK javaScript
пакет SDK
для Python

Аналитика документов версии 3.1:2023-07-31 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы
Пользовательская модель Аналитика
документов• REST API
• пакет SDK для C#
пакет SDK java• пакет SDK javaScript
пакет SDK
для Python
Составная модель Аналитика
документов• REST API
• пакет SDK для C#
пакет SDK java• пакет SDK javaScript
пакет SDK
для Python

Аналитика документов версии 3.0:2022-08-31 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы
Пользовательская модель Аналитика
документов• REST API
• пакет SDK для C#
пакет SDK java• пакет SDK javaScript
пакет SDK
для Python
Составная модель Аналитика
документов• REST API
• пакет SDK для C#
пакет SDK java• пакет SDK javaScript
пакет SDK
для Python

Аналитика документов версии 2.1 поддерживает следующие ресурсы:

Функция Ресурсы
Пользовательская модель Средство
аналитики документов • REST API
• пакет SDK
для клиентской библиотеки• Контейнер Docker аналитики документов
Составная модель Средство
аналитики документов • REST API
ПАКЕТ SDK для C#
Пакет SDK
java• Пакет SDK javaScript• Пакет SDK
для Python

Следующие шаги

Создание и объединение настраиваемых моделей: