Аналитика документов, состоящие из пользовательских моделей
Внимание
- Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке. Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
- Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует REST API версии 2024-07-31-preview.
- Общедоступная предварительная версия 2024-07-31-preview в настоящее время доступна только в следующих регионах Azure. Обратите внимание, что пользовательская модель создания (извлечение полей документов) в AI Studio доступна только в регионе "Северная часть США":
- Восточная часть США
- Западная часть США2
- Западная Европа
- Северная часть США
Это содержимое относится к: версии 4.0 (предварительная версия) | Предыдущие версии: версия 3.1 (GA) версии 3.0 (GA) версии 2.1 (GA)
Это содержимое относится к: версия 3.1 (GA) | Последняя версия: версия 4.0 (предварительная версия) | Предыдущие версии: версии 3.0 версии 2.1
Это содержимое относится к: версия 3.0 (GA) | Последние версии: v4.0 (предварительная версия) версии 3.1 | Предыдущая версия: версия 2.1
Это содержимое относится к: версия 2.1 Последняя версия: версия 4.0 (предварительная версия) |
Внимание
Поведение model compose
операции изменяется с api-version=2024-07-31-preview. Операция model compose
версии 4.0 и более поздних версий добавляет явно обученный классификатор вместо неявного классификатора для анализа. Предыдущая версия модели компонуется в разделе "Составные пользовательские модели" версии 3.1. Если вы используете в настоящее время составные модели, рассмотрите возможность обновления до последней реализации.
Что такое составная модель?
С помощью составных моделей можно сгруппировать несколько пользовательских моделей в составную модель с одним идентификатором модели. Например, составная модель может содержать настраиваемые модели, обученные для анализа заказов на покупку материалов, оборудования и мебели. Вместо того чтобы вручную выбирать нужную модель, можно использовать составную модель, чтобы определять соответствующую настраиваемую модель для каждой операции анализа и извлечения.
Для некоторых сценариев необходимо сначала классифицировать документ, а затем анализировать документ с помощью модели, лучше всего подходит для извлечения полей из модели. Такие сценарии могут включать такие сценарии, когда пользователь отправляет документ, но тип документа не известен явным образом. Другой сценарий может быть, если несколько документов сканируются вместе в один файл и файл отправляется для обработки. Затем приложение должно определить документы компонентов и выбрать лучшую модель для каждого документа.
В предыдущих версиях операция выполнила неявную классификацию, model compose
чтобы решить, какая пользовательская модель лучше всего представляет отправленный документ. Реализация 2024-07-31-preview
model compose
операции заменяет неявную классификацию из предыдущих версий явным шагом классификации и добавляет условную маршрутизацию.
Преимущества операции создания новой модели
Новая model compose
операция требует обучения явного классификатора и предоставляет несколько преимуществ.
Постоянное добавочное улучшение. Вы можете последовательно улучшить качество классификатора, добавив дополнительные примеры и постепенно повышая классификацию. Такая настройка гарантирует, что документы всегда направляются в нужную модель для извлечения.
Полный контроль над маршрутизацией. Добавляя маршрутизацию на основе доверия, вы предоставляете порог доверия для типа документа и ответа на классификацию.
Игнорировать определенные типы документов во время операции. Предыдущие
model compose
реализации операции выбрали лучшую модель анализа для извлечения на основе оценки достоверности, даже если самые высокие оценки достоверности были относительно низкими. Предоставляя порог доверия или явно не сопоставляя известный тип документа из классификации с моделью извлечения, можно игнорировать определенные типы документов.Анализ нескольких экземпляров одного типа документа. При паре с
splitMode
параметром классификатораmodel compose
операция может обнаружить несколько экземпляров одного документа в файле и разделить файл для обработки каждого документа независимо. ИспользованиеsplitMode
позволяет обрабатывать несколько экземпляров документа в одном запросе.Поддержка добавления функций. Также можно указать функции , такие как поля запроса или штрихкоды, как часть параметров модели анализа.
Назначенная настраиваемая модель максимально расширена до 500. Новая реализация
model compose
операции позволяет назначать до 500 обученных пользовательских моделей одной составной модели.
Использование создания модели
Начните с сбора образцов всех необходимых документов, включая примеры с информацией, которая должна быть извлечена или проигнорирована.
Обучите классификатор, упорядочив документы в папках, в которых имена папок являются типом документа, который вы планируете использовать в определении модели.
Наконец, обучить модель извлечения для каждого из типов документов, которые вы планируете использовать.
После обучения моделей классификации и извлечения используйте Document Intelligence Studio, клиентские библиотеки или REST API для создания моделей классификации и извлечения в составную модель.
splitMode
Используйте параметр для управления поведением разделения файлов:
- Нет. Весь файл рассматривается как один документ.
- perPage. Каждая страница в файле рассматривается как отдельный документ.
- auto. Файл автоматически разбивается на документы.
Выставление счетов и ценообразование
Выставление счетов за составные модели совпадает с отдельными пользовательскими моделями. Цены основаны на количестве страниц, проанализированных нижестоящей моделью анализа. Выставление счетов основано на цене извлечения страниц, перенаправленных в модель извлечения. При добавлении явных расходов на классификацию всех страниц в входном файле взимается плата за явную классификацию. Дополнительные сведения см. на странице цен на аналитику документов.
Использование операции создания модели
Сначала создайте список всех идентификаторов модели, которые вы хотите создать в одну модель.
Создайте модели в один идентификатор модели с помощью Студии, REST API или клиентских библиотек.
Используйте идентификатор составной модели для анализа документов.
Выставление счетов
Выставление счетов за составные модели совпадает с отдельными пользовательскими моделями. Цены основаны на количестве страниц, проанализированных. Выставление счетов основано на цене извлечения страниц, перенаправленных в модель извлечения. Дополнительные сведения см. на странице цен на аналитику документов.
- Нет изменений в ценах на анализ документа с помощью отдельной пользовательской модели или созданной пользовательской модели.
Функции составных моделей
Custom template
моделиcustom neural
можно объединить в одну составную модель в нескольких версиях API.Ответ содержит
docType
свойство, указывающее, какие из составных моделей использовались для анализа документа.Для
custom template
моделей можно создать созданную модель с помощью вариантов пользовательского шаблона или различных типов форм. Эта операция полезна, если входящие формы принадлежат одному из нескольких шаблонов.Для моделей
custom neural
рекомендуется добавить все различные варианты одного типа документа в один набор обучающих данных и обучить пользовательскую нейронную модель. Этаmodel compose
операция лучше всего подходит для сценариев при отправке документов различных типов для анализа.
Ограничения при объединении моделей
model compose
С помощью операции можно назначить до 500 моделей одному идентификатору модели. Если количество моделей, которые я хочу создать, превышает верхний предел составной модели, можно использовать один из следующих вариантов:Классифицируйте документы перед вызовом пользовательской модели. Модель чтения можно использовать и создать классификацию на основе извлеченного текста из документов и определенных фраз с помощью таких источников, как код, регулярные выражения или поиск.
Если вы хотите извлечь одни и те же поля из различных структурированных, полуструктурированных и неструктурированных документов, рассмотрите возможность использования пользовательской нейронной модели глубокого обучения. Узнайте больше о различиях между пользовательской моделью шаблона и пользовательской нейронной моделью.
Анализ документа с помощью составных моделей идентичен анализу документа с помощью одной модели. Результат
Analyze Document
возвращаетdocType
свойство, указывающее, какие из моделей компонентов, выбранных для анализа документа.В
model compose
настоящее время операция доступна только для пользовательских моделей, обученных с помощью меток.
Совместимость составных моделей
Тип настраиваемой модели | Модели, обученные с помощью версии 2.1 и версии 2.0 | Пользовательские модели шаблонов и нейронных моделей версии 3.1 и версии 3.0 | Предварительная версия пользовательских шаблонов и нейронных моделей версии 4.0 | Предварительная версия пользовательских моделей создания версии 4.0 |
---|---|---|---|---|
Модели, обученные с использованием версии 2.1 и версии 2.0 | Не поддерживается | Не поддерживается | Не поддерживается | Не поддерживается |
Пользовательские модели шаблонов и нейронных моделей версии 3.0 и версии 3.1 | Не поддерживается | Поддерживается | Поддерживается | Не поддерживается |
Предварительная версия пользовательских шаблонов и нейронных моделей версии 4.0 | Не поддерживается | Поддерживается | Поддерживается | Не поддерживается |
Предварительная версия пользовательских формовых моделей версии 4.0 | Не поддерживается | Не поддерживается | Не поддерживается | Не поддерживается |
Чтобы объединить модель, обученную с использованием предыдущей версии API (версия 2.1 или более ранняя), обучите модель с помощью API версии 3.0, используя тот же набор данных с меткой. Это дополнение гарантирует, что модель версии 2.1 может быть составлена с другими моделями.
При использовании моделей, состоящих из API версии 2.1, по-прежнему поддерживается, не требуя обновлений.
Варианты разработки
Аналитика документов версии 4.0:2024-07-31-preview поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы |
---|---|
Пользовательская модель | • Аналитика документов• REST API • пакет SDK для C# • пакет SDK java• пакет SDK javaScript • пакет SDK для Python |
Составная модель | • Аналитика документов• REST API • пакет SDK для C# • пакет SDK java• пакет SDK javaScript • пакет SDK для Python |
Аналитика документов версии 3.1:2023-07-31 (GA) поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы |
---|---|
Пользовательская модель | • Аналитика документов• REST API • пакет SDK для C# • пакет SDK java• пакет SDK javaScript • пакет SDK для Python |
Составная модель | • Аналитика документов• REST API • пакет SDK для C# • пакет SDK java• пакет SDK javaScript • пакет SDK для Python |
Аналитика документов версии 3.0:2022-08-31 (GA) поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы |
---|---|
Пользовательская модель | • Аналитика документов• REST API • пакет SDK для C# • пакет SDK java• пакет SDK javaScript • пакет SDK для Python |
Составная модель | • Аналитика документов• REST API • пакет SDK для C# • пакет SDK java• пакет SDK javaScript • пакет SDK для Python |
Аналитика документов версии 2.1 поддерживает следующие ресурсы:
Функция | Ресурсы |
---|---|
Пользовательская модель | • Средство аналитики документов • REST API • пакет SDK для клиентской библиотеки• Контейнер Docker аналитики документов |
Составная модель | • Средство аналитики документов • REST API • ПАКЕТ SDK для C# • Пакет SDK java• Пакет SDK javaScript• Пакет SDK для Python |
Следующие шаги
Создание и объединение настраиваемых моделей: