Создание настраиваемых моделей
стиль выделенияЭто содержимое относится к: версии 4.0 (предварительная версия) | Предыдущие версии: версия 3.1 (GA) версии 3.0 (GA) версии 2.1 (GA)
Это содержимое относится к: версия 3.1 (GA) | Последняя версия: версия 4.0 (предварительная версия) | Предыдущие версии: версии 3.0 версии 2.1
Это содержимое относится к: версия 3.0 (GA) | Последние версии: v4.0 (предварительная версия) версии 3.1 | Предыдущая версия: версия 2.1
Это содержимое относится к: версия 2.1 Последняя версия: версия 4.0 (предварительная версия) |
Внимание
Поведение создания модели изменяется для API-version=2024-07-31-preview и более поздних версий, дополнительные сведения см. в статье о составных пользовательских моделях. Следующее поведение применяется только к версии 3.1 и предыдущим версиям.
Составная модель создается на основе коллекции настраиваемых моделей, которые назначаются одному идентификатору модели. Вы можете назначить до 200 обученных пользовательских моделей одному идентификатору составной модели. При отправке документа в составную модель служба выполняет классификацию, чтобы решить, какая настраиваемая модель точно соответствует форме, представленной для анализа. Составные модели полезны при обучении нескольких моделей и их группировке для анализа аналогичных типов форм. Например, составная модель может содержать настраиваемые модели, обученные для анализа заказов на покупку материалов, оборудования и мебели. Вместо того чтобы вручную выбирать нужную модель, можно использовать составную модель, чтобы определять соответствующую настраиваемую модель для каждой операции анализа и извлечения.
Дополнительные сведения см. в статье Составные настраиваемые модели.
В этой статье вы узнаете, как создавать и использовать создаваемые пользовательские модели для анализа форм и документов.
Необходимые компоненты
Чтобы приступить к работе, вам потребуется следующее:
Подписка Azure. Вы можете создать бесплатную подписку Azure.
Экземпляр аналитики документов. После получения подписки Azure создайте ресурс аналитики документов в портал Azure, чтобы получить ключ и конечную точку. Если у вас есть существующий ресурс аналитики документов, перейдите непосредственно на страницу ресурсов. Используйте бесплатную ценовую категорию (F0), чтобы опробовать службу, а затем выполните обновление до платного уровня для рабочей среды.
После развертывания ресурса нажмите Перейти к ресурсу.
Скопируйте значения Ключи и конечная точка с портала Azure и вставьте их в удобное место, например в Блокнот (Майкрософт). Для подключения приложения к API аналитики документов нужны значения ключей и конечных точек.
Совет
Дополнительные сведения см. в статье о создании ресурса аналитики документов.
- Учетная запись хранения Azure. Если вы не знаете, как создать учетную запись хранения Azure, обратитесь к краткому руководству по работе со службой хранилища Azure на портале Azure. Используйте бесплатную ценовую категорию (F0), чтобы опробовать службу, а затем выполните обновление до платного уровня для рабочей среды.
Создание настраиваемых моделей
Во-первых, вам потребуется набор пользовательских моделей для создания. Вы можете использовать библиотеки Document Intelligence Studio, REST API или клиентские библиотеки. Для этого необходимо выполнить следующие шаги:
- Составление набора данных для обучения
- Передача набора для обучения в хранилище BLOB-объектов Azure
- Обучение настраиваемых моделей
Составление набора данных для обучения
Создание настраиваемой модели начинается с создания набора данных для обучения. Для примера набора данных требуется не менее пяти завершенных форм одного типа. Типы файлов могут быть разными (JPG, PNG, PDF, TIFF). Формы могут содержать как печатный, так и рукописный текст. Формы должны соответствовать требованиям к входным данным для аналитики документов.
Совет
Ниже приведены советы по оптимизации набора данных для обучения:
- По возможности используйте текстовые документы PDF вместо документов на основе изображений. Отсканированные PDF-файлы обрабатываются как изображения.
- Для заполненных форм используйте примеры, в которых все поля заполнены.
- Используйте формы с разными значениями в каждом поле.
- Если ваши изображения формы имеют более низкое качество, используйте набор данных большего размера (например, 10–15 изображений).
Советы и варианты для сбора документов для обучения см. в этой статье.
Передача набора данных для обучения
После сбора набора обучающих документов необходимо передать данные обучения в контейнер хранилища BLOB-объектов Azure.
Если вы хотите использовать данные, помеченные вручную, необходимо отправить .labels.json и .ocr.json файлы, соответствующие вашим учебным документам.
Обучение настраиваемой модели
При обучении модели с помеченными данными модель использует контролируемое обучение для извлечения важных значений из предоставленных форм с метками. Данные с метками повышают эффективность моделей и позволяют получить модели для достаточно сложных форм и (или) форм со значениями без ключей.
Аналитика документов использует предварительно созданный API модели макета для изучения ожидаемых размеров и позиций шрифтов и рукописных текстовых элементов и извлечения таблиц. Затем он применяет заданные пользователем метки для изучения связей "ключ — значение" и таблиц в предоставленных документах. Мы рекомендуем использовать не менее пяти форм одного типа (одной структуры) с проставленными вручную метками, чтобы начать обучение новой модели. Затем по мере необходимости добавляйте данные с метками для повышения точности модели. Аналитика документов позволяет обучать модель для извлечения пар "ключ-значение" и таблиц с помощью защищенных возможностей обучения.
Для создания настраиваемых моделей начните с настройки проекта:
На домашней странице Студии выберите Создать на карточке настраиваемой модели.
С помощью команды ➕ Создать проект запустите мастер конфигурации проекта.
Введите сведения о проекте, выберите подписку и ресурс Azure, а также контейнер хранилища BLOB-объектов Azure, который содержит ваши данные.
Просмотрите, отправьте параметры и создайте проект.
При создании настраиваемых моделей может потребоваться извлечь коллекции значений из документов. Эти коллекции могут иметь один из двух форматов. Примеры использования таблиц в качестве визуального шаблона:
Динамическое или переменное количество значений (строк) для заданного набора полей (столбцов)
Конкретная коллекция значений для заданного набора полей (столбцов и строк)
См. статью Document Intelligence Studio: маркировка в виде таблиц
Создание составной модели
Примечание.
Операция create compose model
доступна только для настраиваемых моделей, обученных с применением меток. Попытки создать модели без меток приведут к ошибке.
С помощью операции создания составной модели можно назначить до 100 обученных настраиваемых моделей одному идентификатору модели. При анализе документов с помощью составной модели аналитика документов сначала классифицирует отправленную форму, а затем выбирает оптимальную назначенную модель и возвращает результаты для этой модели. Это очень удобная операция, если входящие документы могут относиться к одному из нескольких шаблонов.
После успешного завершения процесса обучения можно приступить к созданию составной модели. Ниже приведены шаги по созданию и использованию составных моделей:
- Сбор идентификаторов настраиваемых моделей
- Создание настраиваемых моделей
- Анализ документов
- Управление составными моделями
Сбор идентификаторов моделей
При обучении моделей с помощью Document Intelligence Studio идентификатор модели находится в меню моделей в проекте:
Создание настраиваемых моделей
Выберите проект настраиваемых моделей.
В проекте выберите пункт меню
Models
.В итоговом списке моделей выберите модели, которые необходимо объединить.
Нажмите кнопку Compose (Создать) в левом верхнем углу.
Во всплывающем окне укажите имя новой составной модели и щелкните Compose (Создать).
После завершения операции в списке появится только что созданная модель.
Когда модель будет готова, используйте команду Проверить, чтобы проверить ее с помощью используемых для проверки документов и просмотреть результаты.
Анализ документов
Для выполнения операции "Анализ пользовательской модели" требуется предоставить modelID
вызов аналитики документов. Необходимо указать идентификатор модели для параметра modelID
в приложениях.
Управление составными моделями
Вы можете управлять настраиваемыми моделями в рамках жизненных циклов:
- Протестируйте и проверьте новые документы.
- Скачайте модель для использования в приложениях.
- Удалите модель по завершении ее жизненного цикла.
Отлично! Вы узнали, как создать пользовательские и составные модели и использовать их в проектах и приложениях аналитики документов.
Следующие шаги
Ознакомьтесь с одним из кратких руководств по анализу документов:
Аналитика документов использует расширенную технологию машинного обучения для обнаружения и извлечения информации из изображений документов и возврата извлеченных данных в структурированных выходных данных JSON. С помощью аналитики документов можно обучить автономные пользовательские модели или объединить пользовательские модели для создания составных моделей.
Настраиваемые модели. Пользовательские модели аналитики документов позволяют анализировать и извлекать данные из форм и документов, относящихся к бизнесу. Настраиваемые модели обучаются именно для ваших данных и вариантов использования.
Составные модели. Составная модель создается на основе коллекции настраиваемых моделей, которые назначаются одной модели, охватывающей определенные типы форм. При отправке документа в составную модель служба выполняет классификацию, чтобы решить, какая настраиваемая модель точно соответствует форме, представленной для анализа.
Из этой статьи вы узнаете, как создавать пользовательские и составные модели аналитики документов с помощью средства маркировки образца документов, REST API или клиентских библиотек.
Пример средства создания меток
Попробуйте извлечь данные из пользовательских форм с помощью примера средства маркировки данных. Вам потребуются следующие ресурсы:
Подписка Azure — создайте бесплатную учетную запись
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (
F0
), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.
В пользовательском интерфейсе аналитики документов:
- Выберите Использовать настраиваемую форму для обучения модели с метками и получения пар "ключ-значение".
- В следующем окне выберите Создать проект:
Создание моделей
Ниже приведены шаги по созданию, обучению и использованию настраиваемых и составных моделей:
- Составление набора данных для обучения
- Передача набора для обучения в хранилище BLOB-объектов Azure
- Обучение настраиваемой модели
- Создание настраиваемых моделей
- Анализ документов
- Управление настраиваемыми моделями
Составление набора данных для обучения
Создание настраиваемой модели начинается с создания набора данных для обучения. Для примера набора данных требуется не менее пяти завершенных форм одного типа. Типы файлов могут быть разными (JPG, PNG, PDF, TIFF). Формы могут содержать как печатный, так и рукописный текст. Формы должны соответствовать требованиям к входным данным для аналитики документов.
Передача набора данных для обучения
Необходимо передать данные обучения в контейнер хранилища BLOB-объектов Azure. Если вы не знаете, как создать учетную запись хранения Azure с контейнером, см. краткое руководство по работе со службой хранилища Azure на портале Azure. Используйте бесплатную ценовую категорию (F0), чтобы опробовать службу, а затем выполните обновление до платного уровня для рабочей среды.
Обучение настраиваемой модели
Для обучения модели используются наборы данных с метками. Наборы данных с метками используют встроенный API макета, однако включены также и дополнительные входные данные пользователя, например определенные метки и расположения полей. Чтобы начать работу с обучающими данными с метками, рекомендуется использовать как минимум пять заполненных форм одного типа.
При обучении с помеченными данными модель использует контролируемое обучение для извлечения важных значений из предоставленных форм с метками. Данные с метками повышают эффективность моделей и позволяют получить модели для достаточно сложных форм и (или) форм со значениями без ключей.
Аналитика документов использует API макета для изучения ожидаемых размеров и позиций шрифтов и рукописных текстовых элементов и извлечения таблиц. Затем он применяет заданные пользователем метки для изучения связей "ключ — значение" и таблиц в предоставленных документах. Мы рекомендуем использовать не менее пяти форм одного типа (одной структуры) с проставленными вручную метками, чтобы начать обучение новой модели. По мере необходимости добавляйте данные с метками для повышения точности модели. Аналитика документов позволяет обучать модель для извлечения пар ключевых значений и таблиц с помощью защищенных возможностей обучения.
Начало работы с функцией обучения с использованием меток
[!ВИДЕО https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]
Создание составной модели
Примечание.
Создание модели доступно только для пользовательских моделей, обученных с помощью меток. Попытки создать модели без меток приведут к ошибке.
С помощью операции "Создание модели" можно назначить до 200 обученных пользовательских моделей одному идентификатору модели. При вызове анализа с помощью идентификатора составной модели аналитика документов классифицирует форму, отправленную сначала, выбирает оптимальную назначенную модель, а затем возвращает результаты для этой модели. Это очень удобная операция, если входящие документы могут относиться к одному из нескольких шаблонов.
Используя средство создания меток аналитики документов, REST API или клиентские библиотеки, выполните действия, чтобы настроить созданную модель:
Сбор идентификаторов настраиваемых моделей
После успешного завершения процесса обучения пользовательская модель назначается идентификатору модели. Идентификатор модели можно получить следующим образом:
При обучении моделей с помощью средства маркировки образца документов идентификатор модели находится в окне "Результат обучения":
Создание настраиваемых моделей
После сбора пользовательских моделей, соответствующих одному типу формы, их можно создать в одну модель.
Пример средства маркировки данных позволяет быстро приступить к обучению моделей и их назначению одному идентификатору модели.
После завершения обучения создайте модели следующим образом:
В меню слева щелкните значок Создание модели (объединяющаяся стрелка).
В основном окне выберите модели, которые вы хотите назначить одному идентификатору модели. Модели со значком со стрелками уже являются составными моделями.
Нажмите кнопку Compose (Создать) в левом верхнем углу.
Во всплывающем окне укажите имя новой составной модели и щелкните Compose (Создать).
После завершения операции в списке появится только что созданная модель.
Анализ документов с помощью составной модели
Для операции "Анализ пользовательской формы" требуется предоставить modelID
вызов аналитики документов. Для параметра modelID
можно указать один идентификатор настраиваемой или составной модели.
В меню
Analyze
слева выберите значок (лампочка).Выберите локальный файл или URL-адрес изображения для анализа.
Нажмите кнопку Run Analysis (Анализировать).
Средство применяет теги в ограничивающих полях и сообщает процент достоверности для каждого тега.
Протестируйте новые обученные модели, проанализировав формы, не входящие в набор данных для обучения. В зависимости от оценки точности может потребоваться дополнительное обучение для улучшения модели. Вы можете продолжить обучение, чтобы улучшить результаты.
Управление настраиваемыми моделями
Вы можете управлять настраиваемыми моделями на протяжении их жизненного цикла, просматривая список всех настраиваемых моделей в подписке, получая сведения о конкретной настраиваемой модели и удаляя настраиваемые модели из своей учетной записи.
Отлично! Вы узнали, как создать пользовательские и составные модели и использовать их в проектах и приложениях аналитики документов.
Следующие шаги
Дополнительные сведения о клиентской библиотеке аналитики документов см. в справочной документации по API.