Поделиться через


Создание настраиваемых моделей

стиль выделения

Это содержимое относится к:галочкаверсия 4.0 (GA) | Предыдущие версии:синяя галочкаверсия 3.1 (GA)синяя галочкаверсия 3.0 (GA)синяя галочкаверсия 2.1 (GA)

Это содержимое относится к:галочкаверсия 3.1 (GA) | Последняя версия:фиолетовая галочкаверсия 4.0 (GA) | Предыдущие версии:синяя галочкаверсия 3.0синяя галочкаверсия 2.1

Это содержимое относится к:галочкаверсия 3.0 (GA) | Последние версии:фиолетовая галочкаверсия 4.0 (GA)фиолетовая галочкаверсия 3.1 | Предыдущая версия:синяя галочкаверсия 2.1

Это содержимое относится к:галочкаверсия 2.1 | Последняя версия:синяя галочкаверсия 4.0 (GA)

Внимание

Поведение составления модели изменено для api-version=2024-11-30 (GA). Дополнительные сведения см. в статье о составных пользовательских моделях. Следующее поведение применяется только к версии 3.1 и предыдущим версиям.

Составная модель создается на основе коллекции настраиваемых моделей, которые назначаются одному идентификатору модели. Вы можете назначить до 200 обученных пользовательских моделей одному идентификатору составной модели. При отправке документа в составную модель служба выполняет классификацию, чтобы решить, какая настраиваемая модель точно соответствует форме, представленной для анализа. Составные модели полезны при обучении нескольких моделей и их группировке для анализа аналогичных типов форм. Например, составная модель может содержать настраиваемые модели, обученные для анализа заказов на покупку материалов, оборудования и мебели. Вместо того чтобы вручную выбирать нужную модель, можно использовать составную модель, чтобы определять соответствующую настраиваемую модель для каждой операции анализа и извлечения.

Дополнительные сведения см. в статье Составные настраиваемые модели.

В этой статье вы узнаете, как создавать и использовать создаваемые пользовательские модели для анализа форм и документов.

Необходимые требования

Чтобы приступить к работе, вам потребуется следующее:

  • Подписка Azure. Вы можете создать бесплатную подписку Azure.

  • Интеллект документов. После получения подписки Azure создайте ресурс аналитики документов на портале Azure, чтобы получить ваш ключ и конечную точку. Если у вас есть существующий ресурс аналитики документов, перейдите непосредственно на страницу ресурсов. Вы можете использовать бесплатный тарифный план (F0), чтобы опробовать службу, а затем выполнить обновление до платного уровня для производственной среды.

    1. После развертывания ресурса нажмите Перейти к ресурсу.

    2. Скопируйте значения Ключи и конечная точка с портала Azure и вставьте их в удобное место, например в Блокнот (Майкрософт). Для подключения приложения к API аналитики документов нужны значения ключей и конечных точек.

Фотография, демонстрирующая, как получить ключ ресурса и URL-адрес конечной точки.

Совет

Дополнительные сведения см. в статье о создании ресурса аналитики документов.

Создание настраиваемых моделей

Во-первых, вам потребуется набор пользовательских моделей для составления. Вы можете использовать библиотеки Document Intelligence Studio, REST API или клиентские библиотеки. Для этого необходимо выполнить следующие шаги:

Составление набора данных для обучения

Создание настраиваемой модели начинается с создания набора данных для обучения. Для примера набора данных требуется не менее пяти завершенных форм одного типа. Типы файлов могут быть разными (JPG, PNG, PDF, TIFF). Формы могут содержать как печатный, так и рукописный текст. Формы должны соответствовать требованиям к входным данным для аналитики документов.

Совет

Ниже приведены советы по оптимизации набора данных для обучения:

  • По возможности используйте текстовые документы PDF вместо документов на основе изображений. Отсканированные PDF-файлы обрабатываются как изображения.
  • Для заполненных форм используйте примеры, в которых все поля заполнены.
  • Используйте формы с разными значениями в каждом поле.
  • Если ваши изображения формы имеют более низкое качество, используйте набор данных большего размера (например, 10–15 изображений).

Советы и варианты для сбора документов для обучения см. в этой статье.

Передача набора данных для обучения

После сбора набора обучающих документов необходимо передать данные обучения в контейнер хранилища BLOB-объектов Azure.

Если вы хотите использовать данные, помеченные вручную, необходимо отправить .labels.json и .ocr.json файлы, соответствующие вашим учебным документам.

Обучение настраиваемой модели

При обучении модели с помеченными данными модель использует контролируемое обучение для извлечения важных значений из предоставленных форм с метками. Данные с метками повышают эффективность моделей и позволяют получить модели для достаточно сложных форм и (или) форм со значениями без ключей.

Аналитика документов использует предварительно созданный API модели макета для изучения ожидаемых размеров и позиций шрифтов и рукописных текстовых элементов и извлечения таблиц. Затем он применяет заданные пользователем метки для изучения связей "ключ — значение" и таблиц в предоставленных документах. Мы рекомендуем использовать не менее пяти форм одного типа (одной структуры) с проставленными вручную метками, чтобы начать обучение новой модели. Затем по мере необходимости добавляйте данные с метками для повышения точности модели. Аналитика документов позволяет обучать модель для извлечения пар "ключ-значение" и таблиц с помощью защищенных возможностей обучения.

Для создания настраиваемых моделей начните с настройки проекта:

  1. На домашней странице «Студии» на карточке настраиваемой модели выберите Создать новую.

  2. С помощью команды ➕ Создать проект запустите мастер конфигурации проекта.

  3. Введите сведения о проекте, выберите подписку и ресурс Azure, а также контейнер хранилища BLOB-объектов Azure, который содержит ваши данные.

  4. Просмотрите, отправьте параметры и создайте проект.

Анимация, показывающая создание пользовательского проекта в Document Intelligence Studio.

При создании пользовательских моделей может потребоваться извлечь коллекции данных из документов. Эти коллекции могут иметь один из двух форматов. Примеры использования таблиц в качестве визуального шаблона:

  • Динамическое или переменное количество значений (строк) для заданного набора полей (столбцов)

  • Конкретная коллекция значений для заданного набора полей (столбцов и строк)

См. статью Document Intelligence Studio: маркировка в виде таблиц

Создание составной модели

Примечание.

Операция create compose model доступна только для настраиваемых моделей, обученных с применением меток. Попытки создать модели без меток приведут к ошибке.

С помощью операции создания составной модели можно назначить до 100 обученных настраиваемых моделей одному идентификатору модели. При анализе документов с помощью составной модели аналитика документов сначала классифицирует отправленную форму, а затем выбирает оптимальную назначенную модель и возвращает результаты для этой модели. Это очень удобная операция, если входящие документы могут относиться к одному из нескольких шаблонов.

После успешного завершения процесса обучения можно приступить к созданию составной модели. Ниже приведены шаги по созданию и использованию составных моделей:

Соберите идентификаторы моделей

При обучении моделей с помощью Document Intelligence Studio идентификатор модели находится в меню моделей в проекте:

Снимок экрана: окно конфигурации модели в Document Intelligence Studio.

Создание настраиваемых моделей

  1. Выберите проект настраиваемых моделей.

  2. В проекте выберите пункт меню Models.

  3. В итоговом списке моделей выберите модели, которые необходимо объединить.

  4. Нажмите кнопку Compose (Создать) в левом верхнем углу.

  5. Во всплывающем окне укажите имя новой составной модели и щелкните Compose (Создать).

  6. После завершения операции в списке отобразится ваша новая созданная модель.

  7. Когда модель будет готова, используйте команду Проверить, чтобы проверить ее с помощью используемых для проверки документов и просмотреть результаты.

Анализ документов

Для выполнения операции Analyze пользовательской модели требуется предоставить modelID в вызове к Аналитике документов. Необходимо указать идентификатор модели для параметра modelID в приложениях.

Снимок экрана: идентификатор созданной модели в Document Intelligence Studio.

Управление составными моделями

Вы можете управлять настраиваемыми моделями в рамках жизненных циклов:

  • Протестируйте и проверьте новые документы.
  • Скачайте модель для использования в приложениях.
  • Удалите модель по завершении ее жизненного цикла.

Снимок экрана: составная модель в Студии аналитики документов

Отлично! Вы узнали, как создать пользовательские и составные модели и использовать их в проектах и приложениях аналитики документов.

Следующие шаги

Ознакомьтесь с одним из кратких руководств по анализу документов:

C#

Аналитика документов использует расширенную технологию машинного обучения для обнаружения и извлечения информации из изображений документов и возврата извлеченных данных в структурированных выходных данных JSON. С помощью аналитики документов можно обучить автономные пользовательские модели или объединить пользовательские модели для создания составных моделей.

  • Настраиваемые модели. Пользовательские модели аналитики документов позволяют анализировать и извлекать данные из форм и документов, относящихся к бизнесу. Настраиваемые модели обучаются именно для ваших данных и вариантов использования.

  • Составные модели. Составная модель создается на основе коллекции настраиваемых моделей, которые назначаются одной модели, охватывающей определенные типы форм. При отправке документа в составную модель служба выполняет классификацию, чтобы решить, какая настраиваемая модель точно соответствует форме, представленной для анализа.

Из этой статьи вы узнаете, как создавать пользовательские и составные модели аналитики документов с помощью средства маркировки образца документов, REST API или клиентских библиотек.

Пример средства создания меток

Попробуйте извлечь данные из настраиваемых форм с помощью нашего средства для маркировки образцов. Вам потребуются следующие ресурсы:

  • Подписка Azure — создайте бесплатную учетную запись

  • Экземпляр аналитики документов на портале Azure. Вы можете воспользоваться бесплатным уровнем (F0), чтобы попробовать услугу. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

В пользовательском интерфейсе аналитики документов:

  1. Выберите Выбор нестандартного варианта для обучения модели с метками и получения пар «ключ-значение».

Снимок экрана инструмента FOTT: выбор параметра пользовательской модели.

  1. В следующем окне выберите Создать проект:

Скриншот инструмента FOTT: выбор нового проекта.

Создайте свои модели

Ниже приведены шаги по созданию, обучению и использованию настраиваемых и составных моделей:

Составление набора данных для обучения

Создание настраиваемой модели начинается с создания набора данных для обучения. Для примера набора данных требуется не менее пяти завершенных форм одного типа. Типы файлов могут быть разными (JPG, PNG, PDF, TIFF). Формы могут содержать как печатный, так и рукописный текст. Формы должны соответствовать требованиям к входным данным для аналитики документов.

Загрузите ваш набор данных для обучения

Необходимо загрузить данные обучения в контейнер BLOB-хранилища Azure. Если вы не знаете, как создать учетную запись хранения Azure с контейнером, см.краткое руководство по работе со службой хранилища Azure на портале Azure. Вы можете использовать бесплатный ценовой уровень (F0), чтобы опробовать службу, а затем перейти на платный уровень для рабочих задач.

Обучение настраиваемой модели

Для обучения модели используются наборы данных с метками. Наборы данных с метками используют встроенный API макета, однако добавлены также и дополнительные пользовательские данные, например, ваши определенные метки и расположения полей. Чтобы начать работу с обучающими данными с метками, рекомендуется использовать как минимум пять заполненных форм одного типа.

При обучении с помеченными данными модель использует контролируемое обучение для извлечения важных значений из предоставленных форм с метками. Данные с метками повышают производительность моделей и могут создавать модели, которые работают со сложными формами или формами, содержащими значения без ключей.

Аналитика документов использует API макета для изучения ожидаемых размеров и позиций шрифтов и рукописных текстовых элементов и извлечения таблиц. Затем он применяет заданные пользователем метки для изучения связей "ключ — значение" и таблиц в предоставленных документах. Мы рекомендуем использовать не менее пяти форм одного типа (одной структуры) с проставленными вручную метками, чтобы начать обучение новой модели. По мере необходимости добавляйте данные с метками для повышения точности модели. Аналитика документов позволяет обучать модель для извлечения пар ключевых значений и таблиц с помощью защищенных возможностей обучения.

Начните работу с Train с метками

[!ВИДЕО https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]

Создание составной модели

Примечание.

Создание модели доступно только для пользовательских моделей, обученных с помощью меток. Попытки создать модели без меток приведут к ошибке.

С помощью операции "Создание модели" можно назначить до 200 обученных настраиваемых моделей одному идентификатору модели. При вызове анализа с помощью идентификатора составной модели аналитика документов классифицирует форму, отправленную сначала, выбирает оптимальную назначенную модель, а затем возвращает результаты для этой модели. Это очень удобная операция, если входящие документы могут относиться к одному из нескольких шаблонов.

Используя средство создания меток аналитики документов, REST API или клиентские библиотеки, выполните действия, чтобы настроить созданную модель:

  1. Сбор идентификаторов настраиваемых моделей
  2. Создание настраиваемых моделей

Соберите идентификаторы пользовательских моделей

После успешного завершения процесса обучения пользовательской модели присваивается идентификатор модели. Идентификатор модели можно получить следующим образом:

При обучении моделей с использованием инструмента для создания образцов разметки в Document Intelligence, идентификатор модели находится в окне "Результаты обучения":

Снимок экрана: окно результатов обучения.

Создание настраиваемых моделей

Как только вы соберете пользовательские модели, соответствующие одному типу формы, их можно объединить в одну модель.

Пример средства маркировки данных позволяет быстро приступить к обучению моделей и их назначению одному идентификатору модели.

После завершения обучения создайте модели следующим образом:

  1. В меню слева щелкните значок Создание модели (объединяющаяся стрелка).

  2. В основном окне выберите модели, которые вы хотите назначить одному идентификатору модели. Модели со значком со стрелками уже являются составными моделями.

  3. Нажмите кнопку Compose (Создать) в левом верхнем углу.

  4. Во всплывающем окне укажите имя новой составной модели и щелкните Compose (Создать).

После завершения операции в списке появится только что созданная модель.

Снимок экрана: окно создания модели.

Анализируйте документы с использованием вашей пользовательской или составной модели

Операция пользовательской формы Анализ требует от вас предоставления modelID в вызов системы Document Intelligence. Для параметра modelID можно указать один идентификатор настраиваемой или составной модели.

  1. На панели инструментов слева выберите значок Analyze(лампочка).

  2. Выберите локальный файл или URL-адрес изображения для анализа.

  3. Нажмите кнопку Run Analysis (Анализировать).

  4. Средство применяет теги в ограничивающих полях и сообщает процент достоверности для каждого тега.

Снимок экрана окна средства Document Intelligence для анализа пользовательской формы.

Протестируйте новые обученные модели, проанализировав формы, не входящие в набор данных для обучения. В зависимости от сообщаемой точности может потребоваться дополнительное обучение для улучшения модели. Вы можете продолжить обучение, чтобы улучшить результаты.

Управление настраиваемыми моделями

Вы можете управлять настраиваемыми моделями на протяжении их жизненного цикла, просматривая список всех настраиваемых моделей в подписке, получая сведения о конкретной настраиваемой модели и удаляя настраиваемые модели из своей учетной записи.

Отлично! Вы узнали, как создать пользовательские и составные модели и использовать их в проектах и приложениях аналитики документов.

Следующие шаги

Дополнительные сведения о клиентской библиотеке аналитики документов см. в справочной документации по API.