Начало работы: Document Intelligence Studio

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:флажоксиний проверка markv3.1 (GA)синий проверка markv3.0 (GA)

Document Intelligence Studio — это онлайн-средство для визуального изучения, понимания и интеграции функций из службы аналитики документов в приложениях. Чтобы приступить к работе, ознакомьтесь с предварительно обученными моделями с примерами или собственными документами. Кроме того, вы можете создавать проекты для формирования пользовательских моделей шаблонов и ссылаться на модели в приложениях, используя пакет SDK для Python и другие краткие руководства.

Предварительные требования для новых пользователей

Совет

Создайте ресурс служб искусственного интеллекта Azure, если вы планируете получить доступ к нескольким службам ИИ Azure в рамках одной конечной точки или ключа. Только для доступа к аналитике документов создайте ресурс аналитики документов. В настоящее время проверка подлинности Microsoft Entra не поддерживается в Document Intelligence Studio для доступа к API-интерфейсам службы аналитики документов. Чтобы использовать Document Intelligence Studio, необходимо включить проверку подлинности на основе ключей доступа или локальную проверку подлинности.

Назначения ролей Azure

Для анализа документов и предварительно созданных моделей для различных сценариев требуются следующие назначения ролей.

  • Основные
    • Пользователь Cognitive Services: эта роль необходима для ресурса аналитики документов или служб искусственного интеллекта Azure для ввода страницы анализа.
  • Дополнительные
    • Участник. Эта роль необходима для создания группы ресурсов, службы аналитики документов или ресурса служб ИИ Azure.

Модели

Предварительно созданные модели помогают добавлять функции аналитики документов в приложения без необходимости создавать, обучать и публиковать собственные модели. Можно выбирать среди разных предварительно созданных моделей, у каждой из которых есть свой набор поддерживаемых полей. Выбор модели для операции анализа зависит от типа анализируемого документа. Аналитика документов в настоящее время поддерживает следующие предварительно созданные модели:

Анализ документов

  • Макет — извлечение текста, таблиц, меток выделения и сведений о структуре из документов (PDF, TIFF) и изображений (JPG, PNG, BMP).
  • Чтение: извлечение текстовых строк, слов, их расположений, обнаруженных языков и рукописного текста, если он обнаружен, из документов (PDF, TIFF) и изображений (JPG, PNG, BMP).

Готовое

  • Счет — извлечение текста, меток выбора, таблиц, пар "ключ-значение" и ключевых данных из счетов.
  • Квитанция — извлечение текста и ключевых данных из квитанций.
  • Карта медицинского страхования: извлечение страховщика, члена, рецепта, номера группы и других ключевых сведений из карта медицинского страхования США.
  • W-2: извлечение текста и ключевых сведений из налоговых документов W-2.
  • Удостоверение — извлечение текста и ключевых данных из водительских прав и заграничных паспортов.

Пользовательское

  • Пользовательские модели извлечения: извлечение сведений из форм и документов с помощью пользовательских моделей извлечения. Быстро обучить модель, наклеив не более пяти примеров документов.
  • Пользовательская модель классификации: обучите пользовательский классификатор, чтобы различать различные типы документов в приложениях. Быстро обучить модель с двумя классами и пятью примерами на класс.

После завершения предварительных требований перейдите в Document Intelligence Studio.

  1. Выберите функцию службы аналитики документов на домашней странице Студии.

  2. Этот шаг выполняется однократно, если вы еще не выбрали ресурс службы, который уже использовался ранее. Выберите подписку Azure, группу ресурсов и ресурс. (Ресурсы можно изменить в любое время в разделе "Параметры" в верхнем меню.) Просмотрите и подтвердите выбор.

  3. Нажмите кнопку "Анализ", чтобы выполнить анализ примера документа, или попробуйте использовать собственный документ с помощью команды "Добавить".

  4. Используйте элементы управления в нижней части экрана для изменения масштаба и поворота представления документа.

  5. Обратите внимание на выделенное извлеченное содержимое в представлении документа. Наведите указатель мыши на ключи и значения, чтобы просмотреть подробные сведения.

  6. В разделе выходных данных вкладки "Результат" просмотрите выходные данные в формате JSON, чтобы понять формат ответа службы.

  7. На вкладке "Код" просмотрите пример кода для интеграции. Скопируйте и скачайте, чтобы приступить к работе.

Добавлены предварительные требования для пользовательских проектов

Помимо учетной записи Azure и ресурса аналитики документов или служб ИИ Azure, вам потребуется:

Контейнер хранилища BLOB-объектов Azure

Учетная запись хранилища BLOB-объектов Azure с производительностью стандартного уровня. Вы создаете контейнеры для хранения и упорядочивания документов обучения в учетной записи хранения. Если вы не знаете, как создать учетную запись хранения Azure с контейнером, обратитесь к следующим кратким руководствам:

  • Создание учетной записи хранения. При создании учетной записи хранения выберите уровень производительности Стандартный в поле Сведения об экземпляре → Производительность.
  • Создание контейнера. При создании контейнера в окне Создание контейнера установите для поля Уровень общего доступа значение Контейнер (анонимный доступ на чтение для контейнеров и BLOB-объектов).

Назначения ролей Azure

Для пользовательских проектов для различных сценариев требуются следующие назначения ролей.

  • Основные
    • Пользователь Cognitive Services. Для обучения пользовательской модели или анализа с обученными моделями требуется эта роль для аналитики документов или служб искусственного интеллекта Azure.
    • служба хранилища участник данных BLOB-объектов. Для создания данных проекта и меток требуется эта роль для учетной записи служба хранилища.
  • Дополнительные
    • служба хранилища участник учетной записи. Для настройки параметров CORS требуется эта роль для учетной записи служба хранилища (это однократная попытка при повторном использовании той же учетной записи хранения).
    • Участник. Для создания группы ресурсов и ресурсов требуется эта роль.

Настройка CORS

CORS (общий доступ к ресурсам между источниками) необходимо настроить в учетной записи хранения Azure, чтобы она была доступна в Студии аналитики документов. Чтобы настроить CORS в портал Azure, необходимо получить доступ к вкладке CORS учетной записи хранения.

  1. Выберите вкладку CORS для учетной записи хранения.

    Снимок экрана: меню параметров CORS на портале Azure.

  2. Начните с создания записи CORS в службе BLOB-объектов.

  3. В поле Разрешенные источники введите https://documentintelligence.ai.azure.com.

    Снимок экрана, на котором показана конфигурация CORS для учетной записи хранения.

    Совет

    Можно не указывать домен, а воспользоваться подстановочным знаком *, чтобы разрешить всем исходным доменам делать запросы через CORS.

  4. Выберите все доступные 8 параметров для разрешенных методов.

  5. Утвердите все допустимые и предоставляемые заголовки, введя * в каждом поле.

  6. Установите для параметра Максимальный возраст 120 секунд или любое допустимое значение.

  7. Нажмите кнопку "Сохранить" в верхней части страницы, чтобы сохранить изменения.

ТЕПЕРЬ CORS следует настроить для использования учетной записи хранения из Document Intelligence Studio.

Набор примеров документов

  1. Войдите в портал Azure и перейдите к контейнерам хранилища данных учетной записи>хранения.>

    Снимок экрана: меню хранилища данных в портал Azure.

  2. Выберите контейнер из списка.

  3. В меню в верхней части страницы нажмите кнопку Отправить.

    Снимок экрана: кнопка отправки контейнера в портал Azure.

  4. Появится окно Отправить BLOB-объект.

  5. Выберите файлы для отправки.

    Снимок экрана: окно отправки BLOB-объектов в портал Azure.

Примечание.

По умолчанию Студия будет использовать документы, расположенные в корне контейнера. Однако можно использовать данные, упорядоченные в папки, указав путь к папке в пошаговом процессе создания настраиваемой формы. См. раздел Организация данных во вложенных папках

Пользовательские модели

Для создания настраиваемых моделей начните с настройки проекта:

  1. На домашней странице Студии выберите карточку настраиваемой формы, чтобы открыть страницу настраиваемых моделей.

  2. С помощью команды "Создать проект" запустите мастер конфигурации проекта.

  3. Введите сведения о проекте, выберите подписку и ресурс Azure, а также контейнер хранилища BLOB-объектов Azure, который содержит ваши данные.

  4. Проверьте и отправьте параметры, чтобы создать проект.

  5. Чтобы быстро начать процесс маркировки, используйте функцию автоматической метки для маркировки с помощью уже обученной модели или одной из предварительно созданных моделей.

  6. Для ручной маркировки с нуля определите метки и их типы, которые вы хотите извлечь.

  7. Выделите текст в документе и выберите метку в раскрывающемся списке или на панели меток.

  8. Добавьте метки еще к четырем документам, чтобы получить в итоге хотя бы пять документов с меткой.

  9. Выберите команду Train и введите имя модели, выберите, требуется ли нейронная (рекомендуемая) или модель шаблона, чтобы начать обучение пользовательской модели.

  10. Когда модель будет готова, используйте команду Проверить, чтобы проверить ее с помощью используемых для проверки документов и просмотреть результаты.

Демонстрация пользовательской модели аналитики документов

Добавление меток таблиц

Примечание.

  • В выпуске API версии 2022-06-30-preview и более поздних версий пользовательские модели шаблонов будут добавлять поддержку межстраничных табличных полей (таблиц).
  • В выпуске API версии 2022-06-30-preview и более поздних версий пользовательские нейронные модели будут поддерживать табличные поля (таблицы) и модели, обученные с помощью API версии 2022-08-31, или более поздних версий будут принимать метки табличных полей.
  1. Используйте команду "Удалить", чтобы удалить ненужные модели.

  2. Загрузка сведений о модели для автономного просмотра.

  3. Выбор нескольких моделей и создание из них новой модели, которая будет использоваться в приложениях.

Примеры использования таблиц в качестве визуального шаблона:

При создании моделей настраиваемых форм может потребоваться извлечь коллекции данных из документов. Эти коллекции данных могут быть в различных форматах. Примеры использования таблиц в качестве визуального шаблона:

  • Динамическое или переменное количество значений (строк) для заданного набора полей (столбцов)

  • Конкретная коллекция значений для заданного набора полей (столбцов и строк)

Добавление меток динамической таблицы

Используйте динамические таблицы для извлечения переменного количества значений (строк) для заданного набора полей (столбцов):

  1. Добавьте новую метку типа "Таблица", выберите тип "Динамическая таблица" и присвойте метке имя.

  2. Добавьте необходимое число столбцов (полей) и строк (для данных).

  3. Выделите текст на странице и выберите ячейку, которую нужно присвоить тексту. Повторите для всех строк и столбцов на всех страницах всех документов.

Пример маркировки аналитики документов в качестве динамической таблицы

Добавление меток фиксированной таблицы

Используйте фиксированные таблицы, чтобы извлечь конкретную коллекцию значений для заданного набора полей (столбцов и строк):

  1. Создайте новую метку типа "Таблица", выберите тип "Фиксированная таблица" и присвойте ей имя.

  2. Добавьте необходимое число столбцов и строк, соответствующих двум наборам полей.

  3. Выделите текст на странице и выберите ячейку, которую нужно присвоить тексту. Повторите эти действия для остальных документов.

Пример метки аналитики документов в качестве фиксированной таблицы

Обнаружение сигнатуры

Примечание.

В настоящее время поля сигнатур поддерживаются только для моделей настраиваемых шаблонов. При обучении настраиваемой нейронной модели поля сигнатур с метками не учитываются.

Добавление меток для обнаружения сигнатур (только настраиваемая форма)

  1. В представлении добавления меток создайте метку типа "Подпись" и присвойте ей имя.

  2. Используйте команду Region, чтобы обозначить прямоугольной областью место подписи.

  3. Выделите нарисованную область и выберите тип метки "Подпись", чтобы назначить его этой области. Повторите эти действия для остальных документов.

Пример обнаружения подписей для аналитики документов

Следующие шаги

Начало работы с Студией аналитики документов.