Создание набора данных для обучения для настраиваемой модели

При использовании настраиваемой модели Распознавателя документов вы предоставляете собственные данные для обучения для операции Обучение настраиваемой модели, чтобы обучить модель с использованием своих отраслевых форм. Следуйте инструкциям в этом руководстве, чтобы узнать, как получить и подготовить данные для эффективного обучения модели.

Потребуется по крайней мере пять заполненных форм одного типа.

Если вы хотите использовать данные для обучения, отмеченные вручную, необходимо начать с как минимум пяти заполненных форм одного и того же типа. Вы по-прежнему можете использовать непомеченные формы в дополнение к требуемому набору данных.

Требования к входным данным настраиваемой модели

Сначала убедитесь, что набор данных для обучения соответствует требованиям к входным данным для Распознавателя документов.

  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Поддерживаемые форматы файлов:

    Моделирование PDF Изображение:
    JPEG/JPG, PNG, BMP и TIFF
    Microsoft Office:
    Word (DOCX), Excel (XLS), PowerPoint (PPT) и HTML
    Чтение Версия REST API
    2022/06/30-preview
    Layout
    Документ общего назначения
    Предварительно созданная
    Особые настройки

    ✱ Файлы Microsoft Office сейчас не поддерживаются в других моделях или версиях.

  • В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).

  • Размер файла анализируемого документа должен быть меньше 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).

  • Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.

  • Размер страницы PDF-файла не должен превышать 17 x 17 дюймов, что соответствует размеру листа Legal или A3.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это примерно соответствует шрифту размером 8 пунктов при разрешении 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

  • Для обучения пользовательской модели общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 Г-МБ для нейронной модели.

Советы касательно данных для обучения

Ниже приведены советы по дополнительной оптимизации набора данных для обучения.

  • По возможности используйте текстовый PDF-документ вместо документов на основе изображений. Отсканированные PDF-документы обрабатываются как изображения.
  • При использовании заполненных форм убедитесь, что в примере заполнены все поля.
  • Используйте формы с разными значениями в каждом поле.
  • Если изображения форм имеют низкое качество, используйте более крупный набор данных (например, 10–15 изображений).

Отправка данных для обучения

После объединения набора документов с формами, которые будут использоваться для обучения, необходимо отправить их в контейнер хранилища BLOB-объектов Azure. Если вы не знаете, как создать учетную запись хранения Azure с контейнером, обратитесь к краткому руководству по работе со службой хранилища Azure на портале Azure. Используйте уровень производительности "Стандартный".

Если вы хотите использовать данные, помеченные вручную, вам также потребуется передать файлы своих обучающих документов в форматах LABELS.JS и OCR.JS. Чтобы создать эти файлы, можно использовать средство маркировки данных (или собственный инструмент пользовательского интерфейса).

Упорядочение данных во вложенных папках (необязательно)

По умолчанию API для обучения настраиваемой модели будет использовать только документы с формами, расположенные в корне контейнера хранилища. Однако для обучения можно использовать данные во вложенных папках, если указать их в вызове API. Как правило, тело вызова функции обучения настраиваемой модели имеет следующий формат, где <SAS URL> — это подписанный URL-адрес контейнера:

{
  "source":"<SAS URL>"
}

Если добавить в текст запроса следующее содержимое, API будет обучаться с использованием документов, расположенных во вложенных папках. Поле "prefix" является необязательным и будет ограничивать набор данных для обучения файлами, пути которых начинаются с заданной строки. Таким образом, значение "Test", например, приведет к тому, что API будет искать только файлы и папки, которые начинаются с слова Test.

{
  "source": "<SAS URL>",
  "sourceFilter": {
    "prefix": "<prefix string>",
    "includeSubFolders": true
  },
  "useLabelFile": false
}

Дальнейшие действия

Теперь, когда вы узнали, как создать набор данных для обучения, выполните инструкции из краткого руководства, чтобы обучить настраиваемую модель Распознавателя документов, и начните использовать его для своих форм.

См. также