Поделиться через


Модель payStub аналитики документов

Модель payStub аналитики документов объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения компенсации и получения данных о доходах из скольжения заработной платы. API анализирует документы и файлы с соответствующими сведениями о заработной плате; извлекает сведения о ключах и возвращает структурированное представление данных JSON.

Функция версия Model ID
Модель payStub • v4.0:2024-07-31 (предварительная версия) prebuilt-payStub.us

Попробуйте извлечь данные payStub

Заглушки оплаты являются основными документами, выданными работодателями сотрудниками, предоставляя доходы, вычеты и чистую информацию о заработной плате за определенный период оплаты. Узнайте, как извлекаются данные с помощью prebuilt-payStub.us модели. Вам потребуются следующие ресурсы:

  • Подписка Azure — создайте бесплатную учетную запись

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

    Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

  1. На домашней странице Document Intelligence Studio выберите payStub.

  2. Вы можете проанализировать пример заглушки оплаты или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:

Требования к входным данным

  • Поддерживаемые форматы файлов:

    Модель PDF Изображение:
    JPEG/JPG, , BMPPNGTIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Читать
    Макет ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Документ общего назначения
    Готовое
    Настраиваемая функция извлечения
    Настраиваемая классификация ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).

  • Размеры изображения должны составлять от 50 пикселей до 50 пикселей и 10 000 пикселей x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту 8 точки в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1 ГБ не более 10 000 страниц. Для 2024-07-31-preview и более поздних версий общий размер обучающих данных составляет 2 ГБ с максимальным количеством 10 000 страниц.

Поддерживаемые языки и языковые стандарты

Полный список поддерживаемых языков см . на странице поддержки языка предварительно созданной модели.

Извлечение полей

Сведения о поддерживаемых полях извлечения документов см. на странице схемы модели payStub в нашем примере репозитория GitHub.

Поддерживаемые языковые стандарты

Prebuilt-payStub.us версии 2027-07-31-preview поддерживает языковой стандарт en-us.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.