Модель инструкции банка аналитики документов

Статья
10/17/2024

Модель инструкции банка аналитики документов объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения данных из банковских инструкций США. API анализирует печатные банковские выписки; извлекает ключевые сведения, такие как номер счета, банковские сведения, сведения о инструкции, сведения о транзакциях и сборы; и возвращает структурированное представление данных JSON.

Функция	версия	Model ID
Модель банковских инструкций	• v4.0:2024-07-31 (предварительная версия)	`prebuilt-bankStatement.us`

Извлечение данных о банковских инструкциях

Банковский оператор помогает просматривать действия счета в течение указанного периода. Это официальное заявление, которое помогает выявлять мошенничество, отслеживать расходы, ошибки учета и записывать действия периода. Узнайте, как извлекаются данные с помощью prebuilt-bankStatement.us модели. Вам потребуются следующие ресурсы:

Подписка Azure — создайте бесплатную учетную запись
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Document Intelligence Studio

На домашней странице Document Intelligence Studio выберите банковские инструкции.
Вы можете проанализировать пример банковского оператора или отправить собственные файлы.
Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:

Попробуйте использовать Document Intelligence Studio

Требования к входным данным

Поддерживаемые форматы файлов:

Модель	PDF	Изображение: `JPEG/JPG`, , `BMPPNGTIFFHEIF`	Microsoft Office: Word (), Excel (`XLSXDOCX`), PowerPoint (`PPTX`), HTML
Читать	✔	✔	✔
Макет	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
Документ общего назначения	✔	✔
Готовое	✔	✔
Настраиваемая функция извлечения	✔	✔
Настраиваемая классификация	✔	✔	✔ (2024-07-31-preview, 2024-02-29-preview)

Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.
Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).
Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
Размеры изображения должны составлять от 50 пикселей до 50 пикселей и 10 000 пикселей x 10 000 пикселей.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту 8 точки в 150 точек на дюйм (DPI).
Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.
- Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
- Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1 ГБ не более 10 000 страниц. Для 2024-07-31-preview и более поздних версий общий размер обучающих данных составляет 2 ГБ с максимальным количеством 10 000 страниц.

Поддерживаемые языки и языковые стандарты

Полный список поддерживаемых языков см . на странице поддержки языка предварительно созданной модели.

Извлечение полей

Сведения о поддерживаемых полях извлечения документов см. на странице схемы модели проверки банка в нашем примере репозитория GitHub.

Поддерживаемые языковые стандарты

Prebuilt-bankStatement.us версии 2027-07-31-preview поддерживает языковой стандарт en-us.

Следующие шаги

Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.

Поделиться через