Поделиться через


Модель сертификата о браке в аналитике документов

Это содержимое относится к: флажок версии 4.0 (предварительная версия) флажок

Модель сертификата браков с анализом документов использует мощные возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей из сертификатов о браке. Сертификаты о браке могут быть различными форматами и качеством, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как имена супругов, дата выдачи и место брака; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает форматы документов на английском языке.

Автоматическая обработка сертификатов о браке

Автоматическая обработка сертификатов о браке — это процесс извлечения ключевых полей из сертификатов о браке. Исторически процесс анализа сертификата брака достигается вручную и, следовательно, очень много времени. Точное извлечение ключевых данных из сертификатов о браке обычно является первым и одним из наиболее важных шагов в процессе автоматизации сертификатов браков.

Варианты разработки

Аналитика документов версии 4.0 (2024-07-31-preview) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
prebuilt-marriageCertificate.us Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
prebuilt-marriageCertificate.us

Требования к входным данным

  • Поддерживаемые форматы файлов:

    Модель PDF Изображение:
    JPEG/JPG, , BMPPNGTIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Читать
    Макет ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Документ общего назначения
    Готовое
    Настраиваемая функция извлечения
    Настраиваемая классификация ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).

  • Размеры изображения должны составлять от 50 пикселей до 50 пикселей и 10 000 пикселей x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту 8 точки в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1 ГБ не более 10 000 страниц. Для 2024-07-31-preview и более поздних версий общий размер обучающих данных составляет 2 ГБ с максимальным количеством 10 000 страниц.

Попробуйте извлечь данные документа о сертификате о браке

Чтобы узнать, как работает извлечение данных для службы карт сертификата брака, вам потребуется следующее:

  • Подписка Azure — ее можно создать бесплатно.

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

  1. На домашней странице Document Intelligence Studio выберите сертификат о браке.

  2. Вы можете проанализировать примеры сертификатов о браке или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Поддерживаемые языки и языковые стандарты

Полный список поддерживаемых языков см . на странице поддержки языка предварительно созданной модели.

Извлечение полей

  • Сведения о поддерживаемых полях извлечения документов см. на странице схемы модели сертификата брака в нашем примере репозитория GitHub.

  • Пары сертификата о браке и элементы строки, извлеченные в формате JSON, находятся в documentResults разделе выходных данных JSON.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.