Поделиться через


Модель контракта аналитики документов

Внимание

  • Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
  • Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
  • Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
  • Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
  • Восточная часть США
  • Западная часть США2
  • Западная Европа

Это содержимое относится к: версии 4.0 (предварительная версия) | Предыдущая версия:синяя галочка флажок версия 3.1 (GA)

Это содержимое относится к: версия 3.1 (GA) | Последняя версия: фиолетовый флажокфлажок версия 4.0 (предварительная версия)

Модель контракта аналитики документов использует мощные возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей и элементов строки из группы важных сущностей контракта. Контракты могут быть различными форматами и качеством, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как стороны, юрисдикции, идентификатор контракта и название; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает форматы документов на английском языке.

Автоматическая обработка контракта

Автоматическая обработка контрактов — это процесс извлечения ключевых полей контракта из документов. Исторически процесс анализа контракта достигается вручную и, следовательно, очень много времени. Точное извлечение ключевых данных из контрактов обычно является первым и одним из наиболее важных шагов в процессе автоматизации контрактов.

Варианты разработки

Аналитика документов версии 4.0 (2024-02-29-preview) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель контракта Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
предварительно созданный контракт

Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель контракта Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
предварительно созданный контракт

Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель контракта Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
предварительно созданный контракт

Требования к входным данным

  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Поддерживаемые форматы файлов:

    Модель PDF Изображение:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и HTML
    Читать
    Макет ✔ (2024-02-29-preview, 2023-10-31-preview)
    Документ общего назначения
    Готовое
    Настраиваемая функция извлечения
    Настраиваемая классификация ✔ (2024-02-29-preview)
  • В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).

  • Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту о 8точке в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1GB не более 10 000 страниц.

Попробуйте извлечь данные документа контракта

Узнайте, как данные, включая сведения о клиентах, сведения о поставщике и элементы строки, извлекаются из контрактов. Вам потребуются следующие ресурсы:

  • Подписка Azure — ее можно создать бесплатно.

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

  1. На домашней странице Document Intelligence Studio выберите "Налоговые документы".

  2. Вы можете проанализировать примеры налоговых документов или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Поддерживаемые языки и языковые стандарты

См . страницу предварительно созданных моделей для полного списка поддерживаемых языков.

Извлечение полей

Ниже приведены поля, извлеченные из контракта в ответе выходных данных JSON.

Имя. Тип Описание Пример результата
Заголовок Строка Название контракта Соглашение на обслуживание
ContractId Строка Название контракта AB12956
Сторон Массив Список юридических сторон
ExecutionDate Дата Дата, когда соглашение было полностью подписано и согласовано всеми сторонами On this twenty-third day of February two thousand and twenty two
ExpirationDate Дата Дата окончания срока действия контракта Один год
Обновление Дата Дата продления контракта On this twenty-third day of February two thousand and twenty two
Юрисдикции Массив Список юрисдикций

Пары "ключ-значение контракта" и извлеченные элементы строки находятся в documentResults разделе выходных данных JSON.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.