Модель контракта аналитики документов
Внимание
- Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
- Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
- Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
- Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
- Восточная часть США
- Западная часть США2
- Западная Европа
Это содержимое относится к: версии 4.0 (предварительная версия) | Предыдущая версия:
версия 3.1 (GA)
Это содержимое относится к: версия 3.1 (GA) | Последняя версия: версия 4.0 (предварительная версия)
Модель контракта аналитики документов использует мощные возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей и элементов строки из группы важных сущностей контракта. Контракты могут быть различными форматами и качеством, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как стороны, юрисдикции, идентификатор контракта и название; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает форматы документов на английском языке.
Автоматическая обработка контракта
Автоматическая обработка контрактов — это процесс извлечения ключевых полей контракта из документов. Исторически процесс анализа контракта достигается вручную и, следовательно, очень много времени. Точное извлечение ключевых данных из контрактов обычно является первым и одним из наиболее важных шагов в процессе автоматизации контрактов.
Варианты разработки
Аналитика документов версии 4.0 (2024-02-29-preview) поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Модель контракта | • Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript |
предварительно созданный контракт |
Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Модель контракта | • Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript |
предварительно созданный контракт |
Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Модель контракта | • Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript |
предварительно созданный контракт |
Требования к входным данным
Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.
Поддерживаемые форматы файлов:
Модель PDF Изображение:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и HTMLЧитать ✔ ✔ ✔ Макет ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) Документ общего назначения ✔ ✔ Готовое ✔ ✔ Настраиваемая функция извлечения ✔ ✔ Настраиваемая классификация ✔ ✔ ✔ (2024-02-29-preview) В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).
Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту о
8
точке в 150 точек на дюйм (DPI).Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.
Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.
Для обучения пользовательской модели классификации общий размер обучающих данных составляет
1GB
не более 10 000 страниц.
Попробуйте извлечь данные документа контракта
Узнайте, как данные, включая сведения о клиентах, сведения о поставщике и элементы строки, извлекаются из контрактов. Вам потребуются следующие ресурсы:
Подписка Azure — ее можно создать бесплатно.
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (
F0
), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.
Document Intelligence Studio
На домашней странице Document Intelligence Studio выберите "Налоговые документы".
Вы можете проанализировать примеры налоговых документов или отправить собственные файлы.
Нажмите кнопку "Выполнить анализ", а при необходимости настройте параметры анализа:
Поддерживаемые языки и языковые стандарты
См . страницу предварительно созданных моделей для полного списка поддерживаемых языков.
Извлечение полей
Ниже приведены поля, извлеченные из контракта в ответе выходных данных JSON.
Имя. | Тип | Описание | Пример результата |
---|---|---|---|
Заголовок | Строка | Название контракта | Соглашение на обслуживание |
ContractId | Строка | Название контракта | AB12956 |
Сторон | Массив | Список юридических сторон | |
ExecutionDate | Дата | Дата, когда соглашение было полностью подписано и согласовано всеми сторонами | On this twenty-third day of February two thousand and twenty two |
ExpirationDate | Дата | Дата окончания срока действия контракта | Один год |
Обновление | Дата | Дата продления контракта | On this twenty-third day of February two thousand and twenty two |
Юрисдикции | Массив | Список юрисдикций |
Пары "ключ-значение контракта" и извлеченные элементы строки находятся в documentResults
разделе выходных данных JSON.
Следующие шаги
Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по