Поделиться через


Модели обработки документов

Это содержимое относится к:галочкаверсия 4.0 (GA) | Предыдущие версии:синяя галочкаверсия 3.1 (GA)синяя галочкаверсия 3.0 (GA)синяя галочкаверсия 2.1 (GA)

Это содержимое относится к:галочкаверсия 3.1 (GA) | Последняя версия:фиолетовая галочкаверсия 4.0 (GA) | Предыдущие версии:синяя галочкаверсия 3.0синяя галочкаверсия 2.1

Это содержимое применимо к: галочкаверсия 3.0 (GA) | Последние версии:фиолетовая галочкаверсия 4.0 (GA)фиолетовая галочкаверсия 3.1 | Предыдущая версия:синяя галочкаверсия 2.1

Это содержимое относится к:галочкаv2.1 | Последняя версия:синяя галочкаv4.0 (GA)

Аналитика документов Azure в средства Foundry поддерживает различные модели, которые можно использовать для добавления интеллектуальной обработки документов в приложения и потоки. Вы можете использовать предварительно созданную модель для конкретного домена или обучить пользовательскую модель, адаптированную к конкретным бизнес-потребностям и вариантам использования. Вы можете использовать аналитику документов с клиентскими библиотеками REST API или Python, C#, Java и JavaScript.

Примечание.

Проекты обработки документов, включающие финансовые данные, защищенные данные о работоспособности, персональные данные или высокочувствительные данные, требуют тщательного внимания. Обязательно соблюдайте все национальные или региональные и отраслевые требования.

Общие сведения о модели

В следующей таблице показаны общедоступные модели для каждого стабильного API.

Тип модели Модель 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Модели анализа документов Чтение ✔️ ✔️ ✔️ Недоступно
Модели анализа документов Макет ✔️ ✔️ ✔️ ✔️
Модели анализа документов Общий документ** Поддерживается в
Модель макета
✔️ ✔️ Недоступно
Предварительно созданные модели Банковский контроль ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Банковский оператор ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели payStub ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Контракт ✔️ ✔️ Недоступно Недоступно
Предварительно созданные модели Карточка медицинского страхования ✔️ ✔️ ✔️ Недоступно
Предварительно созданные модели Удостоверение ✔️ ✔️ ✔️ ✔️
Предварительно созданные модели Счет-фактура ✔️ ✔️ ✔️ ✔️
Предварительно созданные модели Квитанция ✔️ ✔️ ✔️ ✔️
Предварительно созданные модели Унифицированный налог США* ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Налог США 1040* ✔️ ✔️ Недоступно Недоступно
Предварительно созданные модели Налог США 1095* ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Налог США 1098* ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Налог США 1099* ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Налог НА W2 США ✔️ ✔️ ✔️ Недоступно
Предварительно созданные модели Налог сша W4 ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели США ипотека 1003 URLA ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Американская ипотека 1004 URAR ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Ипотека США 1005 ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Сводка по ипотеке США 1008 ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Раскрытие информации о закрытии ипотеки США ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Свидетельство о браке ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Кредитная карта ✔️ Недоступно Недоступно Недоступно
Предварительно созданные модели Визитная карточка устарело ✔️ ✔️ ✔️
Пользовательская модель классификации Настраиваемый классификатор ✔️ ✔️ Недоступно Недоступно
Пользовательская модель извлечения Настраиваемая нейронная ✔️ ✔️ ✔️ Недоступно
Пользовательская модель извлечения Пользовательский шаблон ✔️ ✔️ ✔️ ✔️
Пользовательская модель извлечения Пользовательский состав ✔️ ✔️ ✔️ ✔️
Все модели Возможности надстройки ✔️ ✔️ Недоступно Недоступно

* Содержит подмодели. Сведения о поддерживаемых вариантах и подтипах см. в сведениях о модели.
** Все возможности для общей модели документов доступны в модели макета. Общая модель больше не поддерживается.

Задержка

Задержка — это количество времени, затрачиваемого сервером API на обработку входящего запроса и предоставление исходящего ответа клиенту. Время анализа документа зависит от размера (например, количества страниц) и связанного содержимого на каждой странице. Аналитика документов — это мультитенантная асинхронная служба, в которой задержка для аналогичных документов сравнима, но не всегда идентична. Иногда вариативность задержки и производительности связана с любой микрослужбой, без отслеживания состояния, которая обрабатывает изображения и большие документы в большом масштабе. Несмотря на то, что мы постоянно масштабируем оборудование и емкость и возможности масштабирования, могут возникнуть проблемы с задержкой во время выполнения.

Возможность надстройки

Для аналитики документов доступны следующие возможности надстройки. Для всех моделей, кроме модели визитной карточки, аналитика документов теперь поддерживает возможности надстроек, чтобы обеспечить более сложный анализ. Эти необязательные возможности можно включить и отключить в зависимости от сценария извлечения документов. Для версии API 2023-07-31 (GA) и более поздних версий API доступны следующие возможности надстройки:

Возможность надстройки Надстройка или бесплатная 30.11.2024 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Извлечение свойств шрифта Дополнение ✔️ ✔️ Недоступно Недоступно
Извлечение формул Дополнение ✔️ ✔️ Недоступно Недоступно
Извлечение высокого разрешения Дополнение ✔️ ✔️ Недоступно Недоступно
Извлечение штрихкодов Бесплатно ✔️ ✔️ Недоступно Недоступно
Распознавание языка Бесплатно ✔️ ✔️ Недоступно Недоступно
Пары "Ключ-значение" Бесплатно ✔️ Недоступно Недоступно Недоступно
Поля запроса Надстройка* ✔️ Недоступно Недоступно Недоступно
Pdf-файл, доступный для поиска Надстройка* ✔️ Недоступно Недоступно Недоступно

Функции анализа моделей

Идентификатор модели Извлечение содержимого Поля запроса Абзацы Роли абзаца Метки выделения Таблицы Пары "Ключ-значение" Языки Штрихкоды Анализ документов Формулы* Шрифт стиля* Высокое разрешение* Pdf-файл, доступный для поиска
prebuilt-read O O O O O O
prebuilt-layout O O O O O O
prebuilt-contract O O O O
prebuilt-healthInsuranceCard.us O O O O O
prebuilt-idDocument O O O O O
prebuilt-invoice O O O O O O
prebuilt-receipt O O O O O
prebuilt-marriageCertificate.us O O O O O
prebuilt-creditCard O O O O O
prebuilt-check.us O O O O O
prebuilt-payStub.us O O O O O
prebuilt-bankStatement O O O O O
prebuilt-mortgage.us.1003 O O O O O
prebuilt-mortgage.us.1004 O O O O O
prebuilt-mortgage.us.1005 O O O O O
prebuilt-mortgage.us.1008 O O O O O
prebuilt-mortgage.us.closingDisclosure O O O O O
prebuilt-tax.us O O O O O
prebuilt-tax.us.w2 O O O O O
prebuilt-tax.us.w4 O O O O O
prebuilt-tax.us.1040 (различные) O O O O O
prebuilt-tax.us.1095A O O O O O
prebuilt-tax.us.1095C O O O O O
prebuilt-tax.us.1098 O O O O O
prebuilt-tax.us.1098E O O O O O
prebuilt-tax.us.1098T O O O O O
prebuilt-tax.us.1099 (различные) O O O O O
prebuilt-tax.us.1099SSA O O O O O
{ customModelName } O O O O O

✓ - Включен O - Необязательный

* - Премиум функции влечет за собой дополнительные расходы

Поля запросов отличаются от других функций надстройки. Дополнительные сведения см. в разделе "Цены".

Ограничивающие координаты поля и многоугольника

Ограничивающий прямоугольник (polygon в версиях 3.0 и более поздних версиях) — это абстрактный прямоугольник, который окружает текстовые элементы в документе. Ограничивающий прямоугольник используется в качестве эталонной точки для обнаружения объектов:

  • Ограничивающий прямоугольник указывает позицию с помощью плоскости координат x и y, представленной в массиве из четырех числовых пар. Каждая пара представляет угол поля в следующем порядке: верхний левый, верхний правый, нижний правый, нижний левый.
  • Координаты изображения представлены в пикселях. Для PDF координаты представлены в дюймах.

Поддержка языков

Универсальные модели в Аналитике документов, основанные на глубоком обучении, поддерживают многие языки. Модели могут извлекать многоязычный текст из изображений и документов, включая текстовые строки с смешанными языками. Поддержка языка зависит от функциональных возможностей службы аналитики документов. Полный список см. в следующих статьях:

Доступность в регионах

Аналитика документов общедоступна во многих из 60 и более поздних регионов глобальной инфраструктуры Azure.

Чтобы помочь выбрать регион, который лучше всего подходит для вас и клиентов, см. в географических регионах Azure.

Сведения о модели

В этом разделе описываются выходные данные, которые можно ожидать от каждой модели. Вы можете расширить выходные данные большинства моделей с помощью функций надстройки.

Чтение OCR

API чтения использует оптическое распознавание символов (OCR) для анализа и извлечения строк и слов, их расположений, обнаруженных языков и стиля рукописного ввода при обнаружении.

Этот пример документа был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример документа, обработанный с помощью Document Intelligence Studio Read.

Анализ макета

Модель анализа макета анализирует и извлекает текст, таблицы, знаки выделения и другие элементы структуры, такие как заголовки, заголовки разделов, заголовки страниц и нижние колонтитулы страницы.

Этот пример документа был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример страницы газеты, обрабатываемой с помощью Document Intelligence Studio.

Карточка медицинского страхования

Модель карты медицинского страхования объединяет мощные возможности OCR с моделями глубокого обучения для анализа и извлечения ключевых сведений из карт медицинского страхования США.

Этот пример карты медицинского страхования США был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример анализа карты медицинского страхования США в Document Intelligence Studio.

Налоговые документы США

Модели налоговых документов США анализируют и извлекают ключевые поля и элементы строки из выбранной группы налоговых документов. API поддерживает анализ налоговых документов США на английском языке различных форматов и качества, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. В настоящее время поддерживаются следующие модели:

Модель Description Идентификатор модели
Налог США W-2 Извлечение сведений о компенсации с налогом. prebuilt-tax.us.w2
Налог США W-4 Извлечение сведений о компенсации с налогом. prebuilt-tax.us.w4
Налог США 1040 Извлечение сведений об ипотечных интересах. prebuilt-tax.us.1040 (варианты)
Налог США 1095 Извлеките сведения о медицинском страховании. prebuilt-tax.us.1095 (варианты)
Налог США 1098 Извлечение сведений об ипотечных интересах. prebuilt-tax.us.1098 (варианты)
Налог США 1099 Извлечение дохода, полученного из источников, отличных от работодателя. prebuilt-tax.us.1099 (варианты)

Этот пример документа W-2 был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример документа W-2.

Ипотечные документы США

Модели ипотечных документов США анализируют и извлекают ключевые поля, включающие заемщик, кредит и информацию о собственности из выбранной группы ипотечных документов. API поддерживает анализ документов ипотеки на английском языке США различных форматов и качества, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. В настоящее время поддерживаются следующие модели.

Модель Description Идентификатор модели
Лицензионное соглашение 1003 End-User Извлечение кредита, заемщика, сведений о собственности. prebuilt-mortgage.us.1003
1004 Единый отчет об оценке жилых помещений (URAR) Извлечение кредита, заемщика, сведений о собственности. prebuilt-mortgage.us.1004
1005 Проверка занятости Извлечение кредита, заемщика, сведений о собственности. prebuilt-mortgage.us.1005
Сводный документ 1008 Извлеките заемщик, продавец, недвижимость, ипотеку и детали подзаписи. prebuilt-mortgage.us.1008
Закрытие раскрытия Извлечение закрывающих, транзакционных затрат и сведений о кредите. prebuilt-mortgage.us.closingDisclosure

Этот пример документа о закрытии раскрытия был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример закрытия раскрытия.

Contract

Модель контракта анализирует и извлекает ключевые поля и элементы линии из договорных соглашений, включая стороны, юрисдикции, идентификатор контракта и название. В настоящее время модель поддерживает документы контракта на английском языке.

Этот пример контракта был обработан с помощью Document Intelligence Studio.

Снимок экрана: извлечение модели контракта с помощью Document Intelligence Studio.

Проверка банка США

Модель контракта анализирует и извлекает ключевые поля из проверок банка США, включая сведения о проверке, сведения о счете, сумме и записке.

Этот пример проверки банка был обработан с помощью Document Intelligence Studio.

Снимок экрана: извлечение модели проверки банка с помощью Document Intelligence Studio.

Банковский оператор США

Модель банковских инструкций анализирует и извлекает ключевые поля и элементы строки из номера счета банковских инструкций США, банковских сведений, сведений о инструкции и сведений о транзакциях.

Этот пример банковских инструкций был обработан с помощью Document Intelligence Studio.

Снимок экрана: извлечение модели банковских инструкций с помощью Document Intelligence Studio.

payStub

Модель payStub анализирует и извлекает ключевые поля и элементы строки из документов и файлов с информацией, связанной с заработной платы.

Этот пример заглушки оплаты был обработан с помощью Document Intelligence Studio.

Снимок экрана: извлечение модели payStub с помощью Document Intelligence Studio.

Счет

Модель счета автоматизирует обработку счетов для извлечения имени клиента, адреса выставления счетов, даты выполнения, суммы, элементов строки и других ключевых данных.

Этот пример счета был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример счета.

Получение

Используйте модель квитанций для сканирования квитанций о продажах для имени продавца, дат, элементов строки, количества и итогов от печатных и рукописных квитанций. Версия 3.0 также поддерживает обработку квитанций об одностраничных отелях.

Этот пример квитанции был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример квитанции.

Документ удостоверения

Используйте модель удостоверения (ID) для обработки лицензий водителя США (все 50 штатов и округа Колумбия) и биографические страницы из международных паспортов (за исключением виз и других документов для путешествий) для извлечения ключевых полей.

Этот пример лицензии водителя США был обработан с помощью Document Intelligence Studio.

Снимок экрана: образец идентификатора.

Свидетельство о браке

Используйте модель сертификата брака для обработки сертификатов брака США для извлечения ключевых полей, в том числе отдельных лиц, даты и расположения.

Этот пример сертификата о браке США был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример сертификата о браке.

Кредитная карта

Используйте модель кредитной карты для обработки кредитных и дебетовых карт для извлечения ключевых полей.

Этот пример кредитной карты был обработан с помощью Document Intelligence Studio.

Снимок экрана: пример кредитной карты.

Пользовательские модели

Пользовательские модели широко классифицируются по двум типам. Пользовательские модели классификации, поддерживающие классификацию типа документа и пользовательские модели извлечения, которые могут извлекать определенную схему из определенного типа документа.

Схема, показывающая типы пользовательских моделей и связанные режимы сборки модели.

Пользовательские модели документов анализируют и извлекают данные из форм и документов, относящихся к вашей организации. Они распознают поля формы в пределах определенного содержимого и извлекают пары "ключ-значение" и данные таблицы. Чтобы приступить к работе, вам потребуется только один пример типа формы.

Версия 3.0 и более поздние пользовательские модели поддерживают обнаружение подписей в пользовательских шаблонах (форме) и межстраничных таблицах как в шаблонах, так и в нейронных моделях. Обнаружение подписи ищет наличие подписи, а не удостоверение пользователя, который подписывает документ. Если модель возвращает без знака для обнаружения подписей, модель не обнаружила подпись в определенном поле.

Этот пример пользовательского шаблона был обработан с помощью Document Intelligence Studio.

Снимок экрана, на котором показан анализ пользовательской формы аналитики документов.

Настраиваемая функция извлечения

Пользовательская модель извлечения поставляется в двух типах: настраиваемый шаблон и настраиваемый нейронный. Чтобы создать пользовательскую модель извлечения, наклейте набор данных документов со значениями, которые требуется извлечь и обучить модель в помеченном наборе данных. Чтобы приступить к работе, вам потребуется только пять примеров одной формы или типа документа.

Этот пример пользовательского извлечения был обработан с помощью Document Intelligence Studio.

Снимок экрана: анализ пользовательской модели извлечения в Document Intelligence Studio.

Настраиваемый классификатор

С помощью пользовательской модели классификации можно определить тип документа перед вызовом модели извлечения. Модель классификации доступна начиная с API 2023-07-31 (GA). Для обучения пользовательской модели классификации требуется по крайней мере два отдельных класса и не менее пяти выборок для каждого класса.

Составные модели

Составная модель создается на основе коллекции настраиваемых моделей, которые назначаются одной модели, созданной из ваших типов форм. Вы можете назначить несколько пользовательских моделей в составную модель, которая вызывается с одним идентификатором модели. Вы можете назначить до 200 обученных пользовательских моделей одной составной модели.

Эта примерная модель состоит в Document Intelligence Studio.

Снимок экрана, на котором показана панель пользовательской модели Document Intelligence Studio Compose.

Требования к входным данным

Поддерживаются следующие форматы файлов.

Модель PDF Изображение:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Читать
Макет
Общий документ
Готовое
Настраиваемая функция извлечения
Настраиваемая классификация
  • Фотографии и сканы: для получения наилучших результатов укажите одну чистую фотографию или высококачественную проверку на документ.
  • PDF и TIFFs: для PDF-файлов и TIFFs можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
  • Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
  • Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
  • Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
  • Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно 8-точечным тексту в 150 точек на дюйм.
  • Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
  • Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
  • Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
  • Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.

Примечание.

Пример средства создания меток не поддерживает формат файла BMP. Ограничение является производным от средства, а не службы аналитики документов.

Миграция между версиями

Узнайте, как использовать аналитику документов версии 3.0 в приложениях, выполнив действия, описанные в руководстве по миграции Document Intelligence версии 3.1.

Модель Description
Анализ документов
Макет Извлечение текста и сведений о макете из документов.
Готовое
Счет-фактура Извлеките ключевые сведения из счетов на английском языке и испанском языке.
Квитанция Извлеките ключевые сведения из квитанций на английском языке.
Удостоверение Извлеките ключевые сведения из лицензий водителя США и международных паспортов.
Визитная карточка Извлеките ключевые сведения из визитных карточек английского языка.
Пользовательское
Пользовательское Извлечение данных из форм и документов, относящихся к вашему бизнесу. Настраиваемые модели обучаются именно для ваших данных и вариантов использования.
Составленная Создание коллекции настраиваемых моделей и назначение их одной модели, созданной на основе типов форм.

Макет

API макета анализирует и извлекает из документов текст, таблицы и заголовки, метки выделения и сведения о структуре.

Этот пример документа был обработан с помощью средства маркировки образца.

Снимок экрана: анализ макета с помощью средства

Счет

Модель счета анализирует и извлекает ключевые сведения из счетов продажи. Этот API анализирует счета в различных форматах и извлекает ключевые сведения (например, имя заказчика, адрес выставления счета, дату и сумму оплаты).

Этот пример счета был обработан с помощью средства маркировки образца.

Снимок экрана, на котором показан пример анализа счетов с помощью средства

Получение

Модель квитанции анализирует и извлекает ключевые данные из печатных и рукописных чеков.

Этот пример квитанции был обработан с помощью средства маркировки образца.

Снимок экрана: пример квитанции.

Удостоверение

Модель удостоверения анализирует и извлекает ключевые данные из следующих документов:

  • Лицензии водителя США (все 50 штатов и округ Колумбия)
  • Страницы с биографическими данными из международных паспортов (за исключением виз и других выездных документов). API анализирует и извлекает документы удостоверений.

Этот пример лицензии драйвера США был обработан с помощью средства маркировки примеров.

Снимок экрана: образец идентификатора.

Визитная карточка

Модель визитной карточки анализирует и извлекает ключевые данные с изображений визитных карточек.

Этот пример визитной карточки был обработан с помощью средства маркировки образца.

Снимок экрана: пример визитной карточки.

Пользовательское

Пользовательские модели анализируют и извлекают данные из форм и документов, характерных для вашей компании. API — это программа машинного обучения, обученная распознавать поля формы в отдельном содержимом и извлекать пары ключей и значений и табличные данные. Чтобы приступить к работе, вам потребуется только пять примеров одного типа формы. Вы можете обучить настраиваемую модель с помощью помеченных наборов данных или без нее.

Этот пример настраиваемой модели был обработан с помощью средства создания примеров меток.

Снимок экрана, на котором показан инструмент аналитики документов, который анализирует настраиваемую область форм.

Составная настраиваемая модель

Составная модель создается на основе коллекции настраиваемых моделей, которые назначаются одной модели, созданной из ваших типов форм. Вы можете назначить несколько пользовательских моделей в составную модель, которая вызывается с одним идентификатором модели. Вы можете назначить для одной составной модели до 100 обученных настраиваемых моделей.

Эта созданная область модели была обработана с помощью средства "Пример меток".

Снимок экрана, на котором показана панель пользовательской модели Document Intelligence Studio Compose.

Извлечение данных модели

Модель Извлечение текста Распознавание языка Метки выделения Таблицы Абзацы Роли абзаца Пары "Ключ-значение" Fields
Макет
Счет-фактура
Квитанция
Удостоверение
Визитная карточка
Настраиваемая форма

Требования к входным данным

Поддерживаются следующие форматы файлов.

Модель PDF Изображение:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Читать
Макет
Общий документ
Готовое
Настраиваемая функция извлечения
Настраиваемая классификация
  • Фотографии и сканы: для получения наилучших результатов укажите одну чистую фотографию или высококачественную проверку на документ.
  • PDF и TIFFs: для PDF-файлов и TIFFs можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
  • Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
  • Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
  • Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
  • Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно 8-точечным тексту в 150 точек на дюйм.
  • Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
  • Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
  • Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
  • Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.

Примечание.

Пример средства создания меток не поддерживает формат файла BMP. Ограничение является производным от средства, а не аналитики документов.

Миграция между версиями

Вы можете узнать, как использовать аналитику документов версии 3.0 в приложениях, выполнив действия, описанные в руководстве по миграции Document Intelligence версии 3.1.