Модель чтения с помощью аналитики документов

Статья
02/22/2024

Внимание

Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
Восточная часть США
Западная часть США2
Западная Европа

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:v3.1 (GA)v3.0 (GA)

Это содержимое относится к:v3.1 (GA) | Последняя версия:v4.0 (предварительная версия) | Предыдущие версии:v3.0

Это содержимое относится к:v3.0 (GA) | Latest versions:v4.0 (preview)v3.1

Примечание.

Для извлечения текста из внешних изображений, таких как метки, уличные знаки и плакаты, используйте функцию анализа изображений ИИ Azure версии 4.0 , оптимизированную для общих, недокументированных изображений с улучшенным производительностью синхронным API, что упрощает внедрение OCR в сценарии взаимодействия с пользователем.

Модель оптического распознавания символов чтения документов (OCR) выполняется в более высоком разрешении, чем azure AI Vision Read и извлекает печатный и рукописный текст из документов PDF и сканированных изображений. Она также включает поддержку извлечения текста из документов Microsoft Word, Excel, PowerPoint и HTML. Он обнаруживает абзацы, текстовые строки, слова, расположения и языки. Модель чтения — это базовый механизм OCR для других предварительно созданных моделей аналитики документов, таких как макет, общие документы, счет, квитанция, удостоверение (идентификатор), медицинское страхование карта, W2 в дополнение к пользовательским моделям.

Что такое OCR для документов?

Оптическое распознавание символов (OCR) для документов оптимизировано для больших текстовых документов в нескольких форматах файлов и глобальных языках. Он включает такие функции, как сканирование изображений документов с более высоким разрешением, чтобы лучше обрабатывать меньший и плотный текст; обнаружение абзаца; и управление заполненными формами. Возможности OCR также включают расширенные сценарии, такие как одинарные поля символов и точное извлечение ключевых полей, часто найденных в счетах, квитанциях и других предварительно созданных сценариях.

Варианты разработки

Аналитика документов версии 4.0 (2024-02-29-preview, 2023-10-31-preview) поддерживает следующие средства, приложения и библиотеки:

Функция	Ресурсы	Model ID
Чтение модели OCR	• Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript	prebuilt-read

Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:

Функция	Ресурсы	Model ID
Чтение модели OCR	• Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript	prebuilt-read

Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:

Функция	Ресурсы	Model ID
Чтение модели OCR	• Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript	prebuilt-read

Требования к входным данным

Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

Поддерживаемые форматы файлов:

Модель	PDF	Изображение: JPEG/JPG, PNG, BMP, TIFF, HEIF	Microsoft Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и HTML
Читать	✔	✔	✔
Макет	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview)
Документ общего назначения	✔	✔
Готовое	✔	✔
Настраиваемая функция извлечения	✔	✔
Настраиваемая классификация	✔	✔	✔ (2024-02-29-preview)

В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).
Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ бесплатного уровня (F0).
Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту о 8точке в 150 точек на дюйм (DPI).
Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.
- Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.
- Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1GB не более 10 000 страниц.

Начало работы с моделью чтения

Попробуйте извлечь текст из форм и документов с помощью Document Intelligence Studio. Вам потребуются следующие ресурсы:

Подписка Azure — ее можно создать бесплатно.
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Примечание.

В настоящее время Студия аналитики документов не поддерживает форматы файлов Microsoft Word, Excel, PowerPoint и HTML.

Пример документа, обработанный с помощью Document Intelligence Studio

Снимок экрана: обработка чтения в Document Intelligence Studio.

На домашней странице Document Intelligence Studio выберите "Чтение".
Вы можете проанализировать пример документа или отправить собственные файлы.
Нажмите кнопку "Выполнить анализ", а при необходимости настройте параметры анализа:

Попробуйте Использовать Document Intelligence Studio.

Поддерживаемые языки и языковые стандарты

См. страницу "Поддержка языка" — модели анализа документов для полного списка поддерживаемых языков.

Извлечение данных

Примечание.

Microsoft Word и HTML-файл поддерживаются в версиях 3.1 и более поздних версий. По сравнению с PDF и изображениями ниже функции не поддерживаются:

Для каждого объекта страницы нет угла, ширины и высоты и единицы.
Для каждого обнаруженного объекта нет ограничивающего многоугольника или ограничивающего региона.
Диапазон страниц (pages) не поддерживается в качестве параметра.
Нет lines объекта.

Страницы

Коллекция страниц — это список страниц в документе. Каждая страница представлена последовательно в документе и включает угол ориентации, указывающий, поворачивается ли страница и ширина и высота (измерения в пикселях). Единицы страниц в выходных данных модели подсчитываются следующим образом:

Формат файлов	Вычисленная единица страницы	Всего страниц
Изображения (JPEG/JPG, PNG, BMP, HEIF)	Каждое изображение = 1 единица страницы	Всего изображений
PDF	Каждая страница PDF = 1 единица страницы	Всего страниц в PDF
TIFF	Каждое изображение в TIFF = 1 единица страницы	Общее количество изображений в TIFF
Word (DOCX)	До 3000 символов = 1 единица страницы, внедренные или связанные изображения не поддерживаются	Всего страниц до 3000 символов
Excel (XLSX)	Каждый лист = 1 единица страницы, внедренные или связанные изображения не поддерживаются	Всего листов
PowerPoint (PPTX)	Каждый слайд = 1 единица страницы, внедренные или связанные изображения не поддерживаются	Всего слайдов
HTML	До 3000 символов = 1 единица страницы, внедренные или связанные изображения не поддерживаются	Всего страниц до 3000 символов

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Выбор страниц для извлечения текста

Для больших многостраничных документов используйте параметр запроса pages, чтобы указать конкретные номера страниц или диапазоны страниц для извлечения текста.

Абзацы

Модель OCR чтения в Document Intelligence извлекает все определенные блоки текста в paragraphs коллекции как объект верхнего уровня в разделе analyzeResults. Каждая запись в этой коллекции представляет текстовый блок и включает извлеченный текст какcontent и ограничивающие polygon координаты. Сведения span указывают на фрагмент текста в свойстве верхнего уровня content , содержающем полный текст документа.

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Текст, строки и слова

Модель OCR чтения извлекает печатный и рукописный текст стиля как lines и words. Модель выводит ограничивающие polygon координаты и confidence для извлеченных слов. Коллекция styles включает любой рукописный стиль для строк, если они обнаружены вместе с диапазонами, указывающими на связанный текст. Эта функция применяется к поддерживаемым языкам рукописного ввода.

Для Microsoft Word, Excel, PowerPoint и HTML модель чтения документов версии 3.1 и более поздних версий извлекает весь внедренный текст как есть. Тексты экстракированы как слова и абзацы. Внедренные образы не поддерживаются.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Стиль рукописного текста для текстовых строк

Ответ включает классификацию текста, является ли каждая строка входного текста рукописной или нет, а также оценку достоверности. Дополнительные сведения см. в статьео поддержке рукописного языка. В следующем примере показан пример фрагмента КОДА JSON.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Если вы включили возможность добавления шрифта и стиля, вы также получите результат шрифта или стиля в составе styles объекта.

Следующие шаги

Выполните краткое руководство по анализу документов:

Ознакомьтесь с нашим REST API:

API аналитики документов версии 4.0

Модель чтения с помощью аналитики документов

Что такое OCR для документов?

Варианты разработки

Требования к входным данным

Начало работы с моделью чтения

Поддерживаемые языки и языковые стандарты

Извлечение данных

Страницы

Выбор страниц для извлечения текста

Абзацы

Текст, строки и слова

Стиль рукописного текста для текстовых строк

Следующие шаги

Дополнительные ресурсы