OCR — оптическое распознавание символов

Предупреждение

Мы не рекомендуем использовать эту службу, в том числе Azure Vision in Foundry Tools, устаревший API OCR версии 3.2 и Api RecognizeText версии 2.1.

Выпуски для чтения с использованием OCR

Внимание

Выберите выпуск Read, который лучше всего соответствует вашим требованиям.

Входные данные	Примеры	Читать выпуск	Преимущества
Изображения: общие, изображения в естественной среде	метки, уличные знаки и плакаты	OCR для изображений (версия 4.0)	Оптимизировано для общих образов, не являющихся документами, с улучшенным синхронным API, что упрощает внедрение OCR в сценарии взаимодействия с пользователем.
Документы: цифровые и сканированные, включая изображения	книги, статьи и отчеты	Модель чтения с помощью аналитики документов	Оптимизировано для текстонасыщенных сканированных и цифровых документов с асинхронным API для автоматизации интеллектуальной обработки документов в широком масштабе.

О общедоступной версии 3.2 Azure Vision

Ищете последнюю общедоступную версию Azure Vision версии 3.2? Все будущие усовершенствования чтения OCR являются частью двух служб, перечисленных ранее. Дополнительные обновления в Azure Vision версии 3.2 отсутствуют. Дополнительные сведения см. в вызове API чтения Azure Vision 3.2 GA и кратком руководстве: Azure Vision v3.2 GA Read.

OCR или оптическое распознавание символов также называется распознаванием текста или извлечением текста. Методы OCR на основе машинного обучения позволяют извлекать печатный или рукописный текст из изображений, таких как плакаты, уличные знаки и наклейки продуктов, а также из документов, таких как статьи, отчеты, формы и счета. Как правило, текст извлекается как слова, текстовые строки и абзацы или текстовые блоки, что позволяет получить доступ к цифровой версии сканированного текста. Эта возможность устраняет или значительно сокращает потребность в вводе данных вручную.

Движок OCR

Модуль OCR для чтения Майкрософт использует несколько расширенных моделей машинного обучения, поддерживающих глобальные языки. Он извлекает печатный и рукописный текст, включая смешанные языки и стили написания. Вы можете использовать Read как облачную службу или как контейнер для локального размещения для гибкого развертывания. Кроме того, он доступен в виде синхронного API для отдельных сценариев, отличных от документа, с улучшениями производительности, упрощающими реализацию пользовательских возможностей с поддержкой OCR.

Интеллектуальная обработка документов (IDP) использует OCR в качестве основной технологии для извлечения структуры, связей, ключевых значений, сущностей и других аналитических сведений, ориентированных на документ, с расширенной службой искусственного интеллекта на основе машинного обучения, такой как Аналитика документов. Аналитика документов включает оптимизированную для документа версию Read в качестве движка OCR, при этом для получения более глубоких аналитических данных используются другие модели. Если вы извлекаете текст из сканированных и цифровых документов, используйте Document Intelligence Read OCR.

Поддерживаемые языки OCR

Обе версии Read, доступные сегодня в Azure Vision, поддерживают несколько языков для печатного и рукописного текста. OCR для печатного текста поддерживает английский, французский, немецкий, итальянский, португальский, испанский, китайский, японский, корейский, русский, арабский, хинди и другие международные языки, использующие латинские, кириллические, арабские и деванагарские скрипты. OCR для рукописного текста поддерживает английский, китайский упрощенный, французский, немецкий, итальянский, японский, корейский, португальский и испанский языки.

См. полный список языков, поддерживаемых OCR.

Общие функции OCR

Модель распознавания текста (OCR) доступна в Azure Vision и Document Intelligence с общими базовыми функциями, оптимизированными для соответствующих сценариев. В следующем списке приведены общие функции:

Извлечение печатного и рукописного текста на поддерживаемых языках.
Страницы, текстовые строки и слова с координатами расположения и коэффициентами уверенности
Поддержка смешанных языков, смешанный режим (печать и рукописный ввод)
Доступен как контейнер Docker Distroless для локального развертывания

Использование облачных API OCR или развертывание локальной среды

Большинство клиентов предпочитают облачные API, так как они легко интегрировать и предлагают быструю производительность из коробки. Azure и служба Azure Vision обрабатывают масштаб, производительность, безопасность данных и требования соответствия, в то время как вы можете сосредоточиться на удовлетворении потребностей клиентов.

Для локального развертывания контейнер Read Docker позволяет развертывать общедоступные возможности OCR в azure Vision версии 3.2 в собственной локальной среде. Контейнеры соответствуют конкретным требованиям к безопасности и управлению данными.

Требования к входным данным

API чтения принимает изображения и документы в качестве входных данных. Изображения и документы должны соответствовать следующим требованиям:

Поддерживаемые форматы файлов: JPEG, PNG, BMP, PDF и TIFF.
Для PDF-файлов и TIFF обрабатываются до 2000 страниц (только первые две страницы для бесплатного уровня).
Размер файла должен быть меньше 500 МБ (4 МБ для свободного уровня) с измерениями не менее 50 x 50 пикселей и не более 10 000 x 10 000 пикселей. PDF-файлы не имеют ограничения на размер.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения 1024 x 768, соответствующего примерно 8-точечным шрифтам в 150 DPI.

Примечание.

Не нужно обрезать изображение для текстовых строк. Отправьте все изображение в API чтения, и он распознает весь текст.

Конфиденциальность и безопасность данных OCR

Как и во всех средствах Foundry, разработчики, использующие службу Распознавания Azure, должны учитывать политики Майкрософт по данным клиентов. Дополнительные сведения см. на странице "Инструменты Foundry" в Центре доверия Майкрософт.

Следующие шаги

Для OCR с общими (недокументными) изображениями см. краткое руководство по REST API анализа изображений в Azure Vision 4.0.
Для OCR с PDF, Office и HTML-документами, а также изображениями документов начните с Document Intelligence Read.
Предыдущую версию GA см. в кратких руководствах по пакету SDK для Azure Vision 3.2 или REST API.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2025-11-21