OCR — оптическое распознавание символов

Статья
02/21/2024

Распознавание текста или оптическое распознавание символов также называется распознаванием текста или извлечением текста. Методы OCR на основе машинного обучения позволяют извлекать печатный или рукописный текст из изображений, таких как плакаты, уличные знаки и метки продуктов, а также из документов, таких как статьи, отчеты, формы и счета. Как правило, текст извлекается как слова, текстовые строки и абзацы или текстовые блоки, что позволяет получить доступ к цифровой версии сканированного текста. Это устраняет или значительно сокращает потребность в вводе данных вручную.

Интеллектуальная обработка документов (IDP) использует OCR в качестве основной технологии для дополнительного извлечения структуры, связей, ключевых значений, сущностей и других аналитических сведений, ориентированных на документ, с расширенной службой искусственного интеллекта на основе машинного обучения, такой как Аналитика документов. Аналитика документов включает оптимизированную для документа версию Read в качестве обработчика OCR при делегировании другим моделям для более высокого уровня аналитики. Если вы извлекаете текст из сканированных и цифровых документов, используйте OCR для чтения документов.

Подсистема OCR

Модуль OCR для чтения Майкрософт состоит из нескольких расширенных моделей на основе машинного обучения, поддерживающих глобальные языки. Он может извлекать печатный и рукописный текст, включая смешанные языки и стили написания. Чтение доступно как облачная служба и локальный контейнер для гибкости развертывания. С последней предварительной версией он также доступен в виде синхронного API для отдельных сценариев, отличных от документа, с улучшениями производительности, которые упрощают реализацию пользовательского интерфейса OCR.

Предупреждение

Для использования не рекомендуется использовать устаревший API OCR в Azure AI Vision в api Распознавания текста версии 3.2 и Распознаваемого текста в операциях версии 2.1 .

Выпуски OCR (чтение)

Важно!

Выберите выпуск Read, который лучше всего соответствует вашим требованиям.

Входные данные	Примеры	Чтение выпуска	Преимущества
Изображения: общие, в диких изображениях	метки, уличные знаки и плакаты	OCR для изображений (версия 4.0)	Оптимизировано для общих образов, не являющихся документами, с улучшенным синхронным API, что упрощает внедрение OCR в сценарии взаимодействия с пользователем.
Документы: цифровые и сканированные, включая изображения	книги, статьи и отчеты	Модель чтения с помощью аналитики документов	Оптимизировано для проверки текста и цифровых документов с помощью асинхронного API для автоматизации интеллектуальной обработки документов в масштабе.

Сведения об azure AI Vision версии 3.2 общедоступной версии 2

Ищете последнюю общедоступную версию Azure AI Vision версии 3.2? Все будущие улучшения OCR чтения являются частью двух служб, перечисленных ранее. В Azure AI Vision версии 3.2 нет дополнительных обновлений. Дополнительные сведения см. в статье "Вызов API чтения azure AI Vision 3.2" и краткое руководство. Azure AI Vision версии 3.2 для чтения.

Использование OCR

Попробуйте использовать OCR с помощью Visual Studio. Затем следуйте одной из ссылок на выпуск Read, который лучше всего соответствует вашим требованиям.

Попробовать Vision Studio

Screenshot: Read OCR demo in Vision Studio.

Поддерживаемые языки OCR

Обе версии чтения , доступные сегодня в Azure AI Vision, поддерживают несколько языков для печати и рукописного текста. OCR для печатного текста включает поддержку английского, французского, немецкого, итальянского, португальского, испанского, китайского, японского, корейского, арабского, арабского, Хинди и других международных языков, использующих латинский, кириллический, арабский и Деванагари. OCR для рукописного текста включает поддержку английского, китайского упрощенного, французского, немецкого, итальянского, японского, корейского, португальского и испанского языков.

См. полный список языков, поддерживаемых OCR.

Общие функции OCR

Модель OCR чтения доступна в Azure AI Vision и Document Intelligence с общими базовыми возможностями при оптимизации соответствующих сценариев. В следующем списке приведены общие функции:

Извлечение текста на печатных и рукописных текстах на поддерживаемых языках
Страницы, текстовые строки и слова с оценкой расположения и достоверности
Поддержка смешанных языков, смешанный режим (печать и рукописный ввод)
Функция доступна как контейнер Distroless Docker для локального развертывания

Использование облачных API OCR или развертывание локальной среды

Облачные API являются предпочтительным вариантом для большинства клиентов из-за простоты интеграции и быстрой производительности. Azure и служба "Визуальное распознавание ИИ Azure" обрабатывают масштаб, производительность, безопасность данных и соответствие требованиям, а также сосредоточиться на удовлетворении потребностей клиентов.

Для локального развертывания контейнер Read Docker позволяет развертывать общедоступную возможность OCR в azure AI Vision версии 3.2 в собственной локальной среде. Контейнеры соответствуют конкретным требованиям к безопасности и управлению данными.

Конфиденциальность и безопасность данных OCR

Как и во всех службах ИИ Azure, разработчики, использующие службу "Визуальное распознавание ИИ Azure", должны учитывать политики Майкрософт по данным клиентов. Дополнительные сведения см. на странице служб ИИ Azure в Центре управления безопасностью Майкрософт.

Следующие шаги

OCR для общих (недокументных) изображений: краткое руководство по REST API анализа изображений в Azure AI Vision 4.0.
OCR для PDF, Office и HTML-документов и изображений документов: начните с чтения с документами.
Ищете предыдущую версию общедоступной версии? Ознакомьтесь с краткими руководствами по пакету SDK для azure AI Vision 3.2 или REST API.