OCR — оптическое распознавание символов
Распознавание текста или оптическое распознавание символов также называется распознаванием текста или извлечением текста. Методы распознавания текста на основе машинного обучения позволяют извлекать печатный или рукописный текст из изображений, таких как плакаты, уличные знаки и наклейки на продукты, а также из таких документов, как статьи, отчеты, формы и счета. Текст обычно извлекается в виде слов, строк и абзацев или текстовых блоков, что обеспечивает доступ к цифровой версии отсканированного текста. Это устраняет или значительно сокращает потребность в вводе данных вручную.
Как OCR связано с интеллектуальной обработкой документов (IDP)?
Интеллектуальная обработка документов (IDP) использует OCR в качестве базовой технологии для дополнительного извлечения структуры, связей, ключевых значений, сущностей и других аналитических сведений, ориентированных на документ, с помощью расширенной службы искусственного интеллекта на основе машинного обучения, такой как Распознаватель документов. Распознаватель документов включает оптимизированную для документов версию Read в качестве обработчика OCR, делегируя другим моделям для получения аналитических сведений более высокого уровня. Если вы извлекаете текст из отсканированных и цифровых документов, используйте Распознаватель документов чтение OCR.
Обработчик OCR
Модуль OCR для чтения майкрософт состоит из нескольких расширенных моделей на основе машинного обучения, поддерживающих глобальные языки. Это позволяет им извлекать печатный и рукописный текст, включая смешанные языки и стили письма. Чтение доступно как облачная служба и локальный контейнер для гибкого развертывания. В последней предварительной версии он также доступен в виде синхронного API для отдельных сценариев, не относящихся к документам, только для изображений, с повышением производительности, что упрощает реализацию пользовательского интерфейса с помощью OCR.
Предупреждение
Api Компьютерное зрение устаревших OCR в версии 3.2 и Api RecognizeText в операциях версии 2.1 больше не поддерживаются и не должны использоваться.
Выпуски OCR (чтение)
Важно!
Выберите выпуск для чтения, который лучше всего соответствует вашим требованиям.
Входные данные | Примеры | Чтение выпуска | Преимущество |
---|---|---|---|
Изображения: общие, в дикие образы | наклейки, уличные знаки и плакаты | предварительная версия Компьютерное зрение версии 4.0 | Оптимизировано для общих изображений, не относящихся к документам, с синхронным API с улучшенной производительностью, что упрощает внедрение OCR в сценарии взаимодействия с пользователем. |
Документы: цифровые и отсканированные, включая изображения | книги, статьи и отчеты | Распознаватель документов | Оптимизировано для отсканированных и цифровых документов с большим количеством текста с асинхронным API для автоматизации интеллектуальной обработки документов в большом масштабе. |
Сведения об общедоступной версии Компьютерное зрение версии 3.2
Ищете последнюю Компьютерное зрение общедоступной версии 3.2 для чтения? Обратите внимание, что все будущие улучшения OCR для чтения будут частью двух новых служб, перечисленных выше. Дальнейших обновлений Компьютерное зрение версии 3.2 не будет. Чтобы продолжить, ознакомьтесь с общими сведениями и кратким руководством по Компьютерное зрение версии 3.2.
Использование OCR
Попробуйте OCR с помощью Vision Studio. Затем перейдите по одной из ссылок на выпуск Read, который лучше всего соответствует вашим требованиям.
Языки, поддерживаемые OCR
Обе версии для чтения, доступные сегодня в Компьютерное зрение поддерживают несколько языков для печатного и рукописного текста. Распознавание текста для печатного текста включает поддержку английского, французского, немецкого, итальянского, португальского, испанского, китайского, японского, корейского, русского, арабского, хинди и других международных языков, использующих латиницу, кириллицу, арабский и деванагари. Распознавание текста для рукописного текста включает поддержку английского, китайского (упрощенного), французского, немецкого, итальянского, японского, корейского, португальского и испанского языков.
См. полный список языков, поддерживаемых OCR.
Общие функции OCR
Модель чтения OCR доступна в Компьютерное зрение и Распознаватель документов с общими базовыми возможностями при оптимизации для соответствующих сценариев. В следующем списке перечислены общие возможности:
- Извлечение печатного и рукописного текста на поддерживаемых языках
- Страницы, текстовые строки и слова с оценкой расположения и достоверности
- Поддержка смешанных языков, смешанный режим (печать и рукописный ввод)
- Функция доступна как контейнер Distroless Docker для локального развертывания
Использование облачных API OCR или развертывание локальной среды
Облачные API являются предпочтительным вариантом для большинства клиентов из-за простоты интеграции и быстрой производительности. Azure и служба Компьютерное зрение обеспечивают масштабирование, производительность, безопасность данных и соответствие требованиям, а вы можете сосредоточиться на обслуживании своих клиентов.
Для локального развертывания контейнер Docker для чтения позволяет развернуть общедоступные возможности OCR Компьютерное зрение версии 3.2 в собственной локальной среде. Контейнеры соответствуют конкретным требованиям к безопасности и управлению данными.
Конфиденциальность и безопасность данных OCR
Как и в случае со всеми другими Cognitive Services, разработчикам, использующим API компьютерного зрения, следует учитывать политику корпорации Майкрософт касательно клиентских данных. Дополнительные сведения см. на странице о Cognitive Services Центра управления безопасностью Майкрософт.
Дальнейшие действия
- Распознавание текста для общих (недокументных) изображений: воспользуйтесь кратким руководством по REST API анализа изображений Компьютерное зрение 4.0 (предварительная версия).
- Распознавание текста для документов PDF, Office и HTML и изображений документов: начните с Распознаватель документов чтение.
- Ищете предыдущую общедоступную версию? Ознакомьтесь с краткими руководствами по пакету SDK для Компьютерное зрение 3.2 ga или REST API.