Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Предупреждение
Эта служба, включая устаревший OCR API в версии 3.2 для Azure AI Vision и RecognizeText API в версии 2.1, не рекомендуется к использованию.
Выпуски для чтения с использованием OCR
Внимание
Выберите выпуск Read, который лучше всего соответствует вашим требованиям.
Входные данные | Примеры | Читать выпуск | Преимущества |
---|---|---|---|
Изображения: общие, изображения в естественной среде | метки, уличные знаки и плакаты | OCR для изображений (версия 4.0) | Оптимизировано для общих образов, не являющихся документами, с улучшенным синхронным API, что упрощает внедрение OCR в сценарии взаимодействия с пользователем. |
Документы: цифровые и сканированные, включая изображения | книги, статьи и отчеты | Модель чтения с помощью аналитики документов | Оптимизировано для текстонасыщенных сканированных и цифровых документов с асинхронным API для автоматизации интеллектуальной обработки документов в широком масштабе. |
Сведения о версии 3.2 Azure AI Vision (общедоступная версия)
Ищете последнюю общедоступную версию Azure AI Vision версии 3.2? Все будущие усовершенствования чтения OCR являются частью двух служб, перечисленных ранее. В Azure AI Vision версии 3.2 нет дополнительных обновлений. Дополнительные сведения см. в разделах "Call the Azure AI Vision 3.2 GA Read API" и "Quickstart: Azure AI Vision v3.2 GA Read".
OCR или оптическое распознавание символов также называется распознаванием текста или извлечением текста. Методы OCR на основе машинного обучения позволяют извлекать печатный или рукописный текст из изображений, таких как плакаты, уличные знаки и метки продуктов, а также из документов, таких как статьи, отчеты, формы и счета. Как правило, текст извлекается как слова, текстовые строки и абзацы или текстовые блоки, что позволяет получить доступ к цифровой версии сканированного текста. Это устраняет или значительно сокращает потребность в вводе данных вручную.
Движок OCR
Модуль OCR для чтения Майкрософт состоит из нескольких расширенных моделей на основе машинного обучения, поддерживающих глобальные языки. Он может извлекать печатный и рукописный текст, включая смешанные языки и стили написания. Read доступен в виде облачной службы и контейнера на месте для обеспечения гибкости развертывания. Кроме того, он доступен в виде синхронного API для отдельных сценариев, отличных от документа, с улучшениями производительности, которые упрощают реализацию пользовательских возможностей с поддержкой OCR.
Как OCR связан с интеллектуальной обработкой документов (IDP)?
Интеллектуальная обработка документов (IDP) использует OCR в качестве основной технологии для дополнительного извлечения структуры, связей, ключевых значений, сущностей и других аналитических сведений, ориентированных на документ, с расширенной службой искусственного интеллекта на основе машинного обучения, такой как Аналитика документов. Аналитика документов включает оптимизированную для документа версию Read в качестве движка OCR, при этом для получения более глубоких аналитических данных используются другие модели. Если вы извлекаете текст из сканированных и цифровых документов, используйте Document Intelligence Read OCR.
Использование OCR
Попробуйте использовать OCR с помощью Visual Studio. Затем следуйте одной из ссылок на выпуск Read, который лучше всего соответствует вашим требованиям.
Поддерживаемые языки OCR
Обе версии чтения , доступные сегодня в Azure AI Vision, поддерживают несколько языков для печати и рукописного текста. OCR для печатного текста включает поддержку английского, французского, немецкого, итальянского, португальского, испанского, китайского, японского, корейского, арабского, арабского, Хинди и других международных языков, использующих латинский, кириллический, арабский и Деванагари. OCR для рукописного текста включает поддержку английского, китайского упрощенного, французского, немецкого, итальянского, японского, корейского, португальского и испанского языков.
См. полный список языков, поддерживаемых OCR.
Общие функции OCR
Модель OCR чтения доступна в Azure AI Vision и Document Intelligence с общими базовыми возможностями при оптимизации соответствующих сценариев. В следующем списке приведены общие функции:
- Извлечение печатного и рукописного текста на поддерживаемых языках.
- Страницы, текстовые строки и слова с оценкой расположения и достоверности
- Поддержка смешанных языков, смешанный режим (печать и рукописный ввод)
- Доступен как контейнер Docker Distroless для локального развертывания
Использование облачных API OCR или развертывание локальной среды
Облачные API являются предпочтительным вариантом для большинства клиентов из-за простоты интеграции и быстрой производительности. Azure и служба "Визуальное распознавание ИИ Azure" обеспечивают масштабируемость, производительность, безопасность данных и соответствие требованиям, чтобы вы могли сосредоточиться на удовлетворении потребностей своих клиентов.
Для локального развертывания контейнер Read Docker позволяет развертывать общедоступную возможность OCR в azure AI Vision версии 3.2 в собственной локальной среде. Контейнеры соответствуют конкретным требованиям к безопасности и управлению данными.
Требования к входным данным
API чтения принимает изображения и документы в качестве входных данных. Изображения и документы должны соответствовать следующим требованиям:
- Поддерживаемые форматы файлов: JPEG, PNG, BMP, PDF и TIFF.
- Для файлов PDF и TIFF обрабатывается до 2,000 страниц (только первые две страницы для бесплатного уровня доступа).
- Размер файла должен быть меньше 500 МБ (4 МБ для бесплатного уровня) с измерениями не менее 50 x 50 пикселей и не более 10 000 x 10 000 пикселей. PDF-файлы не имеют ограничения на размер.
- Минимальная высота извлекаемого текста составляет 12 пикселей для изображения 1024 x 768, соответствующего примерно 8-точечным шрифтам в 150 DPI.
Примечание.
Не нужно обрезать изображение для текстовых строк. Отправьте все изображение в API чтения, и он распознает весь текст.
Конфиденциальность и безопасность данных OCR
Как и во всех службах ИИ Azure, разработчики, использующие службу "Визуальное распознавание ИИ Azure", должны учитывать политики Майкрософт по данным клиентов. Дополнительные сведения см. на странице служб ИИ Azure в Центре управления безопасностью Майкрософт.
Следующие шаги
- OCR для общих (недокументных) изображений: попробуйте предварительный обзор быстрого начала работы с REST API анализа изображений в Azure AI Vision 4.0.
- OCR для PDF, Office и HTML-документов и изображений документов: начните с Интеллектуального чтения документов.
- Ищете предыдущую версию GA? Ознакомьтесь с быстрыми началами для Azure AI Vision 3.2 GA SDK или REST API.