Получение аналитических сведений об оптическом распознавании символов (OCR)
Оптическое распознавание текста (OCR)
OCR извлекает текст из изображений, таких как рисунки, уличные знаки и продукты в файлах мультимедиа для создания аналитических сведений.
OCR извлекает аналитические сведения из печатного и рукописного текста на более чем 50 языках, включая изображение с текстом на нескольких языках. Дополнительные сведения см . на поддерживаемых языках OCR.
Дополнительные сведения о OCR см . в разделе "Технология OCR".
Вариант использования OCR
- Глубокий поиск средств массовой информации кадры для изображений с знаками, уличными именами или номерными знаками автомобиля, например в правоохранительных органах.
- Извлечение текста из изображений в файлах мультимедиа и его перевод на несколько языков в метках для специальных возможностей, например в средствах массовой информации или развлечениях.
- Обнаружение названий фирменной символики в изображениях и их маркировке в целях перевода, например в рекламе и фирменной символике.
- Извлечение текста в изображениях, которые затем автоматически помечены и классифицируются для специальных возможностей и будущего использования, например для создания содержимого в информационном агентстве.
- Извлечение текста в предупреждениях в онлайн-инструкциях и перевод текста в соответствии с местными стандартами, например инструкции по использованию оборудования.
Просмотр json аналитики с помощью веб-портала
После отправки и индексирования видео аналитические сведения доступны в формате JSON для скачивания с помощью веб-портала.
- Перейдите на вкладку "Библиотека ".
- Выберите носитель, с которым вы хотите работать.
- Выберите "Скачать" и "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
- Найдите пару ключей, описанную в примере ответа.
Использование API
- Используйте запрос на получение индекса видео. Мы рекомендуем передать
&includeSummarizedInsights=false
. - Найдите пары ключей, описанные в примере ответа.
Пример отклика
"ocr": [
{
"id": 1,
"text": "2017 Ruler",
"confidence": 0.4365,
"left": 901,
"top": 3,
"width": 80,
"height": 23,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:45.5",
"adjustedEnd": "0:00:46",
"start": "0:00:45.5",
"end": "0:00:46"
},
{
"adjustedStart": "0:00:55",
"adjustedEnd": "0:00:55.5",
"start": "0:00:55",
"end": "0:00:55.5"
}
]
},
{
"id": 2,
"text": "2017 Ruler postppu - PowerPoint",
"confidence": 0.4712,
"left": 899,
"top": 4,
"width": 262,
"height": 48,
"angle": 0,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:44.5",
"adjustedEnd": "0:00:45",
"start": "0:00:44.5",
"end": "0:00:45"
}
]
}
Внимание
Важно прочитать общие сведения о прозрачности для всех функций VI. Каждое представление также имеет заметки о прозрачности собственных:
Заметки OCR
- Индексатор видео имеет ограничение OCR в 50 000 слов для индексированного видео. После достижения ограничения не создаются дополнительные результаты OCR.
- Тщательно рассмотрите точность результатов, чтобы повысить точность обнаружения, проверить качество изображения, низкое качество изображений может повлиять на обнаруженные аналитические сведения.
- Внимательно рассмотрите возможность использования для правоохранительных органов. OCR может неправильно прочитать или не обнаружить части текста. Чтобы обеспечить справедливые и высококачественные определения VI, объедините автоматизацию на основе OCR с человеческим надзором.
- При извлечении рукописного текста не используйте результаты OCR подписей, которые трудно читать как для людей, так и для компьютеров. Лучше использовать OCR для обнаружения наличия подписи для дальнейшего анализа.
- Не используйте OCR для принятия решений, которые могут иметь серьезные негативные последствия для отдельных лиц или групп. Модели машинного обучения, которые извлекают текст, могут привести к незамеченному или неправильному выводу текста. Решения, основанные на неправильных выходных данных, могут иметь серьезные негативные последствия, которые необходимо избежать. Вы всегда должны включать в себя человеческий обзор решений, которые имеют потенциал для серьезных последствий для отдельных лиц.
Компоненты OCR
Во время процедуры OCR текстовые изображения в файле мультимедиа обрабатываются следующим образом:
Компонент | Определение |
---|---|
Исходный файл | Пользователь отправляет исходный файл для индексирования. |
Модель чтения | Изображения обнаруживаются в файле мультимедиа и тексте, а затем извлекаются и анализируются службами ИИ Azure. |
Получение модели результатов чтения | Выходные данные извлеченного текста отображаются в JSON-файле. |
Значение достоверности | Предполагаемый уровень достоверности каждого слова вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82. |