Получение аналитических сведений об оптическом распознавании символов (OCR)

Статья
10/09/2024

Оптическое распознавание текста (OCR)

OCR извлекает текст из изображений, таких как рисунки, уличные знаки и продукты в файлах мультимедиа для создания аналитических сведений.

OCR извлекает аналитические сведения из печатного и рукописного текста на более чем 50 языках, включая изображение с текстом на нескольких языках. Дополнительные сведения см . на поддерживаемых языках OCR.

Дополнительные сведения о OCR см . в разделе "Технология OCR".

Вариант использования OCR

Глубокий поиск средств массовой информации кадры для изображений с знаками, уличными именами или номерными знаками автомобиля, например в правоохранительных органах.
Извлечение текста из изображений в файлах мультимедиа и его перевод на несколько языков в метках для специальных возможностей, например в средствах массовой информации или развлечениях.
Обнаружение названий фирменной символики в изображениях и их маркировке в целях перевода, например в рекламе и фирменной символике.
Извлечение текста в изображениях, которые затем автоматически помечены и классифицируются для специальных возможностей и будущего использования, например для создания содержимого в информационном агентстве.
Извлечение текста в предупреждениях в онлайн-инструкциях и перевод текста в соответствии с местными стандартами, например инструкции по использованию оборудования.

Просмотр json аналитики с помощью веб-портала

После отправки и индексирования видео аналитические сведения доступны в формате JSON для скачивания с помощью веб-портала.

Перейдите на вкладку "Библиотека ".
Выберите носитель, с которым вы хотите работать.
Выберите "Скачать" и "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
Найдите пару ключей, описанную в примере ответа.

Использование API

Используйте запрос на получение индекса видео. Мы рекомендуем передать &includeSummarizedInsights=false.
Найдите пары ключей, описанные в примере ответа.

Пример отклика

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Внимание

Важно прочитать общие сведения о прозрачности для всех функций VI. Каждое представление также имеет заметки о прозрачности собственных:

Заметки OCR

Индексатор видео имеет ограничение OCR в 50 000 слов для индексированного видео. После достижения ограничения не создаются дополнительные результаты OCR.
Тщательно рассмотрите точность результатов, чтобы повысить точность обнаружения, проверить качество изображения, низкое качество изображений может повлиять на обнаруженные аналитические сведения.
Внимательно рассмотрите возможность использования для правоохранительных органов. OCR может неправильно прочитать или не обнаружить части текста. Чтобы обеспечить справедливые и высококачественные определения VI, объедините автоматизацию на основе OCR с человеческим надзором.
При извлечении рукописного текста не используйте результаты OCR подписей, которые трудно читать как для людей, так и для компьютеров. Лучше использовать OCR для обнаружения наличия подписи для дальнейшего анализа.
Не используйте OCR для принятия решений, которые могут иметь серьезные негативные последствия для отдельных лиц или групп. Модели машинного обучения, которые извлекают текст, могут привести к незамеченному или неправильному выводу текста. Решения, основанные на неправильных выходных данных, могут иметь серьезные негативные последствия, которые необходимо избежать. Вы всегда должны включать в себя человеческий обзор решений, которые имеют потенциал для серьезных последствий для отдельных лиц.

Компоненты OCR

Во время процедуры OCR текстовые изображения в файле мультимедиа обрабатываются следующим образом:

Компонент	Определение
Исходный файл	Пользователь отправляет исходный файл для индексирования.
Модель чтения	Изображения обнаруживаются в файле мультимедиа и тексте, а затем извлекаются и анализируются службами ИИ Azure.
Получение модели результатов чтения	Выходные данные извлеченного текста отображаются в JSON-файле.
Значение достоверности	Предполагаемый уровень достоверности каждого слова вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82.

Пример кода

См. все примеры для VI

Поделиться через