Поделиться через


Получение аналитических сведений об оптическом распознавании символов (OCR)

Оптическое распознавание текста (OCR)

OCR извлекает текст из изображений, таких как рисунки, уличные знаки и продукты в файлах мультимедиа для создания аналитических сведений.

OCR извлекает аналитические сведения из печатного и рукописного текста на более чем 50 языках, включая изображение с текстом на нескольких языках. Дополнительные сведения см . на поддерживаемых языках OCR.

Дополнительные сведения о OCR см . в разделе "Технология OCR".

Вариант использования OCR

  • Глубокий поиск средств массовой информации кадры для изображений с знаками, уличными именами или номерными знаками автомобиля, например в правоохранительных органах.
  • Извлечение текста из изображений в файлах мультимедиа и его перевод на несколько языков в метках для специальных возможностей, например в средствах массовой информации или развлечениях.
  • Обнаружение названий фирменной символики в изображениях и их маркировке в целях перевода, например в рекламе и фирменной символике.
  • Извлечение текста в изображениях, которые затем автоматически помечены и классифицируются для специальных возможностей и будущего использования, например для создания содержимого в информационном агентстве.
  • Извлечение текста в предупреждениях в онлайн-инструкциях и перевод текста в соответствии с местными стандартами, например инструкции по использованию оборудования.

Просмотр json аналитики с помощью веб-портала

После отправки и индексирования видео аналитические сведения доступны в формате JSON для скачивания с помощью веб-портала.

  1. Перейдите на вкладку "Библиотека ".
  2. Выберите носитель, с которым вы хотите работать.
  3. Выберите "Скачать" и "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
  4. Найдите пару ключей, описанную в примере ответа.

Использование API

  1. Используйте запрос на получение индекса видео. Мы рекомендуем передать &includeSummarizedInsights=false.
  2. Найдите пары ключей, описанные в примере ответа.

Пример отклика

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Внимание

Важно прочитать общие сведения о прозрачности для всех функций VI. Каждое представление также имеет заметки о прозрачности собственных:

Заметки OCR

  • Индексатор видео имеет ограничение OCR в 50 000 слов для индексированного видео. После достижения ограничения не создаются дополнительные результаты OCR.
  • Тщательно рассмотрите точность результатов, чтобы повысить точность обнаружения, проверить качество изображения, низкое качество изображений может повлиять на обнаруженные аналитические сведения.
  • Внимательно рассмотрите возможность использования для правоохранительных органов. OCR может неправильно прочитать или не обнаружить части текста. Чтобы обеспечить справедливые и высококачественные определения VI, объедините автоматизацию на основе OCR с человеческим надзором.
  • При извлечении рукописного текста не используйте результаты OCR подписей, которые трудно читать как для людей, так и для компьютеров. Лучше использовать OCR для обнаружения наличия подписи для дальнейшего анализа.
  • Не используйте OCR для принятия решений, которые могут иметь серьезные негативные последствия для отдельных лиц или групп. Модели машинного обучения, которые извлекают текст, могут привести к незамеченному или неправильному выводу текста. Решения, основанные на неправильных выходных данных, могут иметь серьезные негативные последствия, которые необходимо избежать. Вы всегда должны включать в себя человеческий обзор решений, которые имеют потенциал для серьезных последствий для отдельных лиц.

Компоненты OCR

Во время процедуры OCR текстовые изображения в файле мультимедиа обрабатываются следующим образом:

Компонент Определение
Исходный файл Пользователь отправляет исходный файл для индексирования.
Модель чтения Изображения обнаруживаются в файле мультимедиа и тексте, а затем извлекаются и анализируются службами ИИ Azure.
Получение модели результатов чтения Выходные данные извлеченного текста отображаются в JSON-файле.
Значение достоверности Предполагаемый уровень достоверности каждого слова вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82.

Пример кода

См. все примеры для VI