Поделиться через


Получение аналитических сведений об оптическом распознавании символов (OCR)

OCR извлекает текст из изображений, таких как рисунки, уличные знаки и продукты в файлах мультимедиа для создания аналитических сведений.

OCR извлекает аналитические сведения из печатного и рукописного текста на более чем 50 языках, включая изображение с текстом на нескольких языках. Для получения дополнительной информации см. раздел Поддерживаемые языки OCR.

Для получения дополнительной информации об OCR см. раздел "Технология OCR".

Варианты использования OCR

  • Глубокий анализ медиаматериалов для поиска изображений с указателями, названиями улиц или номерами автомобильных номеров, например, в правоохранительных органах.
  • Извлечение текста из изображений в файлах мультимедиа и его перевод на несколько языков в метках для специальных возможностей, например в средствах массовой информации или развлечениях.
  • Обнаружение названий брендов на изображениях и их маркировка для перевода, например, в рекламе и брендинге.
  • Извлечение текста из изображений, который затем автоматически помечается и классифицируется для обеспечения доступности и будущего использования, например, для создания контента в новостном агентстве.
  • Извлечение текста в предупреждениях в онлайн-инструкциях и перевод текста в соответствии с местными стандартами, например, инструкции по использованию оборудования.

Просмотр json аналитики с помощью веб-портала

После отправки и индексирования видео скачайте аналитические сведения в формате JSON с веб-портала.

  1. Перейдите на вкладку "Библиотека ".
  2. Выберите нужный носитель.
  3. Выберите "Скачать", а затем выберите "Аналитика" (JSON). Файл JSON открывается на новой вкладке браузера.
  4. Найдите пару ключей, описанную в примере ответа.

Использование API

  1. Используйте запрос на получение индекса видео . Передайте &includeSummarizedInsights=false.
  2. Найдите пары ключей, описанные в примере ответа.

Пример отклика

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        }

Внимание

Ознакомьтесь с обзором заметок о прозрачности всех функций VI. Каждая идея также сопровождается собственной заметкой о прозрачности.

Заметки OCR

  • Индексатор видео имеет ограничение OCR в 50 000 слов для индексированного видео. После достижения ограничения не создаются дополнительные результаты OCR.
  • Тщательно рассмотрите точность результатов, чтобы повысить точность обнаружения, проверить качество изображения, низкое качество изображений может повлиять на обнаруженные аналитические сведения.
  • Внимательно рассмотрите возможность использования для правоохранительных органов. OCR может неправильно прочитать или не обнаружить части текста. Чтобы обеспечить справедливые и высококачественные определения VI, объедините автоматизацию на основе OCR с человеческим надзором.
  • При извлечении рукописного текста не используйте результаты OCR подписей, которые трудно читать как для людей, так и для компьютеров. Лучше использовать OCR для обнаружения наличия подписи для дальнейшего анализа.
  • Не используйте OCR для принятия решений, которые могут иметь серьезные негативные последствия для отдельных лиц или групп. Модели машинного обучения, которые извлекают текст, могут привести к незамеченному или неправильному выводу текста. Решения, основанные на неправильных выходных данных, могут иметь серьезные негативные последствия, которые необходимо избежать. Вы всегда должны включать в себя человеческий обзор решений, которые имеют потенциал для серьезных последствий для отдельных лиц.

Компоненты OCR

Во время процедуры OCR текстовые изображения в файле мультимедиа обрабатываются следующим образом:

Компонент Определение
Исходный файл Пользователь отправляет исходный файл для индексирования.
Модель чтения данных Изображения обнаруживаются в файле мультимедиа и тексте, а затем извлекаются и анализируются службами ИИ Azure.
Получение модели результатов чтения Выходные данные извлеченного текста отображаются в JSON-файле.
Значение достоверности Предполагаемый уровень достоверности каждого слова вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности представлена как оценка 0,82.

Пример кода

См. все примеры для VI