Оптическое распознавание текста (OCR)

Внимание

Из-за объявления об Службы мультимедиа Azure выхода на пенсию Индексатор видео Azure объявляет корректировки функций Индексатора видео Azure. Ознакомьтесь с изменениями, связанными с выходом на пенсию службы мультимедиа Azure (AMS), чтобы понять, что это означает для учетной записи Индексатора видео Azure. Ознакомьтесь с руководством по обновлению и миграции AMS: VI.

Оптическое распознавание символов (OCR) — это функция ИИ индексатора видео Azure, которая извлекает текст из изображений, таких как изображения, уличные знаки и продукты в файлах мультимедиа для создания аналитических сведений.

В настоящее время OCR извлекает аналитические сведения из печатного и рукописного текста на более чем 50 языках, включая изображение с текстом на нескольких языках. Дополнительные сведения см . на поддерживаемых языках OCR.

Необходимые компоненты

Обзор заметки о прозрачности

Общие принципы

В этой статье рассматриваются оптическое распознавание символов (OCR) и ключевые аспекты использования этой технологии ответственно. При принятии решения о том, как использовать и реализовать функцию СИ, необходимо учитывать многое:

  • Будет ли эта функция хорошо работать в моем сценарии? Перед развертыванием OCR в вашем сценарии проверьте, как она выполняется с использованием данных реального времени и убедитесь, что она может обеспечить необходимую точность.
  • Есть ли возможности для обнаружения ошибок и реагирования на них? Продукты и функции, на основе искусственного интеллекта, не будут точными на 100%, поэтому рассмотрим способ выявления и реагирования на любые ошибки, которые могут возникнуть.

Просмотр аналитических сведений

При работе с веб-сайтом на вкладке "Временная шкала " отображаются аналитические сведения. Кроме того, их можно создать в списке с категоризированным списком в JSON-файле, который включает идентификатор, транскрибированный текст, длительность и оценку достоверности.

Чтобы просмотреть экземпляры на веб-сайте, сделайте следующее:

  1. Перейдите к просмотру и проверка OCR.
  2. Выберите временную шкалу, чтобы отобразить извлеченный текст.

Аналитика также можно создать в списке с категоризированным списком в JSON-файле, который включает идентификатор, язык, текст вместе с оценкой достоверности каждого экземпляра.

Чтобы просмотреть аналитические сведения в JSON-файле, сделайте следующее:

  1. Выберите "Скачать — аналитика"> (JSON).

  2. ocr Скопируйте элемент в разделе insightsи вставьте его в веб-средство просмотра JSON.

    "ocr": [
        {
          "id": 1,
          "text": "2017 Ruler",
          "confidence": 0.4365,
          "left": 901,
          "top": 3,
          "width": 80,
          "height": 23,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:45.5",
              "adjustedEnd": "0:00:46",
              "start": "0:00:45.5",
              "end": "0:00:46"
            },
            {
              "adjustedStart": "0:00:55",
              "adjustedEnd": "0:00:55.5",
              "start": "0:00:55",
              "end": "0:00:55.5"
            }
          ]
        },
        {
          "id": 2,
          "text": "2017 Ruler postppu - PowerPoint",
          "confidence": 0.4712,
          "left": 899,
          "top": 4,
          "width": 262,
          "height": 48,
          "angle": 0,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:44.5",
              "adjustedEnd": "0:00:45",
              "start": "0:00:44.5",
              "end": "0:00:45"
            }
          ]
        },
    

Чтобы скачать JSON-файл с помощью API, используйте портал разработчика Индексатора видео Azure AI.

Компоненты OCR

Во время процедуры OCR текстовые изображения в файле мультимедиа обрабатываются следующим образом:

Компонент Определение
Исходный файл Пользователь отправляет исходный файл для индексирования.
Модель чтения Изображения обнаруживаются в файле мультимедиа, а затем извлекаются и анализируются службами ИИ Azure.
Получение модели результатов чтения Выходные данные извлеченного текста отображаются в JSON-файле.
Значение достоверности Предполагаемый уровень достоверности каждого слова вычисляется как диапазон от 0 до 1. Оценка достоверности представляет уверенность в точности результата. Например, 82% определенности будут представлены как оценка 0,82.

Дополнительные сведения см . в разделе "Технология OCR".

Примеры вариантов использования

  • Глубокий поиск средств массовой информации кадры для изображений с знаками, уличными именами или номерными знаками автомобиля, например в правоохранительных органах.
  • Извлечение текста из изображений в файлах мультимедиа и его перевод на несколько языков в метках для специальных возможностей, например в средствах массовой информации или развлечениях.
  • Обнаружение названий фирменной символики в изображениях и их маркировке в целях перевода, например в рекламе и фирменной символике.
  • Извлечение текста в изображениях, которые затем автоматически помечены и классифицируются для специальных возможностей и будущего использования, например для создания содержимого в информационном агентстве.
  • Извлечение текста в предупреждениях в онлайн-инструкциях и перевод текста в соответствии с местными стандартами, например инструкции по использованию оборудования.

Рекомендации и ограничения при выборе варианта использования

  • Индексатор видео имеет ограничение OCR в 50 000 слов для индексированного видео. После достижения ограничения не создаются дополнительные результаты OCR.
  • Тщательно рассмотрите точность результатов, чтобы повысить точность обнаружения, проверка качество изображения, низкое качество изображений может повлиять на обнаруженные аналитические сведения.
  • Внимательно рассмотрите при использовании для правоохранительных органов, что OCR может потенциально неправильно считать или не обнаруживать части текста. Чтобы обеспечить справедливые и высококачественные решения, объедините автоматизацию на основе OCR с человеческим надзором.
  • При извлечении рукописного текста не используйте результаты OCR подписей, которые трудно читать как для людей, так и для компьютеров. Лучше использовать OCR для обнаружения наличия подписи для дальнейшего анализа.
  • Не используйте OCR для принятия решений, которые могут иметь серьезные негативные последствия. Модели машинного обучения, которые извлекают текст, могут привести к незамеченному или неправильному выводу текста. Решения, основанные на неправильных выходных данных, могут иметь серьезные негативные последствия. Кроме того, рекомендуется включить человеческую проверку решений, которые имеют потенциал для серьезных последствий для отдельных лиц.

При использовании ответственно и тщательно индексатора видео Azure AI является ценным инструментом для многих отраслей. Чтобы уважать конфиденциальность и безопасность других пользователей, а также соблюдать местные и глобальные правила, рекомендуется следующее:

  • Всегда уважайте право человека на конфиденциальность и только прием видео для законных и оправданных целей.  
  • Не раскрывайте неуместное содержимое о маленьких детях или членах семьи знаменитостей или других содержимого, которые могут быть вредными или представляют угрозу для личной свободы человека.  
  • Приверженность уважению и продвижению прав человека в разработке и развертывании проанализированных средств массовой информации.  
  • При использовании сторонних материалов следует учитывать все существующие авторские права или разрешения, необходимые перед распространением содержимого, полученного от них. 
  • Всегда искать юридическую консультацию при использовании содержимого из неизвестных источников. 
  • Всегда получайте соответствующие юридические и профессиональные советы, чтобы обеспечить защиту отправленных видео и иметь надлежащие средства контроля для сохранения целостности содержимого и предотвращения несанкционированного доступа.    
  • Предоставьте канал обратной связи, позволяющий пользователям и пользователям сообщать о проблемах со службой.  
  • Помните о любых применимых законах или правилах, которые существуют в вашей области, касающиеся обработки, анализа и совместного использования средств массовой информации, содержащих людей. 
  • Держите человека в цикле. Не используйте какое-либо решение в качестве замены человеческого надзора и принятия решений.  
  • Полностью изучите и просмотрите потенциал любой модели ИИ, которую вы используете для понимания возможностей и ограничений. 

Дополнительные сведения о OCR