Introducción a Intelligent Video Analytics

Completado

Cada día, las cámaras de vídeo producen grandes volúmenes de datos en dominios empresariales populares. Estas áreas incluyen entornos de hospitales, fabricación, comercio minorista y ciudades inteligentes. Muchas de estas implementaciones se pueden mejorar con la adición de inteligencia artificial que opera en los datos generados por los sensores de cámara en tiempo real.

Imagine poder supervisar la aplicación de avisos de estado o el cumplimiento de protocolos de seguridad en lugares de trabajo, adaptarse a la distribución demográfica de los clientes o responder a eventos de tráfico de forma automatizada. Puede lograr estos escenarios mediante soluciones basadas en vídeo que aplican IA a dispositivos de Internet de las cosas implementados en el perímetro.

Nos referimos a estos tipos de soluciones como aplicaciones de Intelligent Video Analytics (IVA). Extraen información accionable a través de la aplicación de algoritmos de visión informática basados en fotogramas de vídeo en directo. En esta tabla se describen tres tipos de algoritmos de visión informática:

Algoritmo de visión informática Funcionalidades
Detección de objetos Recorte de pantalla que muestra un ejemplo de detección de objetos con visión informática. Los modelos de detección de objetos están entrenados para clasificar objetos individuales dentro de una imagen, y para identificar su ubicación con un rectángulo delimitador. Por ejemplo, una solución de control del tráfico podría usar la detección de objetos para identificar la ubicación de varias clases de vehículos.
Clasificación de imágenes Recorte de pantalla que muestra un ejemplo de clasificación de imágenes con visión informática. La clasificación de imágenes implica entrenar un modelo de Machine Learning para clasificar imágenes en función de su contenido. Por ejemplo, considere una solución de supervisión del tráfico. Podría usar un modelo de clasificación de imágenes para clasificar las imágenes según el tipo de vehículo que contienen, como taxis, autobuses, bicicletas, etc.
Seguimiento de objetos Recorte de pantalla que muestra un ejemplo de seguimiento de objetos con visión informática. Puede aplicar el seguimiento de objetos a un objeto detectado a través de la detección de objetos. Al objeto se le asigna una identidad a la que puede hacer referencia a través de pases de inferencia sucesivos en una canalización de IVA. Por ejemplo, podría usar el seguimiento de objetos para contar instancias únicas de personas en un área.

Puede realizar evaluaciones eficaces mediante el uso de estos algoritmos en combinación para lograr una funcionalidad conocida como inferencia en cascada. A continuación se muestra un ejemplo de esta técnica:

  1. Identifica un vehículo y su ubicación en el marco mediante la detección de objetos.
  2. Usa un rastreador que asigne un identificador único a cada vehículo para contar el número de vehículos de la zona.
  3. Usa un modelo de clasificación de imágenes para determinar el color de cada vehículo.

Una vez tiene todo listo para generar información de esta manera, puede emplear más servicios para usar estos datos mediante la descarga en servicios en la nube en Microsoft Azure. En Azure, los datos se pueden procesar en tiempo real, pueden desencadenar tareas de automatización o pueden archivarse para el análisis histórico.

Habilitación del desarrollo de aplicaciones de Intelligent Video Analytics mediante NVIDIA DeepStream y Azure

NVIDIA DeepStream le permite desarrollar aplicaciones de Intelligent Video Analytics que usan un marco multiplataforma que puede implementar en el perímetro y conectarse a servicios en la nube. Este marco le permite definir visualmente canalizaciones de IVA mediante una herramienta de desarrollo denominada NVIDIA Graph Composer. La herramienta le permite definir orígenes de vídeo a partir de secuencias de vídeo RTSP de archivos, cámaras locales o redes que se pueden alimentar directamente en operaciones de inferencia únicas o en cascada. Estas operaciones generan información que luego puede reenviar a los servicios en la nube para su posterior procesamiento. Al realizar las tareas de inferencia con un uso de procesamiento intensivo localmente en el perímetro, puede reducir la cantidad de datos necesarios para transmitir información y telemetría a la nube.

Diagrama que muestra la arquitectura perimetral de DeepStream a la nube.

Requisitos de hardware y de sistema operativo

Para continuar con este módulo, debe tener acceso a una máquina basada en x86/AMD64 que ejecute Ubuntu 18.04. También debe asegurarse de que la máquina de desarrollo tiene instalada una de las siguientes tarjetas gráficas.

GPU compatibles con DeepStream 6.0

  • RTX 2080

  • RTX 3080

  • Tesla T4

  • Ampere A100

    Nota:

    Si planea usar una máquina virtual para satisfacer estos requisitos, puede encontrar problemas más adelante en esta ruta de aprendizaje al intentar iniciar NVIDIA Graph Composer si se conecta a la VM a través de una sesión remota. Todavía podrá continuar con el módulo, pero queremos asegurarnos de que conoce este problema.

Pruebe esto

Considere escenarios en los que podría usar visión informática para ayudarle a automatizar una tarea o simplificar un proceso tradicionalmente complejo. ¿Qué tendrían que ver las fuentes de vídeo? ¿Qué algoritmos de visión informática tendría que usar para implementar la solución (detección de objetos, clasificación de imágenes, seguimiento de objetos)?