Compartir a través de


Escenas, capturas y fotogramas clave

Importante

Debido al anuncio de retirada de Azure Media Services, Video Indexer de Azure AI anuncia los ajustes de las características de Video Indexer de Azure AI. Consulte Cambios relacionados con la retirada de Azure Media Service (AMS) para comprender lo que esto significa para la cuenta de Video Indexer de Azure AI. Consulte la guía Preparación para la retirada de AMS: vi actualización y migración.

Video Indexer de Azure AI admite la segmentación de vídeos en unidades temporales basadas en propiedades estructurales y semánticas. Esta funcionalidad permite a los clientes examinar, administrar y editar fácilmente su contenido de vídeo en función de distintas granularidades. Por ejemplo, según las escenas, los cortes y los fotogramas clave, como se describe en este tema.

Escenas, capturas y fotogramas clave

Detección de escenas

Video Indexer de Azure AI determina cuándo cambia una escena en el vídeo en función de las indicaciones visuales. Una escena representa un único evento y se compone de una serie de capturas consecutivas, que están relacionadas semánticamente. Una vista en miniatura de la escena es el primer fotograma clave de su captura subyacente. Video Indexer de Azure AI segmenta un vídeo en escenas en función de la coherencia de color entre capturas consecutivas y recupera la hora de inicio y finalización de cada escena. La detección de escenas se considera una tarea complicada ya que supone cuantificar los aspectos semánticas de los vídeos.

Nota:

Se aplica a los vídeos que contienen al menos tres escenas.

Detección de cortes

Video Indexer de Azure AI determina cuándo cambia una captura en el vídeo en función de las indicaciones visuales, mediante el seguimiento de transiciones abruptas y graduales en la combinación de colores de fotogramas adyacentes. Los metadatos del corte incluyen una hora de inicio y de finalización, así como la lista de fotogramas clave incluidos en ese corte. Los cortes son fotogramas consecutivos que se toman con la misma cámara al mismo tiempo.

Detección de fotogramas clave

Video Indexer de Azure AI selecciona los fotogramas que mejor representan cada captura. Los fotogramas clave son los fotogramas representativos seleccionados de todo el vídeo según propiedades estéticas (por ejemplo, el contraste y la estabilidad). Video Indexer de Azure AI recupera una lista de identificadores de fotograma clave como parte de los metadatos de la captura, en función de los cuales los clientes puedan extraer el fotograma clave como una imagen de alta resolución.

Extracción de fotogramas clave

Para extraer fotogramas clave de alta resolución para el vídeo, primero debe cargar e indexar el vídeo.

Fotogramas clave

Con el sitio web de Azure AI Video Indexer

Para extraer fotogramas clave mediante el sitio web de Azure AI Video Indexer, cargue e indexe el vídeo. Una vez completado el trabajo de indexación, haga clic en el botón Descargar y seleccione Artefactos (ZIP). Esto descargará la carpeta artefactos en el equipo (asegúrese de ver la advertencia con respecto a los artefactos siguientes). Descomprima y abra la carpeta. Vaya a la carpeta _KeyframeThumbnail y encontrará todos los fotogramas clave que se extrajeron del vídeo.

Captura de pantalla que muestra el menú desplegable

Advertencia

No se recomienda usar datos directamente desde la carpeta artefactos para fines de producción. Los artefactos son salidas intermedias del proceso de indexación. Son esencialmente salidas sin procesar de los distintos motores de inteligencia artificial que analizan los vídeos; el esquema de los artefactos puede cambiar con el tiempo. Se recomienda usar Get Video Index API, como se describe en Obtención de información y artefactos generados por la API.

Con Azure AI Video Indexer API

Para obtener fotogramas clave mediante la API de Video Indexer, cargue e indexe el vídeo con la llamada a Upload Video (Cargar vídeo). Una vez completado el trabajo de indexación, llame a Get Video Index (Obtener índice del vídeo). Esto le proporcionará toda la información que Video Indexer extrae del contenido en un archivo JSON.

Obtendrá una lista de identificadores de fotogramas clave como parte de los metadatos de cada captura.

"shots":[  
    {  
      "id":0,
      "keyFrames":[  
          {  
            "id":0,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:00.209",
                  "end":"0:00:00.251",
                  "duration":"0:00:00.042"
                }
            ]
          },
          {  
            "id":1,
            "instances":[  
                {  
                  "thumbnailId":"00000000-0000-0000-0000-000000000000",
                  "start":"0:00:04.755",
                  "end":"0:00:04.797",
                  "duration":"0:00:00.042"
                }
            ]
          }
      ],
      "instances":[  
          {  
            "start":"0:00:00",
            "end":"0:00:06.34",
            "duration":"0:00:06.34"
          }
      ]
    },

]

Ahora tendrá que ejecutar cada uno de estos identificadores de fotogramas clave en la llamada a Get Thumbnails (Obtener miniaturas). Se descargará cada una de las imágenes de fotogramas clave en el equipo.

Detección del tipo de toma editorial

Los fotogramas clave están asociados con cortes del archivo JSON de salida.

El tipo de toma asociado a una toma individual en el JSON de las conclusiones representa su tipo editorial. Las características de estos tipos de toma son útiles al editar vídeos en clips, avances o al buscar un estilo concreto de fotograma clave para fines artísticos. Los diferentes tipos se determinan en función del análisis del primer fotograma clave de cada toma. Las capturas se identifican por la escala, el tamaño y la ubicación de las caras que aparecen en su primer fotograma clave.

El tamaño y la escala de la toma se determinan en función de la distancia entre la cámara y las caras que aparecen en el fotograma. Con estas propiedades, Video Indexer de Azure AI detecta los siguientes tipos de captura:

  • Plano general: muestra todo el cuerpo de una persona.
  • Plano medio: muestra la cara y la parte superior del cuerpo de una persona.
  • Primer plano: muestra principalmente la cara de una persona.
  • Primerísimo primer plano: muestra la cara de una persona que rellena la pantalla.

Los tipos de capturas también pueden determinarse por la ubicación de los personajes del sujeto con respecto al centro del fotograma. Esta propiedad define los siguientes tipos de captura en Video Indexer de Azure AI:

  • Cara en la izquierda: una persona aparece en el lado izquierdo del fotograma.
  • Cara en el centro: una persona aparece en el área central del fotograma.
  • Cara en la derecha: una persona aparece en el lado derecho del fotograma.
  • Exterior: una persona aparece en un entorno exterior.
  • Interior: una persona aparece en un entorno interior.

Características adicionales:

  • Dos tomas: muestra las caras de dos personas en tamaño medio.
  • Varias caras: más de dos personas.