Compartir a través de


Obtén información sobre la detección de escenas, tomas y fotogramas clave

La detección de escenas detecta cuándo cambia una escena en un vídeo en función de las indicaciones visuales. Una escena muestra un único evento y tiene una serie de capturas relacionadas. Las tomas son una serie de fotogramas que difieren por señales visuales, como cambios bruscos o graduales en el esquema de colores de fotogramas adyacentes. Los metadatos de captura incluyen la hora de inicio, la hora de finalización y una lista de fotogramas clave en la captura. Un fotograma clave es un fotograma de una toma que representa mejor la captura.

Casos prácticos de detección de escenas, tomas y fotogramas clave

  • Examine, administre y edite fácilmente el contenido de vídeo en función de las distintas granularidades.
  • Utilice la detección del tipo de plano editorial para editar vídeos en clips, trailers o cuando busque un estilo específico de fotograma clave.

Detección de escenas

Video Indexer de Azure AI determina cuándo cambia una escena en el vídeo en función de las indicaciones visuales. Una escena representa un único evento compuesto por una serie de capturas consecutivas, que están relacionadas semánticamente.

Una vista en miniatura de la escena es el primer fotograma clave de su captura subyacente.

Video Indexer de Azure AI segmenta un vídeo en escenas en función de la coherencia de color entre capturas consecutivas y recupera la hora de inicio y finalización de cada escena.

Los vídeos deben contener al menos tres escenas.

Detección de tomas

Video Indexer de Azure AI determina cuándo cambia una captura en el vídeo en función de las indicaciones visuales. Para ello, detecta transiciones abruptas y graduales en la combinación de colores y otra característica visual de marcos adyacentes. Los metadatos de la captura incluyen una hora de inicio y finalización, y la lista de fotogramas clave incluidos en esa captura. Los tomas son fotogramas consecutivos tomados con la misma cámara al mismo instante.

Nota:

Puede haber un espacio entre tomas que incluya fotogramas que formen parte de la transición. Por lo tanto, estos fotogramas no se consideran parte de la captura.

Detección del tipo de toma editorial de fotogramas clave

El tipo de captura se determina en función del análisis del primer fotograma clave de cada captura. Las tomas se identifican por la escala, el tamaño y la ubicación de las caras que aparecen en su primer fotograma clave.

El tamaño y la escala de la toma se determinan en función de la distancia entre la cámara y las caras que aparecen en el fotograma. Video Indexer de Azure AI detecta los siguientes tipos de captura mediante estas propiedades:

  • Ancho de imagen: muestra el cuerpo entero de una persona.
  • Plano medio: muestra la cara y la parte superior del cuerpo de una persona.
  • Primer plano: muestra principalmente la cara de una persona.
  • Primer plano extremo: muestra la cara de una persona llenando la pantalla.

Los tipos de toma también pueden determinarse por la ubicación de los personajes respecto al centro del fotograma. Esta propiedad define los siguientes tipos de captura en Video Indexer de Azure AI:

  • Lado izquierdo de la cara: aparece una persona en la parte izquierda del fotograma.
  • Cara en el centro: una persona aparece en el área central del fotograma.
  • Lado derecho de la cara: aparece una persona en la parte derecha del fotograma.
  • Exterior: una persona aparece en un entorno exterior.
  • Interior: una persona aparece en un entorno interior.

Otras características:

  • Dos tomas: muestra las caras de dos personas en tamaño medio.
  • Varias caras: más de dos personas.

Visualización de la información JSON con el portal web

Después de cargar e indexar un vídeo, descargue información en formato JSON desde el portal web.

  1. Seleccione la pestaña Biblioteca.
  2. Seleccione los medios que desee.
  3. Seleccione Descargar y, a continuación, seleccione Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
  4. Busque el par de claves descrito en la respuesta de ejemplo.

Uso de la API

  1. Use una solicitud Obtener índice de vídeo . Pase &includeSummarizedInsights=false.
  2. Busque los pares de claves descritos en la respuesta de ejemplo.

Respuesta de ejemplo

"scenes": [
                    {
                        "id": 1,
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:09.1333333",
                                "start": "0:00:00",
                                "end": "0:00:09.1333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "instances": [
                            {
                                "adjustedStart": "0:00:09.1333333",
                                "adjustedEnd": "0:00:10.8",
                                "start": "0:00:09.1333333",
                                "end": "0:00:10.8"
                            }
                        ]
                    },
                    {
                        "id": 3,
                        "instances": [
                            {
                                "adjustedStart": "0:00:10.8",
                                "adjustedEnd": "0:00:26.9333333",
                                "start": "0:00:10.8",
                                "end": "0:00:26.9333333"
                            }
                        ]
                    }...
                    {
                        "id": 31,
                        "instances": [
                            {
                                "adjustedStart": "0:18:45",
                                "adjustedEnd": "0:18:50.2",
                                "start": "0:18:45",
                                "end": "0:18:50.2"
                            }
                        ]
                    }
                ],
                "shots": [
                    {
                        "id": 1,
                        "tags": [
                            "Wide",
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 1,
                                "instances": [
                                    {
                                        "thumbnailId": "60152925-0e6d-48cf-be33-aa6c00dfb334",
                                        "adjustedStart": "0:00:00.1666667",
                                        "adjustedEnd": "0:00:00.2",
                                        "start": "0:00:00.1666667",
                                        "end": "0:00:00.2"
                                    }
                                ]
                            },
                            {
                                "id": 2,
                                "instances": [
                                    {
                                        "thumbnailId": "f1a09cdf-b42b-45f5-bc69-5292d1216e50",
                                        "adjustedStart": "0:00:00.2333333",
                                        "adjustedEnd": "0:00:00.2666667",
                                        "start": "0:00:00.2333333",
                                        "end": "0:00:00.2666667"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:00",
                                "adjustedEnd": "0:00:01.9333333",
                                "start": "0:00:00",
                                "end": "0:00:01.9333333"
                            }
                        ]
                    },
                    {
                        "id": 2,
                        "tags": [
                            "Medium"
                        ],
                        "keyFrames": [
                            {
                                "id": 3,
                                "instances": [
                                    {
                                        "thumbnailId": "b17774d0-41cf-4174-9c41-6bc2f17c86e2",
                                        "adjustedStart": "0:00:02",
                                        "adjustedEnd": "0:00:02.0333333",
                                        "start": "0:00:02",
                                        "end": "0:00:02.0333333"
                                    }
                                ]
                            }
                        ],
                        "instances": [
                            {
                                "adjustedStart": "0:00:01.9333333",
                                "adjustedEnd": "0:00:02.9666667",
                                "start": "0:00:01.9333333",
                                "end": "0:00:02.9666667"
                            }
                        ]
                    }...

Descargar los fotogramas clave con la API

Para descargar cada fotograma clave, utilice los id. de fotograma clave con una solicitud de la API de Obtener miniaturas.

Advertencia

No use datos directamente desde la carpeta artifacts para fines de producción. Los artefactos son salidas intermedias del proceso de indexación y son salidas sin procesar de diferentes motores de IA que analizan vídeos. El esquema de artefactos puede cambiar con el tiempo.

Importante

Lea la información general de la nota de transparencia para todas las características de VI. Cada perspectiva también tiene su propia nota de transparencia.

Notas sobre la detección de escenas, tomas y fotogramas clave

  • El detector funciona mejor en archivos multimedia que tienen capturas y escenas dentro de ellos.
  • Si el vídeo se filma con una cámara que nunca se mueve, la segmentación de planos no funciona bien y los fotogramas clave podrían no ser representativos.
  • Los fotogramas clave se seleccionan teniendo en cuenta el nivel de desenfoque de los fotogramas. Si la mayor parte de la toma es borrosa, por ejemplo, debido al movimiento, puede que el fotograma clave también esté borroso.
  • Los vídeos con mala calidad visual producen resultados deficientes.
  • La hora de cada captura, escena o fotograma clave puede cambiar (menos de un segundo).

Componentes de escena, plano y fotograma clave

No hay componentes definidos.

Código de ejemplo

Ver todos los ejemplos de VI