Compartir a través de


Soluciones de vídeo de Azure AI Content Understanding (versión preliminar)

Importante

  • Azure AI Content Understanding está disponible en versión preliminar. Las versiones preliminares públicas proporcionan acceso anticipado a las características que están en desarrollo activo.
  • Las características, los enfoques y los procesos pueden cambiar o tener funcionalidades limitadas antes de la disponibilidad general (GA).
  • Para obtener más información, consulteTérminos de uso complementarios para las versiones preliminares de Microsoft Azure.

Azure AI Content Understanding permite generar un conjunto estándar de metadatos de vídeo y crear campos personalizados para su caso de uso específico mediante la eficacia de los modelos generativos. La comprensión de contenidos ayuda a administrar, clasificar, recuperar y compilar flujos de trabajo de forma eficaz para los recursos de vídeo. Mejora la biblioteca de recursos multimedia, admite flujos de trabajo como la generación de resaltado, clasifica el contenido y facilita aplicaciones como la generación aumentada de recuperación (RAG).

Ilustración del flujo de procesamiento de vídeo de Content Understanding.

El analizador de vídeo precompilado genera Markdown listo para RAG que incluye:

  • Transcripción: Transcripciones insertadas en formato WEBVTT estándar
  • Descripción: Descripciones de segmentos de lenguaje natural con contexto visual y de voz
  • Segmentación: Segmentación automática de escenas que divide el vídeo en fragmentos lógicos
  • Fotogramas clave: Miniaturas de fotograma clave ordenadas que permiten un análisis más profundo

Este formato puede colocarse directamente en un almacén de vectores para habilitar un agente o flujos de trabajo RAG, sin que se requiera procesamiento posterior.

Desde allí puede personalizar el analizador para un control más específico de la salida. Puede definir campos personalizados, segmentos o habilitar la identificación facial. La personalización permite usar toda la eficacia de los modelos generativos para extraer información detallada de los detalles visuales y de audio del vídeo.

Por ejemplo, la personalización le permite:

  • Definir campos personalizados: para identificar qué productos y marcas se ven o se mencionan en el vídeo.
  • Generar segmentos personalizados: para segmentar una difusión de noticias en capítulos basados en los temas o noticias que se describen.
  • Identifique a los usuarios que usan un directorio de personas que permite a un cliente etiquetar los oradores de conferencia en el material de vídeo mediante la identificación facial, por ejemplo, CEO John Doe, CFO Jane Smith.

¿Por qué usar Content Understanding para vídeo?

La comprensión del contenido para el vídeo tiene un amplio potencial de uso. Por ejemplo, puede personalizar los metadatos para etiquetar escenas específicas en un vídeo de entrenamiento, lo que facilita a los empleados localizar y volver a consultar secciones importantes. También puede usar la personalización de metadatos para identificar la ubicación del producto en vídeos promocionales, lo que ayuda a los equipos de marketing a analizar la exposición de la marca. Los otros casos de uso son:

  • Medios de difusión y entretenimiento: Administre bibliotecas grandes de programas, películas y clips mediante la generación de metadatos detallados para cada recurso.
  • Educación y aprendizaje electrónico: Indexe y recupere momentos específicos en vídeos educativos o conferencias.
  • Formación corporativa: Organice vídeos de entrenamiento por temas clave, escenas o momentos importantes.
  • Marketing y publicidad: Analice vídeos promocionales para extraer ubicaciones de productos, apariencias de marca y mensajes clave.

Ejemplo de analizador de vídeo precompilado

Con el analizador de vídeo preconfigurado (prebuilt-videoAnalyzer), puede cargar un vídeo y obtener un recurso de conocimiento de uso inmediato. El servicio empaqueta cada clip en Markdown y JSON con formato enriquecido. Este proceso permite que el índice de búsqueda o el agente de chat se ingieren sin código de pegar personalizado.

  • Por ejemplo, cree la base prebuilt-videoAnalyzer de la siguiente manera:

    {
      "config": {},
      "BaseAnalyzerId": "prebuilt-videoAnalyzer",
    }
    
  • A continuación, analizar un vídeo publicitario de 30 segundos daría como resultado la siguiente salida:

       # Video: 00:00.000 => 00:30.000
       Width: 1280
       Height: 720
    
       ## Segment 1: 00:00.000 => 00:06.000
       A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Get new years ready.
    
       Key Frames
       - 00:00.600 ![](keyFrame.600.jpg)
       - 00:01.200 ![](keyFrame.1200.jpg)
    
       ## Segment 2: 00:06.000 => 00:10.080
       The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment.
    
       Transcript
    
       WEBVTT
    
       00:03.600 --> 00:06.000
       <Speaker 1>Go team!
    
       Key Frames
       - 00:06.200 ![](keyFrame.6200.jpg)
       - 00:07.080 ![](keyFrame.7080.jpg)
    
          *…additional data omitted for brevity…*
    

Ejemplo paso a paso

Recientemente hemos publicado un tutorial para RAG en vídeo mediante Content Understanding. https://www.youtube.com/watch?v=fafneWnT2kw&lc=Ugy2XXFsSlm7PgIsWQt4AaABAg

Capacidades

  1. Extracción de contenido
  2. Extracción de campos
  3. Identificación facial

En segundo plano, dos fases transforman píxeles sin procesar en información preparada para la empresa. En el diagrama siguiente se muestra cómo la extracción alimenta la generación, garantizando que cada paso descendente tenga el contexto que necesita.

Captura de pantalla del flujo del analizador de vídeo.

El servicio funciona en dos fases. La primera fase, la extracción de contenido, implica capturar metadatos fundamentales, como transcripciones, capturas y caras. La segunda fase, la extracción de campos, usa un modelo generativo para generar campos personalizados y realizar la segmentación. Además, puede habilitar opcionalmente un complemento face para identificar a los usuarios y describirlos en el vídeo.

Funcionalidades de extracción de contenido

El primer paso consiste en extraer un primer conjunto de detalles, quién habla, dónde están los cortes y qué caras se repiten. Crea una base sólida de metadatos sobre la cual los pasos posteriores pueden basarse.

  • Transcripción: Convierte el audio conversacional en transcripciones basadas en texto que se pueden buscar y analizar en formato WebVTT. Las marcas de tiempo a nivel de oración están disponibles si se establece "returnDetails": true. Content Understanding admite el conjunto completo de idiomas de conversión de voz en texto de Azure AI Speech. Los detalles de la compatibilidad con idiomas para vídeo son los mismos que el audio, consulteControl de idioma de audio para obtener más información. Los siguientes detalles de transcripción son importantes tener en cuenta:

    • Diarización: Distingue entre los hablantes de una conversación en el resultado final, asignando partes de la transcripción a hablantes específicos.

    • Transcripción multilingüe: Genera transcripciones multilingües. La configuración de idioma o regional se aplica a cada frase en la transcripción. Salida de frases cuando "returnDetails": true se establece. Cuando se desvía de la detección de idioma, esta función se habilita cuando no se especifica ningún idioma o configuración regional, o cuando el idioma se establece en auto.

      Nota:

      Cuando se usa la transcripción multilingüe, los archivos con configuraciones regionales no admitidas producen un resultado basado en la configuración regional más cercana admitida, lo que probablemente es incorrecto. Este resultado es un comportamiento conocido. Evite problemas de calidad de transcripción asegurándose de configurar configuraciones regionales cuando no use una configuración regional compatible con la transcripción multilingüe.

    • Extracción de fotogramas clave: Extrae fotogramas clave de vídeos para representar cada captura completamente, lo que garantiza que cada captura tenga suficientes fotogramas clave para permitir que la extracción de campos funcione de forma eficaz.

    • Detección de cortes: identifica los segmentos del vídeo alineados con los límites de captura siempre que sea posible, lo que permite editar y volver a empaquetar el contenido con interrupciones exactamente existentes. La salida es una lista de marcas de tiempo en milisegundos en cameraShotTimesMs. La salida solo se devuelve cuando se establece "returnDetails": true.

Extracción y segmentación de campos

A continuación, el modelo generativo superpone significado: realiza etiquetado de escenas, resume acciones y segmenta el metraje en partes según su solicitud. Esta acción es donde las indicaciones se convierten en datos estructurados.

Campos personalizados

Dar forma a la salida para que coincida con el vocabulario empresarial. Use un fieldSchema objeto donde cada entrada define el nombre, el tipo y la descripción de un campo. En tiempo de ejecución, el modelo generativo rellena esos campos para cada segmento.

Ejemplos:

  • Administración de recursos multimedia:

    • Categoría de vídeo: Ayuda a los editores y productores a organizar el contenido, clasificándolo como Noticias, Deportes, Entrevista, Documental, Anuncio, etc. Resulta útil para el etiquetado de metadatos y el filtrado y recuperación de contenido más rápidos.
    • Combinación de colores: Transmite el estado de ánimo y la atmósfera, esencial para la coherencia narrativa y la interacción del espectador. La identificación de temas de color ayuda a buscar clips coincidentes para la edición acelerada de vídeo.
  • Publicidad:

    • Marca: Identifica la presencia de marca, fundamental para analizar el impacto de los anuncios, la visibilidad de la marca y la asociación con los productos. Esta funcionalidad permite a los anunciantes evaluar la importancia de la marca y garantizar el cumplimiento de las directrices de personalización de marca.
    • Categorías de anuncios: Clasifica los tipos de anuncios por sector, tipo de producto o segmento de audiencia, que admite estrategias de publicidad dirigidas, categorización y análisis de rendimiento.

Ejemplo:

"fieldSchema": {
  "description": "Extract brand presence and sentiment per scene",
  "fields": {
    "brandLogo": {
      "type": "string",
      "method": "generate",
      "description": "Brand being promoted in the video. Include the product name if available."
    },
    "Sentiment": {
      "type": "string",
      "method": "classify",
      "description": "Ad categories",
      "enum": [
        "Consumer Packaged Goods",
        "Groceries",
        "Technology"
      ]
    }
  }
}

Modo de segmentación

Nota:

Al establecer la segmentación, se desencadena la extracción de campos aunque no se defina ningún campo.

Content Understanding ofrece tres maneras de segmentar un vídeo, lo que le permite obtener la salida que necesita para vídeos completos o clips cortos. Puede usar estas opciones estableciendo la SegmentationMode propiedad en un analizador personalizado.

  • Vídeo completo : segmentationMode : noSegmentation el servicio trata todo el archivo de vídeo como un único segmento y extrae metadatos durante toda su duración.

    Ejemplo:

    • Comprobaciones de cumplimiento que buscan problemas específicos de seguridad de marca en cualquier lugar de un anuncio
    • resúmenes descriptivos de longitud completa
  • Segmentación automática : segmentationMode = auto el servicio analiza la escala de tiempo y la divide automáticamente. Agrupa las capturas sucesivas en escenas coherentes, limitadas a un minuto cada una.

    Ejemplo:

    • Crear guiones gráficos a partir de un programa
    • Insertar anuncios intermedios en pausas lógicas.
  • Segmentación personalizada : segmentationMode : custom describe la lógica en lenguaje natural y el modelo crea segmentos para que coincidan. Establezca segmentationDefinition con una cadena que describa cómo desea segmentar el vídeo. Custom permite segmentos de longitud variable, desde segundos hasta minutos, dependiendo de la indicación.

    Ejemplo:

    • Divida una noticia en historias.
    {
      "segmentationMode": "custom",
      "segmentationDefinition": "news broadcasts divided by individual stories"
    }
    

Complemento de identificación y descripción de caras

Nota:

Esta característica es un acceso limitado e implica la identificación y agrupación de caras; Los clientes deben registrarse para obtener acceso en Reconocimiento facial. Las prestaciones de Face conllevan costos adicionales.

La descripción de la identificación facial es un complemento que proporciona contexto a la extracción de contenido y la extracción de campos mediante información facial.

Extracción de contenido: agrupación e identificación

El complemento facial habilita la agrupación y la identificación como salida de la sección de extracción de contenido. Para habilitar las capacidades faciales, configure "enableFace":true en el analizador.

  • Agrupación: Caras agrupadas que aparecen en un vídeo para extraer una imagen de cara representativa para cada persona y proporciona segmentos donde cada uno está presente. Los datos de caras agrupados están disponibles como metadatos y se pueden usar para generar campos de metadatos personalizados cuando returnDetails: true para el analizador.
  • Identificación: Etiqueta a los usuarios del vídeo con nombres basados en un directorio de persona de Face API. Los clientes pueden habilitar esta característica proporcionando un nombre para un directorio de API de Face en el recurso actual en la propiedad personDirectoryId del analizador. Para usar esta funcionalidad, primero debe crear un personDirectory y, a continuación, hacer referencia a ella en el analizador. Para obtener más información sobre cómo hacerlo, consulte How to build a person directory (Cómo crear un directorio de persona).

Extracción de campos: descripción de la cara

La funcionalidad de extracción de campos se mejora proporcionando descripciones detalladas de caras identificadas en el vídeo. Esta funcionalidad incluye atributos como el cabello facial, las emociones y la presencia de celebridades, que pueden ser cruciales para diversos propósitos analíticos e indizadores. Para habilitar las capacidades de descripción facial, configure disableFaceBlurring : true en la configuración del analizador.

Ejemplos:

  • Campo de ejemplo: emotionDescription: Proporciona una descripción del estado emocional de la persona principal en este clip (por ejemplo, happy, sad, angry)
  • Campo de ejemplo: facialHairDescription: Describe el tipo de cabello facial (por ejemplo, beard, mustache, clean-shaven)

Ventajas principales

La comprensión de contenidos proporciona varias ventajas clave en comparación con otras soluciones de análisis de vídeo:

  • Análisis de varios fotogramas basados en segmentos: identificar acciones, eventos, temas y temas mediante el análisis de varios fotogramas de cada segmento de vídeo, en lugar de fotogramas individuales.
  • Personalización: Personalice los campos y la segmentación que genere modificando el esquema de acuerdo con su caso de uso específico.
  • Modelos generativos: Describir en lenguaje natural qué contenido desea extraer y Content Understanding usa modelos generativos para extraer esos metadatos.
  • Preprocesamiento optimizado: Realice varios pasos de preprocesamiento de extracción de contenido, como la transcripción y la detección de escenas, optimizados para proporcionar un contexto enriquecido a los modelos generativos de IA.

Limitaciones y restricciones técnicas

Limitaciones específicas del procesamiento de vídeo que se debe tener en cuenta:

  • Muestreo de fotogramas (~ 1 FPS): el analizador inspecciona aproximadamente un fotograma por segundo. Es posible que se pierdan movimientos rápidos o eventos de un solo fotograma.
  • Resolución de fotogramas (512 × 512 px):los marcos muestreados se cambian de tamaño a 512 píxeles cuadrados. Se puede perder texto pequeño o objetos distantes.
  • Voz: solo se transcriben las palabras habladas. Se omiten la música, los efectos de sonido y el ruido ambiente.

Requisitos de entrada

Para conocer los formatos admitidos, consulte Cuotas y límites de servicio.

Idiomas y regiones admitidos

Consulte Compatibilidad con idiomas y regiones.

Seguridad y privacidad de datos

Al igual que con todos los servicios de Azure AI, revise la documentación de datos, protección y privacidad de Microsoft.

Importante

Si procesa datos biométricos (por ejemplo, habilitar la agrupación de caras o la identificación facial), debe cumplir todos los requisitos de aviso, consentimiento y eliminación en virtud del RGPD u otras leyes aplicables. Consulte Datos y privacidad de Face.

Pasos siguientes