Share via


Introducción a Video Indexer de Azure AI

Importante

Debido al anuncio de retirada de Azure Media Services, Video Indexer de Azure AI anuncia los ajustes de las características de Video Indexer de Azure AI. Consulte Cambios relacionados con la retirada de Azure Media Service (AMS) para comprender lo que esto significa para la cuenta de Video Indexer de Azure AI. Consulte la guía Preparación para la retirada de AMS: vi actualización y migración.

Video Indexer de Azure AI es una aplicación en la nube, que forma parte de los servicios de Azure AI, creados en servicios de Azure AI (como Face, Traductor, Azure AI Vision y Speech). Permite extraer conclusiones de los vídeos con los modelos de vídeo y audio de Video Indexer de Azure AI.

Video Indexer de Azure AI analiza el contenido de audio y vídeo mediante la ejecución de más de 30 modelos de IA, lo que genera información enriquecida. A continuación, se muestra una ilustración del análisis de audio y vídeo realizado por Video Indexer de Azure AI en segundo plano:

Diagrama del flujo de Video Indexer de Azure AI.

Para empezar a extraer información con Video Indexer de Azure AI, consulte la sección Introducción.

¿Qué puedo hacer con Video Indexer de Azure AI?

La información de Video Indexer de Azure AI se puede aplicar a muchos escenarios:

  • Búsqueda profunda: use la información extraída del vídeo para mejorar la experiencia de búsqueda en una biblioteca de vídeos. Por ejemplo, la indexación de palabras habladas y de caras, permite la experiencia de búsqueda de momentos en un vídeo en los que una persona ha pronunciado ciertas palabras o cuando se han visto juntas a dos personas. La búsqueda basada en esta información de los vídeos se puede aplicar a agencias de noticias, instituciones educativas, emisoras, propietarios de contenido de entretenimiento, aplicaciones de línea de negocio de empresas y, en general, a cualquier sector que tenga una biblioteca de vídeos en la que los usuarios necesiten buscar.
  • Creación de contenido: cree clips finales, momentos destacados, contenido de medios sociales o clips de noticias basados en la información que Video Indexer de Azure AI extrae de su contenido. Los fotogramas clave, marcadores de escenas y marcas de tiempo para las apariciones de personas y etiquetas hacen que el proceso de creación sea mucho más fluido y sencillo, lo que le permiten ir a las partes del vídeo que necesita al crear contenido.
  • Accesibilidad: si desea que el contenido esté disponible para personas con discapacidades, o que se distribuya en distintas regiones con distintos idiomas, puede usar la transcripción y traducción que proporciona Video Indexer de Azure AI en varios idiomas.
  • Monetization: Video Indexer de Azure AI puede ayudar a aumentar el valor de los vídeos. Por ejemplo, los sectores que dependen de los ingresos por publicidad (medios de comunicación, redes sociales, etc.), pueden entregar anuncios relevantes con la información extraída como señales adicionales al servidor de anuncios.
  • Moderación de contenido: use modelos de moderación de contenido textual y visual para proteger a los usuarios del contenido inadecuado y asegúrese de que el contenido que publica coincide con los valores de la organización. Puede bloquear automáticamente determinados vídeos o avisar a los usuarios sobre el contenido.
  • Recomendaciones: La información de vídeo se puede usar para mejorar la interacción con los usuarios, resaltando los momentos de vídeo que les puedan resultar más pertinentes. Al etiquetar cada vídeo con metadatos adicionales, puede recomendar a los usuarios los vídeos más importantes y resaltar las partes del vídeo que se adaptan mejor a sus necesidades.

Características de IA de audio y vídeo

En la siguiente lista se muestra la información que se puede recuperar de los archivos de vídeo o audio mediante los modelos de las características (modelos) de IA de audio y vídeo de Video Indexer de Azure AI.

A menos que se especifique lo contrario, un modelo está disponible con carácter general.

Modelos de vídeo

  • Detección de caras: detecta y agrupa las caras que aparecen en el vídeo.

  • Identificación de famosos: identifica a más de un millón de famosos (como líderes mundiales, actores, artistas, atletas, investigadores y líderes empresariales y tecnológicos de todo el mundo). Los datos sobre estos famosos también pueden encontrarse en diversos sitios web (IMDB, Wikipedia, etc.).

  • Identificación de caras basada en cuentas: entrena un modelo para una cuenta específica. A continuación reconoce las caras en el vídeo según el modelo entrenado. Para obtener más información, consulte Personalización de un modelo de persona mediante el sitio web de Video Indexer de Azure AI y Personalización de un modelo de persona con la API de Video Indexer de Azure AI.

  • Extracción de miniaturas de caras: identifica automáticamente la mejor cara capturada en cada grupo de caras (según la calidad, el tamaño y la posición frontal) y la extrae como un recurso de imagen.

  • Reconocimiento óptico de caracteres (OCR): extrae texto de imágenes como imágenes, señales de tráfico y productos en archivos multimedia para crear conclusiones.

  • Moderación de contenido visual: Detecta los objetos visuales para adultos o subidos de tono.

  • Identificación de etiquetas: identifica los objetos visuales y las acciones que se muestran.

  • Segmentación de escenas: determina cuándo cambia una escena en el vídeo en función de las indicaciones visuales. Una escena representa un evento único y se compone de una serie de cortes consecutivos que están semánticamente relacionados.

  • Detección de cortes: determina cuándo cambia un corte en el vídeo en función de las indicaciones visuales. Un corte es una serie de fotogramas tomados a partir de la misma cámara de imágenes en movimiento. Para más información, consulte Scenes, shots, and keyframes (Escenas, cortes y fotogramas clave).

  • Detección de fotogramas negros: identifica los fotogramas negros presentados en el vídeo.

  • Extracción de fotogramas clave: detecta los fotogramas clave estables en un vídeo.

  • Créditos de rodaje: identifica el principio y el final de los créditos al final de las series de televisión y las películas.

  • Detección del tipo de toma editorial: etiquetado de capturas basado en su tipo (como plano general, plano medio, primer plano, primerísimo primer plano, dos tomas, varias personas, exterior e interior, etc.). Para más información, consulte Detección del tipo de toma editorial.

  • Seguimiento de personas observadas (versión preliminar): detecta personas observadas en vídeos y proporciona información, como la ubicación de la persona en el fotograma de vídeo (mediante rectángulos delimitadores) y la marca de tiempo exacta (inicio y fin), y la confianza cuando aparece una persona. Para más información, vea Seguimiento de las personas observadas en un vídeo.

    • Ropa detectada de la gente (versión preliminar): detecta los tipos de prendas de las personas que aparecen en el vídeo y proporciona información, como mangas largas o cortas, pantalones largos o cortos y falda o vestido. La ropa detectada está asociada con las personas que la llevan y se proporciona la marca de tiempo exacta (inicio y fin) junto con el nivel de confianza de la detección. Para más información, consulte ropa detectada.
    • Ropa destacada (versión preliminar): captura imágenes de ropa destacadas que aparecen en un vídeo. Puede mejorar los anuncios segmentados mediante la información de ropa destacada. Para obtener información sobre cómo se clasifican las imágenes de ropa destacadas y cómo obtener la información, consulte ropa destacada.
  • Persona que coincide (versión preliminar): devuelve una coincidencia de las personas observadas en el vídeo con las caras correspondientes detectadas. La coincidencia entre las personas observadas y las caras contiene un nivel de confianza.

  • Detección de objetos Detecta objetos únicos de los que también se realiza un seguimiento para que, si vuelven al marco, se reconocen. Consulte Detección de objetos de Video Indexer de Azure AI

  • Detección de pizarras (versión preliminar): identifica las siguientes conclusiones de postproducción de películas al indexar un vídeo mediante la opción de indexación avanzada:

    • Detección de claquetas con extracción de metadatos.
    • Detección de patrones digitales, incluidas las barras de color.
    • Detección de careta sin texto, incluida la coincidencia de escenas.

    Para más información, consulte Detección de careta.

  • Detección de logotipos de texto (versión preliminar): busca correspondencias con un texto predefinido específico mediante el OCR de Video Indexer de Azure AI. Por ejemplo, si un usuario ha creado el logotipo textual "Microsoft", las distintas apariciones de la palabra Microsoft se detectarán como el logotipo de "Microsoft". Para obtener más información, vea Detección de logotipo de texto.

Modelos de audio

  • Transcripción de audio: convierte voz en texto en más de 50 idiomas y permite extensiones. Para obtener más información, consulte Compatibilidad con idiomas de Video Indexer de Azure AI.

  • Detección automática de idioma: identifica el idioma hablado dominante. Para obtener más información, consulte Compatibilidad con idiomas de Video Indexer de Azure AI. Si el idioma hablado no se puede identificar con confianza, Video Indexer de Azure AI supone que es inglés. Para obtener más información, vea Modelo de identificación de idiomas.

  • Identificación y transcripción de voz en varios idiomas: identifica el idioma hablado en diferentes segmentos del audio. Envía cada segmento del archivo multimedia que se va a transcribir y luego combina la transcripción en una unificada. Para más información, consulte Identificación y transcripción automáticas del contenido de varios idiomas.

  • Subtítulos (CC) : crea subtítulos en tres formatos: VTT, TTML y SRT.

  • Procesamiento de dos canales: detecta, separa la transcripción y se combina en una única escala de tiempo de forma automática.

  • Reducción de ruido: borra el audio telefónico o las grabaciones ruidosas (basado en los filtros de Skype).

  • Personalización de la transcripción (CRIS): entrena modelos personalizados de conversión de voz en texto para crear transcripciones específicas del sector. Para obtener más información, consulte Personalización de un modelo de lenguaje mediante el sitio web de Video Indexer de Azure AI y Personalización de un modelo de lenguaje con la API de Video Indexer de Azure AI.

  • Enumeración de altavoz: asigna y comprende las palabras que transmitió cada altavoz y cuándo. Se pueden detectar dieciséis altavoces en un solo archivo de audio.

  • Estadísticas de altavoz: Proporciona las estadísticas de las relaciones de voz de los altavoces.

  • Moderación de contenido textual: detecta texto explícito en la transcripción de audio.

  • Detección de emociones basadas en texto: emociones como alegría, tristeza, ira y miedo detectados a través del análisis de transcripciones.

  • Traducción: crea traducciones de la transcripción de audio en muchos idiomas diferentes. Para obtener más información, consulte Compatibilidad con idiomas de Video Indexer de Azure AI.

  • Detección de efectos de audio (versión preliminar): detecta los siguientes efectos de audio en los segmentos del contenido que no son de voz: alarma o sirena, ladridos, reacciones de una multitud (júbilo, aplausos y abucheos), disparo de un arma o explosión, risas, rotura de un cristal y silencio.

    Los eventos acústicos detectados se encuentran en el archivo de subtítulos. El archivo se puede descargar desde el sitio web de Video Indexer de Azure AI. Para más información, consulte Detección de efectos de audio.

    Nota:

    El conjunto completo de eventos solo está disponible cuando se elige Advanced Audio Analysis (Análisis de audio avanzado) al cargar un archivo, en Upload preset (Cargar valores predeterminados). De forma predeterminada, solo se detecta el silencio.

Modelos de audio y vídeo (varios canales)

Al indexar por un canal, hay resultados parciales disponibles para esos modelos.

  • Extracción de palabras clave: extrae palabras clave a partir de voz y texto visual.
  • Extracción de entidades con nombre: extrae marcas, ubicaciones y personas del lenguaje hablado y del texto visual mediante el procesamiento de lenguaje natural (NLP).
  • Inferencia de temas: extrae temas basados en varias palabras clave (es decir, las palabras clave "Stock Exchange", "Wall Street" generan el tema "Economía"). El modelo usa tres ontologías diferentes (IPTC, Wikipedia y la ontología de temas jerárquicos de Video Indexer). El modelo usa la transcripción (palabras habladas), el contenido de OCR (texto visual) y las celebridades reconocidas en el vídeo mediante el modelo de reconocimiento facial de Video Indexer.
  • Artefactos: extrae una amplia variedad de artefactos de "detalles de siguiente nivel" para cada uno de los modelos.
  • Análisis de opiniones: identifica opiniones positivas, negativas y neutras a partir de voz y texto visual.

¿Cómo puedo empezar a usar Video Indexer de Azure AI?

Obtenga más información sobre cómo empezar a trabajar con Video Indexer de Azure AI.

Una vez configurado, empiece a usar la información y consulte otras guías de procedimientos.

Cumplimiento, privacidad y seguridad

Nota:

El 11 de junio de 2020 Microsoft anunció que no venderá tecnología de reconocimiento facial a los departamentos de policía de Estados Unidos hasta que se promulgue un reglamento estricto cimentado en los derechos humanos. Por lo tanto, es posible que los clientes no usen las características o la funcionalidad del reconocimiento facial incluidas en los servicios de Azure AI, como Face o Video Indexer, si un cliente es un departamento de policía de los Estados Unidos o permite el uso de dichos servicios por parte de cualquiera de ellos.

Nota

El acceso a las características de identificación, personalización y reconocimiento de celebridades de Face está limitado en función de los criterios de idoneidad y uso para apoyar nuestros principios de inteligencia artificial responsable. Las características de identificación, personalización y reconocimiento de celebridades de Face solo están disponibles para los clientes y asociados que administra Microsoft. Use el formulario de admisión de reconocimiento facial para solicitar acceso.

Como recordatorio importante, debe cumplir la legislación aplicable al uso de Video Indexer de Azure AI y no puede utilizar este servicio ni ningún otro servicio de Azure de forma que infrinja los derechos de otras personas o que pueda ser perjudicial para ellas.

Antes de cargar un vídeo o una imagen en Video Indexer de Azure AI, debe tener todos los derechos adecuados para usar ese vídeo o imagen, incluidos (cuando lo exija la ley) todos los consentimientos necesarios de las personas (si las hay) que aparecen en ellos, para el uso, el procesamiento y el almacenamiento de sus datos en Video Indexer de Azure AI y Azure. Algunas jurisdicciones pueden imponer requisitos legales especiales sobre la recopilación, el procesamiento en línea y el almacenamiento de determinadas categorías de datos, como los datos biométricos. Antes de usar Video Indexer de Azure AI y Azure para el procesamiento y el almacenamiento de datos sujetos a requisitos legales especiales, debe garantizar el cumplimiento de tales requisitos legales que puedan aplicarse en su caso.

Para información sobre el cumplimiento, la privacidad y la seguridad en Video Indexer de Azure AI, visite el Centro de confianza de Microsoft. En lo que respecta a las obligaciones de privacidad y a las prácticas de retención y tratamiento de datos de Microsoft, entre las que se incluye la forma de eliminar los datos, lea la declaración de privacidad, los términos de Online Services ("OST") y el anexo de procesamiento de datos ("DPA") de Microsoft. Con el uso de Video Indexer de Azure AI, acepta estar vinculado por el OST, el DPA y la declaración de privacidad.