Compartir a través de


Inferencia de temas

Advertencia

En el último año, Video Indexer (VI) de Azure AI anunció la eliminación de su dependencia en Azure Media Services (AMS) debido a su retirada. Se anunciaron ajustes y cambios de características y se proporcionó una guía de migración.

La fecha límite para completar la migración fue el 30 de junio de 2024. VI ha ampliado la fecha límite de actualización y migración para que pueda actualizar su cuenta VI y participar en la migración de recursos de AMS VI hasta el 31 de agosto de 2024.

Sin embargo, después del 30 de junio, si no ha actualizado su cuenta VI, no podrá indexar nuevos vídeos ni podrá reproducir vídeos que no se hayan migrado. Si actualiza la cuenta después del 30 de junio, puede reanudar la indexación inmediatamente, pero no podrá reproducir vídeos indexados antes de la actualización de la cuenta hasta que se migren a través de la migración de AMS VI.

La inferencia de temas es una característica de inteligencia artificial de Video Indexer de Azure AI que crea automáticamente información inferida derivada del audio transcrito, el contenido de OCR en texto visual y celebridades reconocidas en el vídeo mediante el modelo de reconocimiento facial de Video Indexer. Los temas y categorías extraídos (cuando están disponibles) se muestran en la pestaña Conclusiones. Para ir al tema en el archivo multimedia, haga clic en un tema:> Reproducir anterior o Reproducir siguiente.

La información resultante también se genera en una lista clasificada en un archivo JSON que incluye el nombre del tema, el período de tiempo y la puntuación de confianza.

Requisitos previos

Revisión de la información general de la nota de transparencia

Visualización de la información

Para mostrar información de inferencia de temas en el sitio web.

  1. Vaya a Información y desplácese a Temas.

Para mostrar las instancias en un archivo JSON, haga lo siguiente:

  1. Haga clic en Descargar -> Información (JSON).

  2. Copie el topics texto y péguelo en el visor JSON.

    "topics": [
      {
        "id": 1,
        "name": "Pens",
        "referenceId": "Category:Pens",
        "referenceUrl": "https://en.wikipedia.org/wiki/Category:Pens",
        "referenceType": "Wikipedia",
        "confidence": 0.6833,
        "iabName": null,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:00:30",
            "adjustedEnd": "0:01:17.5",
            "start": "0:00:30",
            "end": "0:01:17.5"
          }
        ]
      },
      {
        "id": 2,
        "name": "Musical groups",
        "referenceId": "Category:Musical_groups",
        "referenceUrl": "https://en.wikipedia.org/wiki/Category:Musical_groups",
        "referenceType": "Wikipedia",
        "confidence": 0.6812,
        "iabName": null,
        "language": "en-US",
        "instances": [
          {
            "adjustedStart": "0:01:10",
            "adjustedEnd": "0:01:17.5",
            "start": "0:01:10",
            "end": "0:01:17.5"
          }
        ]
      },
    

Para descargar el archivo JSON a través de la API, use el portal para desarrolladores de Video Indexer de Azure AI.

Para obtener más información, vea acerca de los temas.

Componentes de temas

Durante el procedimiento de indexación de temas, se extraen los temas, como se indica a continuación:

Componente Definición
Idioma de origen El usuario carga el archivo de origen para la indexación.
En procesamiento previo Transcripción, OCR y AIS de reconocimiento facial extraen información del archivo multimedia.
Procesamiento de conclusiones Temas: La inteligencia artificial analiza la transcripción, la información de reconocimiento facial y OCR extraída durante el procesamiento previo:
- Texto transcrito, cada línea de información de texto transcrita se examina mediante tecnologías de inteligencia artificial basadas en ontología.
- La información de reconocimiento facial y OCR se examinan conjuntamente mediante tecnologías de inteligencia artificial basadas en ontología.
Posprocesamiento - Texto transcrito, las conclusiones se extraen y se vinculan a una categoría tema junto con el número de línea del texto transcrito. Por ejemplo, Política en la línea 7.
- OCR y reconocimiento facial, cada información está vinculada a una categoría tema junto con la hora de la instancia del tema en el archivo multimedia. Por ejemplo, Freddie Mercury en las categorías People and Music en 20.00.
Valor de confianza El nivel de confianza estimado de cada tema se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representa como una puntuación de 0,82.

Casos de uso de ejemplo

  • Personalización mediante la inferencia de temas para que coincidan con los intereses de los clientes, por ejemplo, sitios web sobre las promociones de publicaciones en Inglaterra sobre películas o festivales en inglés.
  • Los archivos de búsqueda en profundidad para obtener información sobre temas específicos para crear historias de características sobre empresas, personas o tecnologías, por ejemplo, por una agencia de noticias.
  • Monetización, aumentando el valor de conclusiones extraídas. Por ejemplo, los sectores como las noticias o las redes sociales que dependen de los ingresos de anuncios pueden entregar anuncios relevantes mediante la información extraída como señales adicionales al servidor de anuncios.

Consideraciones y limitaciones al elegir un caso de uso

A continuación se muestran algunas consideraciones que se deben tener en cuenta al usar temas:

  • Al cargar un archivo siempre se usa contenido de vídeo de alta calidad. El tamaño máximo de fotograma recomendado es HD y la velocidad de fotogramas es de 30 FPS. Un marco no debe contener más de 10 personas. Cuando se generan fotogramas de vídeos a modelos de IA, solo se envían alrededor de 2 o 3 fotogramas por segundo. El procesamiento de 10 y más fotogramas podría retrasar el resultado de la inteligencia artificial.
  • Al cargar un archivo siempre se usa contenido de audio y vídeo de alta calidad. Se requiere al menos 1 minuto de voz conversacional espontánea para realizar análisis. Los efectos de audio solo se detectan en segmentos que no son de voz. La duración mínima de una sección que no es de voz es de 2 segundos. No se admiten comandos de voz ni canto.
  • Normalmente, es posible que no se detecten personas pequeñas u objetos menores de 200 píxeles y personas que están sentadas. Es posible que las personas que usen ropa o uniformes similares se detecten como la misma persona y se les dará el mismo número de identificación. Es posible que no se detecten personas u objetos que están obstruidas. Las pistas de personas con posturas frontales y posteriores pueden dividirse en diferentes instancias.