Extracción de palabras clave

Artículo
06/26/2024

Advertencia

En el último año, Video Indexer (VI) de Azure AI anunció la eliminación de su dependencia en Azure Media Services (AMS) debido a su retirada. Se anunciaron ajustes y cambios de características y se proporcionó una guía de migración.

La fecha límite para completar la migración fue el 30 de junio de 2024. VI ha ampliado la fecha límite de actualización y migración para que pueda actualizar su cuenta VI y participar en la migración de recursos de AMS VI hasta el 31 de agosto de 2024.

Sin embargo, después del 30 de junio, si no ha actualizado su cuenta VI, no podrá indexar nuevos vídeos ni podrá reproducir vídeos que no se hayan migrado. Si actualiza la cuenta después del 30 de junio, puede reanudar la indexación inmediatamente, pero no podrá reproducir vídeos indexados antes de la actualización de la cuenta hasta que se migren a través de la migración de AMS VI.

La extracción de palabras clave es una característica de IA de Video Indexer de Azure AI que detecta automáticamente información sobre las distintas palabras clave que se describen en los archivos multimedia. La extracción de palabras clave puede extraer información tanto en archivos multimedia de un solo idioma como en varios idiomas. El número total de palabras clave extraídas y sus categorías se muestran en la pestaña Conclusiones, donde al hacer clic en una palabra clave y, a continuación, hacer clic en Reproducir anterior o Reproducir siguiente salta a la palabra clave en el archivo multimedia.

Requisitos previos

Revisión de la información general de la nota de transparencia

Visualización de la información

En el sitio web, la información se muestra en la pestaña Conclusiones . También se pueden generar en una lista clasificada en un archivo JSON que incluya el identificador de la palabra clave, el texto, junto con la puntuación de confianza y inicio y hora de finalización específicas de cada palabra clave.

Para mostrar las instancias en un archivo JSON:

Seleccione Descargar y, a continuación,Información (JSON).

Copie el texto y péguelo en el Visor JSON en línea.

"keywords": [
  {
    "id": 1,
    "text": "office insider",
    "confidence": 1,
    "language": "en-US",
    "instances": [
      {
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:00:05.75",
        "start": "0:00:00",
        "end": "0:00:05.75"
      },
      {
        "adjustedStart": "0:01:21.82",
        "adjustedEnd": "0:01:24.7",
        "start": "0:01:21.82",
        "end": "0:01:24.7"
      },
      {
        "adjustedStart": "0:01:31.32",
        "adjustedEnd": "0:01:32.76",
        "start": "0:01:31.32",
        "end": "0:01:32.76"
      },
      {
        "adjustedStart": "0:01:35.8",
        "adjustedEnd": "0:01:37.84",
        "start": "0:01:35.8",
        "end": "0:01:37.84"
      }
    ]
  },
  {
    "id": 2,
    "text": "insider tip",
    "confidence": 0.9975,
    "language": "en-US",
    "instances": [
      {
        "adjustedStart": "0:01:14.91",
        "adjustedEnd": "0:01:19.51",
        "start": "0:01:14.91",
        "end": "0:01:19.51"
      }
    ]
  },

Para descargar el archivo JSON a través de la API, use el portal para desarrolladores de Video Indexer de Azure AI.

Nota:

La extracción de palabras clave es independiente del lenguaje.

Componentes de palabras clave

Durante el procedimiento Keywords, se procesan audio e imágenes en un archivo multimedia, como se indica a continuación:

Componente	Definición
Idioma de origen	El usuario carga el archivo de origen para la indexación.
API de transcripción	El archivo de audio se envía a los servicios de Azure AI y se devuelve la salida transcrita traducida. Si se ha especificado un idioma, se procesa.
OCR de vídeo	Las imágenes de un archivo multimedia se procesan mediante La API de lectura de Azure AI Vision para extraer texto, su ubicación y otras conclusiones.
Extracción de palabras clave	Un algoritmo de extracción procesa el audio transcrito. A continuación, los resultados se combinan con la información detectada en el vídeo durante el proceso de OCR. Las palabras clave y dónde aparecen en los medios y, a continuación, detectan e identifican.
Nivel de confianza	El nivel de confianza estimado de cada palabra clave se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representa como una puntuación de 0,82.

Casos de uso de ejemplo

Personalización de palabras clave para que coincidan con los intereses de los clientes, por ejemplo, sitios web sobre las promociones de publicaciones en Inglaterra sobre películas o festivales en inglés.
Los archivos de búsqueda en profundidad para obtener información sobre palabras clave específicas para crear historias de características sobre empresas, personas o tecnologías, por ejemplo, por una agencia de noticias.

Consideraciones y limitaciones al elegir un caso de uso

Cargue siempre un contenido de audio y vídeo de alta calidad. El tamaño máximo de fotograma recomendado es HD y la velocidad de fotogramas es de 30 FPS. Un marco no debe contener más de 10 personas. Cuando se generan fotogramas de vídeos a modelos de IA, solo se envían alrededor de 2 o 3 fotogramas por segundo. El procesamiento de 10 y más fotogramas podría retrasar el resultado de la inteligencia artificial. Se requiere al menos 1 minuto de voz conversacional espontánea para realizar análisis. Los efectos de audio solo se detectan en segmentos nopeech. La duración mínima de una sección nonspeech es de 2 segundos. No se admiten comandos de voz ni canto.

Compartir a través de