Obtenga información sobre la detección de efectos de audio

2025-06-05

La detección de efectos de audio detecta eventos acústicos y los clasifica en categorías como risas, reacciones de multitud, alarmas o sirenas.

Casos de uso de efectos de audio

Mejore la accesibilidad al ofrecer más contexto para un público con discapacidades auditivas mediante la transcripción de efectos no verbales.
Mejora de la eficacia al crear datos sin procesar para creadores de contenido. Se pueden identificar momentos importantes en promociones y tráileres, como risas, reacciones de multitud, disparos o explosiones, por ejemplo, en Medios y Entretenimiento.
Detecte y clasifique disparos, explosiones y roturas de vidrio en un sistema de ciudad inteligente o en otros entornos públicos que incluyan cámaras y micrófonos.

Categorías de audio admitidas

La detección de efectos de audio puede detectar y clasificar efectos en categorías estándar y avanzadas. Para más información, consulte los precios.

En la tabla siguiente se muestran las categorías que se admiten en función del nombre preestablecido (Audio only / Video + Audio / Al usar la indexación avanzada , las categorías aparecen en el panel Insights del sitio web.

Clase	Indexación estándar	Indexación avanzada
Reacciones de una multitud		✔️
Silencio	✔️	✔️
Disparos o explosiones		✔️
Vidrio roto		✔️
Alarma o sirena		✔️
Risa		✔️
Perro		✔️
Timbre de campana		✔️
Pájaros		✔️
Coche		✔️
Motor		✔️
Llanto		✔️
Reproducción de música		✔️
Gritando		✔️
Tormenta		✔️

Visualización de la información JSON con el portal web

Después de cargar e indexar un vídeo, descargue información en formato JSON desde el portal web.

Seleccione la pestaña Biblioteca.
Seleccione los medios que desee.
Seleccione Descargar y, a continuación, seleccione Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
Busque el par de claves descrito en la respuesta de ejemplo.

Uso de la API

Use una solicitud Obtener índice de vídeo . Pase &includeSummarizedInsights=false.
Busque los pares de claves descritos en la respuesta de ejemplo.

Respuesta de ejemplo

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

Importante

Lea la información general de la nota de transparencia para todas las características de VI. Cada perspectiva también tiene su propia nota de transparencia.

Notas de detección de efectos de audio

Evite el uso de audio corto o de baja calidad; la detección de efectos de audio proporciona datos probabilísticos y parciales sobre eventos de audio sin habla detectados. Para lograr precisión, la detección de efectos de audio requiere al menos 2 segundos de audio claro sin habla. No se admiten comandos de voz ni canto.  
Evite el uso de audio con música de fondo fuerte o música con frecuencia repetitiva y/o escaneada linealmente, la detección de efectos de audio está diseñada solo para audio no hablado y, por lo tanto, no puede clasificar eventos en música fuerte. La música con frecuencia repetitiva y/o escaneada linealmente muchas veces se clasifica incorrectamente como una alarma o sirena.
Para promover datos probabilísticos más precisos, asegúrese de que:
- Los efectos de audio solo se pueden detectar en segmentos no hablados.
- La duración de una sección sin habla debe ser de al menos 2 segundos.
- El audio de baja calidad puede afectar a los resultados de la detección.
- Los eventos con música de fondo alta no se clasifican.
- La música con frecuencia repetitiva o linealmente escaneada podría clasificarse incorrectamente como alarma o sirena.
- Golpear una puerta o dar un portazo puede ser considerado un disparo o una explosión.
- Los gritos prolongados o los sonidos del esfuerzo físico humano podrían clasificarse incorrectamente.
- Un grupo de personas riendo podría clasificarse tanto como risa como multitud.
- Se admiten sonidos de disparos y explosiones naturales y no sintéticos.

Componentes de detección de efectos de audio

Durante el procedimiento de detección de efectos de audio, se procesa el audio en un archivo multimedia, como se indica a continuación:

Componente	Definición
Archivo de origen	El usuario carga el archivo de origen para la indexación.
Segmentación	El audio se analiza. El audio no vocal se identifica, y luego se divide en partes internas cortas que se solapan.
clasificación	Un proceso de inteligencia artificial analiza cada segmento y clasifica su contenido en categorías de eventos, como la reacción de la multitud o la risa. A continuación, se crea una lista de probabilidades para cada categoría de eventos según las reglas específicas del departamento.
Nivel de confianza	El nivel de confianza estimado de cada efecto de audio se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representa como una puntuación de 0,82.

Código de ejemplo

Ver todos los ejemplos de VI

Subtítulos

Los efectos de audio en los archivos de subtítulos aparecen dentro de corchetes cuadrados.

Tipo	Ejemplo
SRT	00:00:00,000 00:00:03,671 [Disparos o explosiones]
VTT	00:00:00.000 00:00:03.671 [Disparos o explosiones]
TTML	Confianza: 0.9047 `<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>`
TXT	[Disparos o explosiones]
CSV	0.9047,00:00:00.000,00:00:03.671, [Disparos o explosiones]

Nota:

Silence El tipo de evento no se agrega a los subtítulos cerrados.
La duración mínima del temporizador para mostrar un evento es de 700 milisegundos.

Adición de efectos de audio a archivos de subtítulos

Interfaz de Programación de Aplicaciones (API)

Puede agregar efectos de sonido a los archivos de subtítulos cerrados con la solicitud Obtener subtítulos de vídeo y eligiendo true para el parámetro includeAudioEffects.

Nota:

Cuando usas la transcripción actualizada de archivos de subtítulos o la actualización del modelo de lenguaje personalizado de archivos de subtítulos, se ignoran los efectos de audio incluidos en esos archivos.

Portal web

También puede utilizar el portal web seleccionando Descargar->Subtítulos->Incluir efectos de audio.