Compartir a través de


Obtención de conclusiones de detección de efectos de audio

Detección de efectos de audio

La detección de efectos de audio detecta eventos acústicos y los clasifica en categorías como risas, reacciones de multitud, alarmas o sirenas.

Casos de uso de efectos de audio

  • Mejore la accesibilidad al ofrecer más contexto para un público con discapacidades auditivas mediante la transcripción de efectos no secundarios.
  • Mejora de la eficacia al crear datos sin procesar para creadores de contenido. Se pueden identificar momentos importantes en promociones y tráileres, como risas, reacciones de multitud, disparos o explosiones, por ejemplo, en Medios y Entretenimiento.
  • Detecte y clasifique disparos, explosiones y roturas de vidrio en un sistema de ciudad inteligente o en otros entornos públicos que incluyan cámaras y micrófonos.

Categorías de audio admitidas

La detección de efectos de audio puede detectar y clasificar efectos en categorías estándar y avanzadas. Para más información, consulte los precios.

En la tabla siguiente se muestran las categorías que se admiten en función del nombre preestablecido (Audio only / Video + Audio frente a Advance Audio / Advance Video + Audio). Al usar la indexación avanzada , las categorías aparecen en el panel Insights del sitio web.

Clase Indexación estándar Indexación avanzada
Reacciones de una multitud ✔️
Silencio ✔️ ✔️
Disparos o explosiones ✔️
Vidrio roto ✔️
Alarma o sirena ✔️
Risa ✔️
Perro ✔️
Timbre de campana ✔️
Pájaros ✔️
Coche ✔️
Motor ✔️
Llanto ✔️
Reproducción de música ✔️
Gritando ✔️
Tormenta ✔️

Visualización del JSON de información con el portal web

Una vez que haya cargado e indexado un vídeo, la información está disponible en formato JSON para su descarga mediante el portal web.

  1. Seleccione la pestaña Biblioteca .
  2. Seleccione los medios con los que desea trabajar.
  3. Seleccione Descargar y Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
  4. Busque el par de claves descrito en la respuesta de ejemplo.

Uso de la API

  1. Use la solicitud Obtener índice de vídeo. Se recomienda pasar &includeSummarizedInsights=false.
  2. Busque los pares de claves descritos en la respuesta de ejemplo.

Respuesta de ejemplo

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

Importante

Es importante leer la información general de la nota de transparencia para todas las características vi. Cada información también tiene notas de transparencia propias:

Notas de detección de efectos de audio

  • Evite el uso de audio corto o de baja calidad, la detección de efectos de audio proporciona datos probabilísticos y parciales en eventos de audio no detectados. Para obtener precisión, la detección de efectos de audio requiere al menos 2 segundos de audio sin formato claro. No se admiten comandos de voz ni canto.  
  • Evite el uso de audio con música de fondo fuerte o música con frecuencia repetitiva o linealmente escaneada, la detección de efectos de audio está diseñada solo para audio nopeech y, por lo tanto, no puede clasificar eventos en música alta. La música con frecuencia repetitiva o linealmente escaneada muchas se clasifican incorrectamente como alarma o sirena.
  • Para promover datos probabilísticos más precisos, asegúrese de que:
    • Los efectos de audio solo se pueden detectar en segmentos nopeech.
    • La duración de una sección nonspeech debe ser de al menos 2 segundos.
    • El audio de baja calidad puede afectar a los resultados de la detección.
    • Los eventos en música de fondo fuerte no se clasifican.
    • La música con frecuencia repetitiva o linealmente escaneada podría clasificarse incorrectamente como alarma o sirena.
    • Llamar a una puerta o golpear una puerta podría etiquetarse como un disparo o explosión.
    • Los gritos prolongados o los sonidos del esfuerzo físico humano podrían clasificarse incorrectamente.
    • Es posible que un grupo de personas se ríen como risas y multitud.
    • Se admiten sonidos de disparos y explosiones naturales y no lógicos.

Componentes de detección de efectos de audio

Durante el procedimiento de detección de efectos de audio, se procesa el audio en un archivo multimedia, como se indica a continuación:

Componente Definición
Archivo de origen El usuario carga el archivo de origen para la indexación.
Segmentación El audio se analiza, se identifica el audio nonspeech y, a continuación, se divide en elementos internos superpuestos cortos.
clasificación Un proceso de inteligencia artificial analiza cada segmento y clasifica su contenido en categorías de eventos, como la reacción de la multitud o la risa. A continuación, se crea una lista de probabilidades para cada categoría de eventos según las reglas específicas del departamento.
Nivel de confianza El nivel de confianza estimado de cada efecto de audio se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representa como una puntuación de 0,82.

Código de ejemplo

Ver todos los ejemplos de VI


Subtítulos

Los efectos de audio en los archivos de subtítulos aparecen como corchetes:

Tipo Ejemplo
SRT 00:00:00,000 00:00:03,671
[Disparos o explosiones]
VTT 00:00:00.000 00:00:03.671
[Disparos o explosiones]
TTML Confianza: 0.9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [Disparos o explosiones]
CSV 0.9047,00:00:00.000,00:00:03.671, [Disparos o explosiones]

Nota:

  • Silence El tipo de evento no se agregará a los subtítulos.
  • La duración mínima del temporizador para mostrar un evento es de 700 milisegundos.

Adición de efectos de audio a archivos de subtítulos

API

Puede agregar efectos de audio a archivos de subtítulos con la solicitud Obtener subtítulos de vídeo y eligiendo true para el includeAudioEffects parámetro .

Nota:

Al usar la transcripción de actualización de archivos de subtítulos o actualizar el modelo de lenguaje personalizado a partir de archivos de subtítulos, se omiten los efectos de audio incluidos en esos archivos.

Portal web

También puede usar el portal web seleccionando Descargar -Subtítulos ->>Incluir efectos de audio.