Obtención de conclusiones de detección de efectos de audio
Detección de efectos de audio
La detección de efectos de audio detecta eventos acústicos y los clasifica en categorías como risas, reacciones de multitud, alarmas o sirenas.
Casos de uso de efectos de audio
- Mejore la accesibilidad al ofrecer más contexto para un público con discapacidades auditivas mediante la transcripción de efectos no secundarios.
- Mejora de la eficacia al crear datos sin procesar para creadores de contenido. Se pueden identificar momentos importantes en promociones y tráileres, como risas, reacciones de multitud, disparos o explosiones, por ejemplo, en Medios y Entretenimiento.
- Detecte y clasifique disparos, explosiones y roturas de vidrio en un sistema de ciudad inteligente o en otros entornos públicos que incluyan cámaras y micrófonos.
Categorías de audio admitidas
La detección de efectos de audio puede detectar y clasificar efectos en categorías estándar y avanzadas. Para más información, consulte los precios.
En la tabla siguiente se muestran las categorías que se admiten en función del nombre preestablecido (Audio only / Video + Audio frente a Advance Audio / Advance Video + Audio). Al usar la indexación avanzada , las categorías aparecen en el panel Insights del sitio web.
Clase | Indexación estándar | Indexación avanzada |
---|---|---|
Reacciones de una multitud | ✔️ | |
Silencio | ✔️ | ✔️ |
Disparos o explosiones | ✔️ | |
Vidrio roto | ✔️ | |
Alarma o sirena | ✔️ | |
Risa | ✔️ | |
Perro | ✔️ | |
Timbre de campana | ✔️ | |
Pájaros | ✔️ | |
Coche | ✔️ | |
Motor | ✔️ | |
Llanto | ✔️ | |
Reproducción de música | ✔️ | |
Gritando | ✔️ | |
Tormenta | ✔️ |
Visualización del JSON de información con el portal web
Una vez que haya cargado e indexado un vídeo, la información está disponible en formato JSON para su descarga mediante el portal web.
- Seleccione la pestaña Biblioteca .
- Seleccione los medios con los que desea trabajar.
- Seleccione Descargar y Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
- Busque el par de claves descrito en la respuesta de ejemplo.
Uso de la API
- Use la solicitud Obtener índice de vídeo. Se recomienda pasar
&includeSummarizedInsights=false
. - Busque los pares de claves descritos en la respuesta de ejemplo.
Respuesta de ejemplo
"audioEffects": [
{
"id": 1,
"type": "Silence",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:01:46.243",
"adjustedEnd": "0:01:50.434",
"start": "0:01:46.243",
"end": "0:01:50.434"
}
]
},
{
"id": 2,
"type": "Speech",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:00:00",
"adjustedEnd": "0:01:43.06",
"start": "0:00:00",
"end": "0:01:43.06"
}
]
}
]
Importante
Es importante leer la información general de la nota de transparencia para todas las características vi. Cada información también tiene notas de transparencia propias:
Notas de detección de efectos de audio
- Evite el uso de audio corto o de baja calidad, la detección de efectos de audio proporciona datos probabilísticos y parciales en eventos de audio no detectados. Para obtener precisión, la detección de efectos de audio requiere al menos 2 segundos de audio sin formato claro. No se admiten comandos de voz ni canto.
- Evite el uso de audio con música de fondo fuerte o música con frecuencia repetitiva o linealmente escaneada, la detección de efectos de audio está diseñada solo para audio nopeech y, por lo tanto, no puede clasificar eventos en música alta. La música con frecuencia repetitiva o linealmente escaneada muchas se clasifican incorrectamente como alarma o sirena.
- Para promover datos probabilísticos más precisos, asegúrese de que:
- Los efectos de audio solo se pueden detectar en segmentos nopeech.
- La duración de una sección nonspeech debe ser de al menos 2 segundos.
- El audio de baja calidad puede afectar a los resultados de la detección.
- Los eventos en música de fondo fuerte no se clasifican.
- La música con frecuencia repetitiva o linealmente escaneada podría clasificarse incorrectamente como alarma o sirena.
- Llamar a una puerta o golpear una puerta podría etiquetarse como un disparo o explosión.
- Los gritos prolongados o los sonidos del esfuerzo físico humano podrían clasificarse incorrectamente.
- Es posible que un grupo de personas se ríen como risas y multitud.
- Se admiten sonidos de disparos y explosiones naturales y no lógicos.
Componentes de detección de efectos de audio
Durante el procedimiento de detección de efectos de audio, se procesa el audio en un archivo multimedia, como se indica a continuación:
Componente | Definición |
---|---|
Archivo de origen | El usuario carga el archivo de origen para la indexación. |
Segmentación | El audio se analiza, se identifica el audio nonspeech y, a continuación, se divide en elementos internos superpuestos cortos. |
clasificación | Un proceso de inteligencia artificial analiza cada segmento y clasifica su contenido en categorías de eventos, como la reacción de la multitud o la risa. A continuación, se crea una lista de probabilidades para cada categoría de eventos según las reglas específicas del departamento. |
Nivel de confianza | El nivel de confianza estimado de cada efecto de audio se calcula como un intervalo de 0 a 1. La puntuación de confianza representa la certeza en la precisión del resultado. Por ejemplo, una certeza del 82 % se representa como una puntuación de 0,82. |
Código de ejemplo
Subtítulos
Los efectos de audio en los archivos de subtítulos aparecen como corchetes:
Tipo | Ejemplo |
---|---|
SRT | 00:00:00,000 00:00:03,671 [Disparos o explosiones] |
VTT | 00:00:00.000 00:00:03.671 [Disparos o explosiones] |
TTML | Confianza: 0.9047 <p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | [Disparos o explosiones] |
CSV | 0.9047,00:00:00.000,00:00:03.671, [Disparos o explosiones] |
Nota:
Silence
El tipo de evento no se agregará a los subtítulos.- La duración mínima del temporizador para mostrar un evento es de 700 milisegundos.
Adición de efectos de audio a archivos de subtítulos
API
Puede agregar efectos de audio a archivos de subtítulos con la solicitud Obtener subtítulos de vídeo y eligiendo true para el includeAudioEffects
parámetro .
Nota:
Al usar la transcripción de actualización de archivos de subtítulos o actualizar el modelo de lenguaje personalizado a partir de archivos de subtítulos, se omiten los efectos de audio incluidos en esos archivos.
Portal web
También puede usar el portal web seleccionando Descargar -Subtítulos ->>Incluir efectos de audio.