Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
A deteção de efeitos de áudio deteta eventos acústicos e os classifica em categorias como risos, reações da multidão, alarmes ou sirenes.
Casos de uso de efeitos de áudio
- Melhorar a acessibilidade, oferecendo mais contexto para um público com deficiência auditiva através da transcrição de efeitos não relacionados com a fala.
- Melhorar a eficiência ao criar dados brutos para criadores de conteúdo. Momentos importantes em promos e trailers, como risos, reações da multidão, tiros ou explosões podem ser identificados, por exemplo, em Mídia e Entretenimento.
- Detete e classifique tiros, explosões e estilhaços de vidro em um sistema de cidade inteligente ou em outros ambientes públicos que incluam câmeras e microfones.
Categorias de áudio suportadas
A deteção de efeitos de áudio pode detetar e classificar os efeitos em categorias padrão e avançadas. Para obter mais informações, veja os preços.
A tabela a seguir mostra quais categorias são suportadas dependendo do Nome da Predefinição (Somente Áudio / Vídeo + Áudio vs. Áudio Avançado / Vídeo Avançado + Áudio). Quando você estiver usando a indexação Avançada , as categorias aparecerão no painel Informações do site.
Classe | Indexação padrão | Indexação avançada |
---|---|---|
Reações da multidão | ✔️ | |
Silêncio | ✔️ | ✔️ |
Tiro ou explosão | ✔️ | |
Quebra de vidro | ✔️ | |
Alarme ou sirene | ✔️ | |
Risos | ✔️ | |
Cão | ✔️ | |
Toque da campainha | ✔️ | |
Pássaro | ✔️ | |
Carro | ✔️ | |
Motor | ✔️ | |
Choro | ✔️ | |
Reprodução de música | ✔️ | |
Gritos | ✔️ | |
Trovoada | ✔️ |
Veja o insight JSON com o portal web
Depois de carregar e indexar um vídeo, transfira informações em formato JSON a partir do portal Web.
- Selecione a guia Biblioteca .
- Selecione a mídia desejada.
- Selecione Download e, em seguida, selecione Insights (JSON). O ficheiro JSON é aberto num novo separador do navegador.
- Encontre o par de chaves descrito na resposta de exemplo.
Utilizar a API
- Use uma solicitação Obter índice de vídeo . Passe
&includeSummarizedInsights=false
. - Encontre os pares de chaves descritos na resposta de exemplo.
Resposta de exemplo
"audioEffects": [
{
"id": 1,
"type": "Silence",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:01:46.243",
"adjustedEnd": "0:01:50.434",
"start": "0:01:46.243",
"end": "0:01:50.434"
}
]
},
{
"id": 2,
"type": "Speech",
"instances": [
{
"confidence": 0,
"adjustedStart": "0:00:00",
"adjustedEnd": "0:01:43.06",
"start": "0:00:00",
"end": "0:01:43.06"
}
]
}
]
Importante
Leia a visão geral da nota de transparência para todos os recursos VI. Cada insight também tem sua própria nota de transparência.
Notas de deteção de efeitos de áudio
- Evite o uso de áudio curto ou de baixa qualidade, a deteção de efeitos de áudio fornece dados probabilísticos e parciais sobre eventos de áudio não falados detetados. Para precisão, a deteção de efeitos de áudio requer pelo menos 2 segundos de áudio claro sem fala. Comandos de voz ou canto não são suportados.
- Evite o uso de áudio com música de fundo alta ou música com frequência repetitiva e/ou linearmente digitalizada, a deteção de efeitos de áudio é destinada apenas para conteúdo não verbal, e, portanto, não consegue classificar eventos quando há música alta. Música com frequência repetitiva e/ou linearmente digitalizada pode ser classificada incorretamente como alarme ou sirene.
- Para promover dados probabilísticos mais precisos, assegure-se de que:
- Os efeitos de áudio podem ser detetados apenas em segmentos que não sejam de fala.
- A duração de uma secção sem fala deve ser de pelo menos 2 segundos.
- O áudio de baixa qualidade pode afetar os resultados da deteção.
- Eventos em música de fundo alta não são classificados.
- Música com frequência repetitiva e/ou escaneada linearmente pode ser incorretamente classificada como alarme ou sirene.
- Bater à porta ou bater com força a porta pode ser interpretado como um tiro ou explosão.
- Gritos prolongados ou sons de esforço humano físico podem ser classificados incorretamente.
- Um grupo de pessoas rindo pode ser classificado como riso e multidão.
- São suportados sons naturais e não sintéticos de tiros e explosões.
Componentes de deteção de efeitos de áudio
Durante o procedimento de deteção de efeitos de áudio, o áudio em um arquivo de mídia é processado da seguinte maneira:
Componente | Definição |
---|---|
Ficheiro de origem | O usuário carrega o arquivo de origem para indexação. |
Segmentação | O áudio é analisado. O áudio não falado é identificado e, em seguida, dividido em pequenas partes internas sobrepostas. |
Classificação | Um processo de IA analisa cada segmento e classifica seu conteúdo em categorias de eventos, como reação da multidão ou risos. Uma lista de probabilidade é então criada para cada categoria de evento de acordo com regras específicas do departamento. |
Nível de confiança | O nível de confiança estimado de cada efeito de áudio é calculado como um intervalo de 0 a 1. O índice de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82. |
Código de exemplo
Legendas ocultas
Os efeitos de áudio em arquivos de legenda oculta aparecem como colchetes:
Tipo | Exemplo |
---|---|
SRT | 00:00:00,000 00:00:03,671 [Tiro ou explosão] |
VTT | 00:00:00.000 00:00:03.671 [Tiro ou explosão] |
TTML | Confiança: 0,9047 <p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p> |
TXT | [Tiro ou explosão] |
CSV | 0.9047,00:00:00.000,00:00:03.671, [Tiro ou explosão] |
Nota
-
Silence
O tipo de evento não é adicionado às legendas ocultas. - A duração mínima do temporizador para mostrar um evento é de 700 milissegundos.
Adicionar efeitos de áudio a arquivos de legenda oculta
Interface de Programação de Aplicações (API)
Você pode adicionar efeitos de áudio a arquivos de legendas ocultas com a solicitação Obter legendas de vídeo e escolhendo true para o includeAudioEffects
parâmetro.
Nota
Quando se usa a atualizar transcrição de arquivos de legendas ocultas ou atualizar o modelo de idioma personalizado de arquivos de legendas ocultas, os efeitos de áudio incluídos nesses arquivos são ignorados.
Portal Web
Você também pode usar o portal da Web selecionando Download ->Closed Captions ->Include Audio Effects.