Partilhar via


Obtenha informações de deteção de efeitos de áudio

A deteção de efeitos de áudio deteta eventos acústicos e os classifica em categorias como risos, reações da multidão, alarmes ou sirenes.

Casos de uso de efeitos de áudio

  • Melhorar a acessibilidade, oferecendo mais contexto para um público com deficiência auditiva através da transcrição de efeitos não relacionados com a fala.
  • Melhorar a eficiência ao criar dados brutos para criadores de conteúdo. Momentos importantes em promos e trailers, como risos, reações da multidão, tiros ou explosões podem ser identificados, por exemplo, em Mídia e Entretenimento.
  • Detete e classifique tiros, explosões e estilhaços de vidro em um sistema de cidade inteligente ou em outros ambientes públicos que incluam câmeras e microfones.

Categorias de áudio suportadas

A deteção de efeitos de áudio pode detetar e classificar os efeitos em categorias padrão e avançadas. Para obter mais informações, veja os preços.

A tabela a seguir mostra quais categorias são suportadas dependendo do Nome da Predefinição (Somente Áudio / Vídeo + Áudio vs. Áudio Avançado / Vídeo Avançado + Áudio). Quando você estiver usando a indexação Avançada , as categorias aparecerão no painel Informações do site.

Classe Indexação padrão Indexação avançada
Reações da multidão ✔️
Silêncio ✔️ ✔️
Tiro ou explosão ✔️
Quebra de vidro ✔️
Alarme ou sirene ✔️
Risos ✔️
Cão ✔️
Toque da campainha ✔️
Pássaro ✔️
Carro ✔️
Motor ✔️
Choro ✔️
Reprodução de música ✔️
Gritos ✔️
Trovoada ✔️

Veja o insight JSON com o portal web

Depois de carregar e indexar um vídeo, transfira informações em formato JSON a partir do portal Web.

  1. Selecione a guia Biblioteca .
  2. Selecione a mídia desejada.
  3. Selecione Download e, em seguida, selecione Insights (JSON). O ficheiro JSON é aberto num novo separador do navegador.
  4. Encontre o par de chaves descrito na resposta de exemplo.

Utilizar a API

  1. Use uma solicitação Obter índice de vídeo . Passe &includeSummarizedInsights=false.
  2. Encontre os pares de chaves descritos na resposta de exemplo.

Resposta de exemplo

    "audioEffects": [
      {
        "id": 1,
        "type": "Silence",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:01:46.243",
            "adjustedEnd": "0:01:50.434",
            "start": "0:01:46.243",
            "end": "0:01:50.434"
          }
        ]
      },
      {
        "id": 2,
        "type": "Speech",
        "instances": [
          {
            "confidence": 0,
            "adjustedStart": "0:00:00",
            "adjustedEnd": "0:01:43.06",
            "start": "0:00:00",
            "end": "0:01:43.06"
          }
        ]
      }
    ]

Importante

Leia a visão geral da nota de transparência para todos os recursos VI. Cada insight também tem sua própria nota de transparência.

Notas de deteção de efeitos de áudio

  • Evite o uso de áudio curto ou de baixa qualidade, a deteção de efeitos de áudio fornece dados probabilísticos e parciais sobre eventos de áudio não falados detetados. Para precisão, a deteção de efeitos de áudio requer pelo menos 2 segundos de áudio claro sem fala. Comandos de voz ou canto não são suportados.  
  • Evite o uso de áudio com música de fundo alta ou música com frequência repetitiva e/ou linearmente digitalizada, a deteção de efeitos de áudio é destinada apenas para conteúdo não verbal, e, portanto, não consegue classificar eventos quando há música alta. Música com frequência repetitiva e/ou linearmente digitalizada pode ser classificada incorretamente como alarme ou sirene.
  • Para promover dados probabilísticos mais precisos, assegure-se de que:
    • Os efeitos de áudio podem ser detetados apenas em segmentos que não sejam de fala.
    • A duração de uma secção sem fala deve ser de pelo menos 2 segundos.
    • O áudio de baixa qualidade pode afetar os resultados da deteção.
    • Eventos em música de fundo alta não são classificados.
    • Música com frequência repetitiva e/ou escaneada linearmente pode ser incorretamente classificada como alarme ou sirene.
    • Bater à porta ou bater com força a porta pode ser interpretado como um tiro ou explosão.
    • Gritos prolongados ou sons de esforço humano físico podem ser classificados incorretamente.
    • Um grupo de pessoas rindo pode ser classificado como riso e multidão.
    • São suportados sons naturais e não sintéticos de tiros e explosões.

Componentes de deteção de efeitos de áudio

Durante o procedimento de deteção de efeitos de áudio, o áudio em um arquivo de mídia é processado da seguinte maneira:

Componente Definição
Ficheiro de origem O usuário carrega o arquivo de origem para indexação.
Segmentação O áudio é analisado. O áudio não falado é identificado e, em seguida, dividido em pequenas partes internas sobrepostas.
Classificação Um processo de IA analisa cada segmento e classifica seu conteúdo em categorias de eventos, como reação da multidão ou risos. Uma lista de probabilidade é então criada para cada categoria de evento de acordo com regras específicas do departamento.
Nível de confiança O nível de confiança estimado de cada efeito de áudio é calculado como um intervalo de 0 a 1. O índice de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82.

Código de exemplo

Ver todos os exemplos de VI


Legendas ocultas

Os efeitos de áudio em arquivos de legenda oculta aparecem como colchetes:

Tipo Exemplo
SRT 00:00:00,000 00:00:03,671
[Tiro ou explosão]
VTT 00:00:00.000 00:00:03.671
[Tiro ou explosão]
TTML Confiança: 0,9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [Tiro ou explosão]
CSV 0.9047,00:00:00.000,00:00:03.671, [Tiro ou explosão]

Nota

  • Silence O tipo de evento não é adicionado às legendas ocultas.
  • A duração mínima do temporizador para mostrar um evento é de 700 milissegundos.

Adicionar efeitos de áudio a arquivos de legenda oculta

Interface de Programação de Aplicações (API)

Você pode adicionar efeitos de áudio a arquivos de legendas ocultas com a solicitação Obter legendas de vídeo e escolhendo true para o includeAudioEffects parâmetro.

Nota

Quando se usa a atualizar transcrição de arquivos de legendas ocultas ou atualizar o modelo de idioma personalizado de arquivos de legendas ocultas, os efeitos de áudio incluídos nesses arquivos são ignorados.

Portal Web

Você também pode usar o portal da Web selecionando Download ->Closed Captions ->Include Audio Effects.