Ativar a deteção de efeitos de áudio (pré-visualização)

Importante

Devido ao anúncio de desativação dos Serviços de Mídia do Azure, o Azure AI Video Indexer anuncia ajustes nos recursos do Azure AI Video Indexer. Consulte Alterações relacionadas à aposentadoria do Azure Media Service (AMS) para entender o que isso significa para sua conta do Azure AI Video Indexer. Consulte o guia Preparando para a aposentadoria do AMS: VI atualização e migração.

A deteção de efeitos de áudio é uma das capacidades de IA do Azure AI Video Indexer que deteta vários eventos acústicos e os classifica em diferentes categorias acústicas (como latidos de cães, reações de multidões, risos e muito mais).

Alguns cenários em que esse recurso é útil:

  • Empresas com um grande conjunto de arquivos de vídeo podem facilmente melhorar a acessibilidade com deteção de efeitos de áudio. O recurso fornece mais contexto para pessoas com deficiência auditiva e aprimora a transcrição de vídeo com efeitos não relacionados à fala.
  • No domínio Media & Entertainment, o recurso de deteção pode melhorar a eficiência ao criar dados brutos para criadores de conteúdo. Momentos importantes em promos e trailers (como risos, reações da multidão, tiro ou explosão) podem ser identificados usando a deteção de efeitos de áudio.
  • No domínio Segurança Pública e Justiça, o recurso pode detetar e classificar tiros, explosões e estilhaços de vidro. Ele pode ser implementado em um sistema de cidade inteligente ou em outros ambientes públicos que incluem câmeras e microfones para oferecer deteção rápida e precisa de incidentes de violência.

Categorias de áudio suportadas

A deteção de efeitos de áudio pode detetar e classificar diferentes categorias. Na tabela a seguir, você pode encontrar as diferentes categorias divididas nas diferentes predefinições, divididas em Standard e Advanced. Para obter mais informações, veja os preços.

A tabela a seguir mostra quais categorias são suportadas dependendo do Nome da Predefinição (Somente Áudio, / Vídeo + Áudio vs. Áudio / Avançado, Vídeo Avançado + Áudio). Quando você estiver usando a indexação Avançada , as categorias aparecerão no painel Informações do site.

Classe Indexação padrão Indexação avançada
Reações da multidão ✔️
Silêncio ✔️ ✔️
Tiro ou explosão ✔️
Quebra de vidro ✔️
Alarme ou sirene ✔️
Risos ✔️
Cão ✔️
Toque da campainha ✔️
Pássaro ✔️
Carro ✔️
Motor ✔️
Choro ✔️
Reprodução de música ✔️
Gritos ✔️
Trovoada ✔️

Formatos de resultados

Os efeitos de áudio são recuperados no JSON de insights que inclui o ID da categoria, o tipo e o conjunto de instâncias por categoria, juntamente com seu período de tempo específico e pontuação de confiança.

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

Como indexar efeitos de áudio

Para definir o processo de índice para incluir a deteção de efeitos de áudio, selecione uma das predefinições avançadas no menu de indexação de vídeo + áudio, como pode ser visto abaixo.

Imagem de efeitos de áudio de índice

Legenda oculta

Quando os efeitos de áudio são recuperados nos arquivos de legenda oculta, eles são recuperados entre colchetes na seguinte estrutura:

Tipo Exemplo
SRT 00:00:00,000 00:00:03,671
[Tiro ou explosão]
VTT 00:00:00.000 00:00:03.671
[Tiro ou explosão]
TTML Confiança: 0,9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [Tiro ou explosão]
CSV 0.9047,00:00:00.000,00:00:03.671, [Tiro ou explosão]

Os efeitos de áudio no arquivo de legendas ocultas são recuperados com a seguinte lógica empregada:

  • Silence O tipo de evento não será adicionado às legendas ocultas.
  • A duração mínima do temporizador para mostrar um evento é de 700 milissegundos.

Adicionando efeitos de áudio em arquivos de legenda oculta

Os efeitos de áudio podem ser adicionados aos arquivos de legendas ocultas suportados pelo Azure AI Video Indexer por meio da API Obter legendas de vídeo escolhendo true no includeAudioEffects parâmetro ou por meio da experiência do site video.ai selecionando Baixar ->Closed Captions ->Incluir efeitos de áudio.

Efeitos de áudio em CC

Nota

Ao usar a transcrição de atualização de arquivos de legenda oculta ou atualizar o modelo de idioma personalizado de arquivos de legenda oculta, os efeitos de áudio incluídos nesses arquivos são ignorados.

Limitações e pressupostos

  • Os efeitos de áudio são detetados quando presentes apenas em segmentos que não são de fala.
  • O modelo é otimizado para casos em que não há música de fundo alta.
  • O áudio de baixa qualidade pode afetar os resultados da deteção.
  • A duração mínima da secção não fala é de 2 segundos.
  • A música que é caracterizada com frequência repetitiva e/ou linearmente digitalizada pode ser erroneamente classificada como alarme ou sirene.
  • O modelo está atualmente otimizado para sons naturais e não sintéticos de tiros e explosões.
  • Batidas e batidas de portas às vezes podem ser erroneamente rotuladas como tiros e explosões.
  • Gritos prolongados e sons de esforço físico humano podem, por vezes, ser erroneamente detetados.
  • Grupo de pessoas rindo pode em algum momento ser classificado como riso e reações da multidão.