Abilitare il rilevamento degli effetti audio (anteprima)

Importante

A causa dell'annuncio di ritiro Servizi multimediali di Azure, Azure AI Video Indexer annuncia le modifiche alle funzionalità di Azure AI Video Indexer. Vedere Modifiche correlate al ritiro di Servizi multimediali di Azure (AMS) per comprendere cosa significa per l'account Video Indexer di Azure per intelligenza artificiale. Vedere la guida alla preparazione per il ritiro di AMS: aggiornamento VI e migrazione.

Il rilevamento degli effetti audio è una delle funzionalità di intelligenza artificiale di Azure AI Video Indexer che rileva vari eventi acustici e li classifica in categorie acustiche diverse (ad esempio abbaiare cani, reazioni di folla, ridere e altro ancora).

Alcuni scenari in cui questa funzionalità è utile:

  • Le aziende con un ampio set di archivi video possono migliorare facilmente l'accessibilità con il rilevamento degli effetti audio. La funzionalità fornisce più contesto per le persone che sono difficili da ascoltare e migliora la trascrizione video con effetti non speciali.
  • Nel dominio Media & Entertainment, la funzionalità di rilevamento può migliorare l'efficienza durante la creazione di dati non elaborati per gli autori di contenuti. Momenti importanti in promo e trailer (come risate, reazioni di folla, colpi di pistola o esplosione) possono essere identificati usando il rilevamento degli effetti audio.
  • Nel dominio Public Cassaforte ty & Justice, la funzionalità può rilevare e classificare colpi di pistola, esplosioni e frantumi di vetro. Può essere implementato in un sistema smart-city o in altri ambienti pubblici che includono telecamere e microfoni per offrire un rilevamento rapido e accurato degli incidenti di violenza.

Categorie audio supportate

Il rilevamento degli effetti audio può rilevare e classificare categorie diverse. Nella tabella seguente è possibile trovare le diverse categorie suddivise nei diversi set di impostazioni, divisi in Standard e Advanced. Per altre informazioni, vedere la pagina relativa ai prezzi.

La tabella seguente mostra le categorie supportate in base al nome preimpostato (audio solo / video + audio e audio e avanzamento audio / + audio). Quando si usa l'indicizzazione avanzata , le categorie vengono visualizzate nel riquadro Informazioni dettagliate del sito Web.

Classe Indicizzazione standard Indicizzazione avanzata
Reazioni di folla ✔️
Silenzio ✔️ ✔️
Colpo di pistola o esplosione ✔️
Vetro da rottura ✔️
Allarme o sirena ✔️
Risata ✔️
Dog ✔️
Campanello suonante ✔️
Uccellino ✔️
Auto ✔️
Motore ✔️
Piangere ✔️
Musica riproduzione ✔️
Urlando ✔️
Temporale ✔️

Formati dei risultati

Gli effetti audio vengono recuperati nel codice JSON delle informazioni dettagliate che include l'ID categoria, il tipo e il set di istanze per categoria insieme al relativo intervallo di tempo e punteggio di attendibilità specifici.

audioEffects: [{
        id: 0,
        type: "Gunshot or explosion",
        instances: [{
                confidence: 0.649,
                adjustedStart: "0:00:13.9",
                adjustedEnd: "0:00:14.7",
                start: "0:00:13.9",
                end: "0:00:14.7"
            }, {
                confidence: 0.7706,
                adjustedStart: "0:01:54.3",
                adjustedEnd: "0:01:55",
                start: "0:01:54.3",
                end: "0:01:55"
            }
        ]
    }, {
        id: 1,
        type: "CrowdReactions",
        instances: [{
                confidence: 0.6816,
                adjustedStart: "0:00:47.9",
                adjustedEnd: "0:00:52.5",
                start: "0:00:47.9",
                end: "0:00:52.5"
            },
            {
                confidence: 0.7314,
                adjustedStart: "0:04:57.67",
                adjustedEnd: "0:05:01.57",
                start: "0:04:57.67",
                end: "0:05:01.57"
            }
        ]
    }
],

Come indicizzare gli effetti audio

Per impostare il processo di indicizzazione in modo da includere il rilevamento degli effetti audio, selezionare uno dei set di impostazioni avanzate nel menu Video + indicizzazione audio come si può vedere di seguito.

Immagine Degli effetti audio dell'indice

Sottotitoli

Quando gli effetti audio vengono recuperati nei file di didascalia chiusi, vengono recuperati tra parentesi quadre la struttura seguente:

Type Esempio
SRT 00:00:00,000 00:00:03,671
[Pistola o esplosione]
VTT 00:00:00.000 00:00:03.671
[Pistola o esplosione]
TTML Attendibilità: 0,9047
<p begin="00:00:00.000" end="00:00:03.671">[Gunshot or explosion]</p>
TXT [Pistola o esplosione]
CSV 0.9047.00:00:00.000.00:00:03.671, [Colpo di pistola o esplosione]

Gli effetti audio nel file didascalia chiuso vengono recuperati con la logica seguente usata:

  • Silenceil tipo di evento non verrà aggiunto alle didascalia chiuse.
  • La durata minima del timer per mostrare un evento è di 700 millisecondi.

Aggiunta di effetti audio nei file didascalia chiusi

Gli effetti audio possono essere aggiunti ai file didascalia chiusi supportati da Azure AI Video Indexer tramite l'API Get video didascalia s scegliendo true nel includeAudioEffects parametro o tramite l'esperienza del sito Web video.ai selezionando Scarica ->Sottotitoli chiusi ->Includi effetti audio.

Effetti audio in CC

Nota

Quando si usa la trascrizione degli aggiornamenti dai file di didascalia chiusi o si aggiorna il modello linguistico personalizzato dai file di didascalia chiusi, gli effetti audio inclusi in tali file vengono ignorati.

Limitazioni e presupposti

  • Gli effetti audio vengono rilevati quando sono presenti solo in segmenti non speciali.
  • Il modello è ottimizzato per i casi in cui non è presente musica di sottofondo ad alta voce.
  • L'audio di bassa qualità può influire sui risultati del rilevamento.
  • La durata minima della sezione non speciale è di 2 secondi.
  • Musica che è caratterizzato da frequenza ripetitiva e/o a scansione lineare può essere erroneamente classificata come allarme o sirena.
  • Il modello è attualmente ottimizzato per colpi di pistola naturali e non disintetici ed esplosioni suoni.
  • Le porte bussano e le slamazioni delle porte possono talvolta essere erroneamente etichettate come colpi di pistola ed esplosioni.
  • A volte è possibile rilevare erroneamente suoni di gridatura prolungata e sforzo fisico umano.
  • Il gruppo di persone che rideno può essere classificato come reazioni di risate e di folla.