Concetti relativi all'audio in Voce di Azure AI

2025-04-28

Il servizio Voce accetta e fornisce audio in più formati e l'area dell'audio è un argomento complesso, ma alcune informazioni di base possono essere utili.

Concetti relativi all'audio

Il parlato è intrinsecamente analogico, cosa che viene approssimata convertendolo in un segnale digitale tramite campionamento. Il numero di volte in cui viene campionato al secondo è la frequenza di campionamento e la precisione di ogni campione è definita dalla profondità del bit.

Frequenza di campionamento

Quanti campioni audio sono presenti al secondo. Una frequenza di campionamento più elevata riprodurrà in modo più accurato frequenze più elevate, ad esempio la musica. Gli esseri umani possono in genere sentire tra 20 Hz e 20 kHz, ma la massima sensibilità arriva a 5 kHz. La frequenza di campionamento deve essere il doppio della frequenza più alta, quindi per il parlato umano una frequenza di campionamento di 16 kHz è normalmente adeguata, ma una frequenza di campionamento più elevata può fornire una qualità superiore anche se produce file più grandi. L'impostazione predefinita per la sintesi vocale e il riconoscimento vocale è 16 kHz, ma è consigliabile usare 48 kHz per gli audiolibri. Alcuni audio in origine sono a 8 kHz, soprattutto quando provengono da sistemi di telecomunicazioni legacy, che genereranno risultati degradati.

Bit-depth

I campioni audio non compressi sono rappresentati da molti bit che ne definiscono l'accuratezza o la risoluzione. Per il riconoscimento vocale umano sono necessari 13 bit, che vengono arrotondati a un campione a 16 bit. Una maggiore profondità di bit è necessaria per audio professionale o musica. I sistemi di telefonia legacy usano spesso 8 bit con compressione, ma non è la scelta ideale.

Canali

Il servizio Voce in genere si aspetta e fornisce un flusso mono. Il comportamento dei file stereo e multicanale è specifico dell'API, ad esempio l'API REST di riconoscimento vocale dividerà un file stereo e genererà un risultato per ogni canale. La sintesi vocale è solo mono.

Codec e formati audio

Affinché il servizio Voce sia in grado di usare l'audio, è necessario sapere come viene codificato. Inoltre, poiché i file audio possono essere relativamente grandi, è comune usare la compressione per ridurne le dimensioni. I file audio e i flussi possono essere descritti in base al formato contenitore e al codec audio. I contenitori comuni sono WAV o MP4 e i formati audio comuni sono PCM o MP3. Normalmente non si può presupporre che un contenitore usi un formato audio specifico, ad esempio i file WAV spesso contengono dati PCM, ma altri formati audio sono possibili.

Audio non compresso

Il servizio Voce funziona internamente con audio non compresso, codificato con Pulse Code Modulation (o PCM). Ciò significa che ogni campione rappresenta l'ampiezza del segnale. Si tratta di una rappresentazione semplice per l'elaborazione, ma inefficiente in termini di spazio, quindi la compressione viene spesso usata per il trasporto dell'audio.

Audio compresso con perdita di dati

Gli algoritmi di perdita possono abilitare una compressione maggiore, causando file più piccoli o una larghezza di banda inferiore, cosa che può essere importante nelle connessioni mobili o nelle reti occupate. Un formato audio comune è MP3, che è un esempio di compressione con perdita di dati. I file MP3 sono notevolmente più piccoli rispetto agli originali e potrebbero sembrare quasi identici all'originale, ma non è possibile ricreare il file di origine esatto. La compressione con perdita funziona rimuovendo parti dell'audio o approssimandole. Quando si esegue la codifica con un algoritmo di perdita, si sacrifica l'accuratezza per ottimizzare la larghezza di banda.

Il formato MP3 è stato progettato per la musica e non per il parlato.

AMR e AMR-WB sono stati progettati per comprimere in modo efficiente la voce per i telefoni cellulari e non funzionano altrettanto bene con musica o rumori.

A-Law e Mu-Law sono algoritmi meno recenti che comprimono ogni campione da solo e convertono un campione a 16 bit in 8 bit usando una tecnica di quantizzazione logaritmica. Devono essere usati solo per supportare i sistemi legacy.

Audio compresso senza perdita di dati

La compressione senza perdita di dati consente di ricreare il file originale non compresso. Il file compresso è in genere molto più piccolo dell'originale, senza alcuna perdita, ma la compressione effettiva dipende dall'input. Ottiene la compressione usando più metodi per rimuovere la ridondanza dal file.

La compressione senza perdita più comune è FLAC.

Passaggi successivi

Usare Speech SDK per l'elaborazione audio

Condividi tramite

Concetti relativi all'audio in Voce di Azure AI