Riepilogo

10 minuti

Congratulazioni per aver creato un modello di conversione voce/testo con classificazione binaria audio.

Ora si ha una migliore comprensione del modo in cui un audio analogico si trasforma in suono digitale e di come creare immagini di spettrogramma dei file wave. È stato usato il set di dati PyTorch Speech Commands, le classi sono state scomposte in yes e no, quindi sono stati analizzati i modi in cui è possibile comprendere e visualizzare i modelli di dati audio. Da qui, con l'uso degli spettrogrammi, sono state create immagini ed è stata usata una rete neurale convoluzionale per compilare il modello.

È possibile espandere questa conoscenza esaminando altri set di dati e suoni e osservando anche il trasformatore MFCC. È quindi possibile compilare il modello.

Assicurarsi di vedere anche questi altri moduli:

Suggerimento

Per aprire un collegamento ipertestuale, fare clic con il pulsante destro del mouse e scegliere Apri in una nuova scheda/Apri in un'altra finestra. In questo modo, sarà possibile visualizzare la risorsa e tornare facilmente al modulo.

Continua

Riepilogo

Commenti e suggerimenti