Introduzione alla classificazione audio con PyTorch

Modulo
5 Unità

Principiante

Data scientist

Sviluppatore

Studente

Azure

In questo modulo di Learn si apprenderà come eseguire la classificazione audio con PyTorch. Sarà possibile raccogliere ulteriori informazioni sulle funzionalità dei dati audio e su come trasformare i segnali audio in una rappresentazione visiva denominata spettrogramma. Si vedrà quindi come creare il modello applicando la visione artificiale alle immagini dello spettrogramma. È proprio vero: si può trasformare l'audio in formato immagine e quindi usare la visione artificiale per classificare le parole pronunciate.

Obiettivi di apprendimento

Contenuto del modulo:

Informazioni sulle funzionalità di base dei dati audio.
Imparare a trasformare i segnali audio in un formato di immagine visiva usando gli spettrogrammi.
Creare un modello di classificazione vocale in grado di riconoscere suoni o parole pronunciate usando reti neurali convoluzionali (CNN).

Prerequisiti

Conoscenza di base di Python.
Conoscenza di base della modalità di utilizzo di Jupyter Notebook.
Nozioni di base sulle reti neurali convoluzionali (CNN). Si consiglia di iniziare con il modulo "Introduzione a Visione artificiale con PyTorch" in questo percorso di apprendimento.

Introduzione min
Informazioni sui dati audio e concetti min
Le trasformazioni e le visualizzazioni audio min
Creare il modello di conversione voce/testo min
Riepilogo min