Introducción a la clasificación de audio con PyTorch

Módulo
5 Unidades

Principiante

Científico de datos

Desarrollador

Estudiante

Azure

En este módulo de Learn aprenderá a realizar la clasificación de audio con PyTorch. Comprenderá más sobre las características de datos de audio y cómo transformar las señales de sonido en una representación visual denominada «espectrogramas». A continuación, compilará el modelo mediante visión informática en las imágenes de espectrograma. Así es, ¡puede convertir un audio en una representación de imagen y luego clasificar la palabra oral mediante visión informática!

Objetivos de aprendizaje

En este módulo, aprenderá a:

Aprenderá las características básicas de los datos de audio
Aprenderá a transformar señales de sonido en un formato de imagen visual mediante espectrogramas
Crear un modelo de clasificación de voz que reconozca sonidos o textos orales mediante redes neuronales convolucionales (CNN).

Requisitos previos

Conocimientos básicos de Python.
Conocimientos básicos sobre cómo usar cuadernos de Jupyter Notebook.
Conocimientos básicos de las CNN. El módulo "Introduction to Computer Vision with PyTorch" (Introducción a Computer Vision con PyTorch) de esta ruta de aprendizaje puede ser un buen comienzo.

Introducción min
Descripción de los conceptos y los datos de audio min
Transformaciones y visualizaciones de audio min
Compilación del modelo de voz min
Resumen min