Introducción a la clasificación de audio con PyTorch
En este módulo de Learn aprenderá a realizar la clasificación de audio con PyTorch. Comprenderá más sobre las características de datos de audio y cómo transformar las señales de sonido en una representación visual denominada «espectrogramas». A continuación, compilará el modelo mediante visión informática en las imágenes de espectrograma. Así es, ¡puede convertir un audio en una representación de imagen y luego clasificar la palabra oral mediante visión informática!
Objetivos de aprendizaje
En este módulo, aprenderá a:
- Aprenderá las características básicas de los datos de audio
- Aprenderá a transformar señales de sonido en un formato de imagen visual mediante espectrogramas
- Crear un modelo de clasificación de voz que reconozca sonidos o textos orales mediante redes neuronales convolucionales (CNN).
Requisitos previos
- Conocimientos básicos de Python.
- Conocimientos básicos sobre cómo usar cuadernos de Jupyter Notebook.
- Conocimientos básicos de las CNN. El módulo "Introduction to Computer Vision with PyTorch" (Introducción a Computer Vision con PyTorch) de esta ruta de aprendizaje puede ser un buen comienzo.