Introducción a la clasificación de audio con PyTorch

Principiante
Científico de datos
Desarrollador
Estudiante
Azure

En este módulo de Learn aprenderá a realizar la clasificación de audio con PyTorch. Comprenderá más sobre las características de datos de audio y cómo transformar las señales de sonido en una representación visual denominada «espectrogramas». A continuación, compilará el modelo mediante visión informática en las imágenes de espectrograma. Así es, ¡puede convertir un audio en una representación de imagen y luego clasificar la palabra oral mediante visión informática!

Objetivos de aprendizaje

En este módulo, aprenderá a:

  • Aprenderá las características básicas de los datos de audio
  • Aprenderá a transformar señales de sonido en un formato de imagen visual mediante espectrogramas
  • Crear un modelo de clasificación de voz que reconozca sonidos o textos orales mediante redes neuronales convolucionales (CNN).

Requisitos previos

  • Conocimientos básicos de Python.
  • Conocimientos básicos sobre cómo usar cuadernos de Jupyter Notebook.
  • Conocimientos básicos de las CNN. El módulo "Introduction to Computer Vision with PyTorch" (Introducción a Computer Vision con PyTorch) de esta ruta de aprendizaje puede ser un buen comienzo.