Resumen

10 minutos

Enhorabuena por crear un modelo de voz de clasificación binaria de audio.

Ahora comprende mejor cómo se convierte un audio analógico en sonido digital y cómo crear imágenes de espectrogramas de sus archivos de onda. Se usó el conjunto de datos de comandos de voz de PyTorch, se analizaron las clases en yes y no y, a continuación, se analizaron las formas en que se pueden comprender y visualizar los patrones de datos de audio. A partir de ahí, se tomaron los espectrogramas, se crearon imágenes y se usó una red neuronal convolucional para crear el modelo.

Para ampliar este conocimiento, examine otros conjuntos de datos y sonidos, así como el transformador MFCC. A continuación, puede compilar el modelo.

Asegúrese de consultar también estos otros módulos:

Introducción a PyTorch
Computer Vision con PyTorch
Procesamiento de lenguaje natural con PyTorch

Sugerencia

Para abrir un hipervínculo, haga clic con el botón derecho y elija Abrir en una nueva pestaña o ventana. De este modo, puede visitar el recurso y volver fácilmente al módulo.

Continuar

Resumen

Comentarios