Resumen
Enhorabuena por crear un modelo de voz de clasificación binaria de audio.
Ahora comprende mejor cómo se convierte un audio analógico en sonido digital y cómo crear imágenes de espectrogramas de sus archivos de onda. Se usó el conjunto de datos de comandos de voz de PyTorch, se analizaron las clases en yes
y no
y, a continuación, se analizaron las formas en que se pueden comprender y visualizar los patrones de datos de audio. A partir de ahí, se tomaron los espectrogramas, se crearon imágenes y se usó una red neuronal convolucional para crear el modelo.
Para ampliar este conocimiento, examine otros conjuntos de datos y sonidos, así como el transformador MFCC
. A continuación, puede compilar el modelo.
Asegúrese de consultar también estos otros módulos:
Sugerencia
Para abrir un hipervínculo, haga clic con el botón derecho y elija Abrir en una nueva pestaña o ventana. De este modo, puede visitar el recurso y volver fácilmente al módulo.