Introducción
¿Alguna vez se ha preguntado cómo funcionan los asistentes para voz que usamos a diario? ¿Cómo entienden las palabras que decimos?
El asistente debe convertir la voz en texto y, a continuación, convertir ese texto en números (denominado incrustación de palabras). A continuación, el asistente clasifica la expresión y la correlaciona con la intención (lo que el hablante quiere que haga el asistente de voz). Para más información sobre este proceso, consulte el módulo "Introducción al procesamiento de lenguaje natural" en esta ruta de aprendizaje de PyTorch.
Sin embargo, ¿qué pasa cuando un perro ladra o un gato maúlla? Estos sonidos no se pueden convertir en texto.
En este módulo, veremos cómo extraer patrones de onda de sonido de una grabación de audio de texto oral. La clasificación de audio es útil para muchas cosas, no solo para los asistentes para voz. Hay varios orígenes de sonido que una aplicación necesita reconocer. Por ejemplo, puede clasificar géneros musicales o detectar enfermedades por el tono de voz de una persona. Hay más aplicaciones en las que ni siquiera hemos pensado.
Aprenderá a clasificar audio con PyTorch, un conocido marco de aprendizaje automático de Python. Hay varias maneras de crear un modelo de clasificación de audio. Puede usar una forma de onda, etiquetar secciones de un archivo de ondas o incluso usar Computer Vision en una imagen de espectrograma.
En este módulo, aprenderá primero a reconocer los datos de audio y transformar las señales de sonido en una representación de imagen mediante un espectrograma. A continuación, crearemos un modelo mediante Computer Vision que pueda reconocer un comando de voz sí o no.
Exacto. Puede convertir el audio en una representación de imagen y, luego, usar Computer Vision para clasificar la palabra hablada.
Objetivos de aprendizaje
En este módulo, aprenderá a:
- Conozca las características básicas de los datos de audio.
- Aprenderá a transformar señales de sonido en un formato de imagen visual mediante espectrogramas
- Crear un modelo de clasificación de voz que reconozca sonidos o textos orales mediante redes neuronales convolucionales (CNN).
Prerrequisitos
- Conocimientos básicos de Python.
- Conocimientos básicos sobre cómo usar cuadernos de Jupyter Notebook.
- Conocimientos básicos de las CNN. El módulo "Introducción a Computer Vision con PyTorch" en esta ruta de aprendizaje puede ser un buen comienzo.