Introducción
¿Alguna vez se ha preguntado cómo funcionan realmente los asistentes para voz? ¿Cómo entienden las palabras que decimos? Cuando piensa en los asistentes para voz, tiene el primer paso, que es la conversión de voz en texto, y luego el paso de procesamiento de lenguaje natural (NLP), que es la inserción de palabras (convertir palabras en números), después tiene una clasificación de la expresión (lo que la gente dice) a la intención (lo que quieren que haga el asistente para voz). Si está siguiendo esta ruta de aprendizaje, ya habrá descubierto cómo funciona la parte de NLP. Ahora queremos echar un vistazo a cómo se obtiene el texto del audio hablado. La clasificación de audio se puede usar para muchas cosas, no solo para los asistentes para voz. Por ejemplo, en música, puede clasificar los géneros, o se puede detectar que alguien está enfermo por su tono de voz e incluso más aplicaciones que aún no hemos pensado.
En este módulo de Learn, aprenderemos a realizar la clasificación de audio con TensorFlow. Hay varias maneras de crear un modelo de clasificación de audio. Puede usar la forma de onda, etiquetar secciones de un archivo de ondas o incluso usar Computer Vision en la imagen del espectrograma. En este tutorial, primero se explica cómo comprender los datos de audio, desde representaciones analógicas a digitales; luego, se creará el modelo mediante visión informática en las imágenes del espectrograma. Así es, se puede convertir el audio en una representación de imagen y luego usar visión informática para clasificar la palabra hablada. Se creará un modelo simple que pueda comprender yes
y no
. El conjunto de datos que se va a usar es el conjunto de datos abierto Speech Commands que está integrado en conjuntos de datos de TensorFlow. Este conjunto de datos tiene 36 palabras o sonidos diferentes que se usarán para la clasificación. Cada expresión se almacena como un archivo en formato WAVE de un segundo (o menos). Solo se usará yes
y no
para una clasificación binaria.
Objetivos de aprendizaje
- Comprenda algunas características clave de los datos de audio.
- Introducción a cómo crear modelos de Machine Learning de audio.
- Obtenga información sobre cómo crear un modelo de clasificación binaria a partir de archivos de onda.
Requisitos previos
- Conocimientos de Python
- Comprensión básica del aprendizaje automático