Descripción del reconocimiento y la síntesis de voz

2 minutos

El reconocimiento de voz toma la palabra hablada y la convierte en datos que se pueden procesar, a menudo transcribiéndolos en texto. El texto oral puede tener el formato de voz grabada en un archivo de audio o de audio en directo procedente de un micrófono. Los patrones de voz se analizan en el audio para determinar patrones reconocibles que se asignan a palabras. Para conseguirlo, el software suele usar varios modelos, entre los que se incluyen:

Un modelo acústico que convierte la señal de audio en fonemas (representaciones de sonidos específicos).
Un modelo lingüístico que asigna fonemas a palabras, normalmente mediante un algoritmo estadístico que predice la secuencia más probable de palabras en función de los fonemas.

Las palabras reconocidas suelen convertirse en texto, que se puede usar para varios propósitos, por ejemplo:

Proporcionar subtítulos para vídeos grabados o en directo
Transcribir una llamada de teléfono o una reunión
Realizar un dictado de notas automatizado
Determinar la entrada de usuario prevista para su posterior procesamiento

La síntesis de voz hace referencia a los datos de vocalizaciones, normalmente convirtiendo texto a voz. Una solución de síntesis de voz suele necesitar la siguiente información:

El texto que se pronunciará
La voz que se va a usar para vocalizar

Para sintetizar la voz, el sistema suele acortar el texto para dividirlo en palabras individuales y asigna sonidos fonéticos a cada palabra. Después, divide la transcripción fonética en unidades prosódicas (como frases, cláusulas u oraciones) para crear fonemas que se convertirán al formato de audio. A continuación, estos fonemas se sintetizan como audio y se puede asignar una voz determinada, velocidad de habla, tono y volumen.

Puede usar la salida de la síntesis de voz para muchos propósitos, entre los que se incluyen los siguientes:

Generación de respuestas habladas a la entrada de usuario
Creación de menús de voz para sistemas telefónicos
Lectura en voz alta de mensajes de texto o de correo electrónico en escenarios de manos libres
Difusión de anuncios en lugares públicos, como estaciones de tren o aeropuertos

Descripción del reconocimiento y la síntesis de voz

Comentarios