Resumen
Sugerencia
Consulte la pestaña Texto e imágenes para obtener más detalles.
En este módulo se presenta el reconocimiento de voz (conversión de voz en texto) como base para aplicaciones y agentes habilitados para voz. Los alumnos exploran cómo se captura el audio hablado desde un micrófono o un archivo de audio y se convierten en texto escrito mediante Voz de Azure. En el módulo se explica dónde encaja la conversión de voz en texto en una aplicación (ya sea en una aplicación cliente o en un servicio back-end) y se resaltan escenarios comunes, como transcripción en vivo, subtítulos, procesamiento de correo de voz y proporcionar entrada de texto a los agentes de IA.
A continuación, el módulo trata la síntesis de voz (texto a voz), que permite a las aplicaciones generar audio hablado de sonido natural a partir de texto. Los alumnos ven cómo Azure Speech usa voces neuronales para controlar la pronunciación, el tono, la velocidad y el tono, y cómo se puede reproducir el audio sintetizado inmediatamente o guardarse para su uso posterior. En esta sección se destaca cómo la síntesis de voz permite a las aplicaciones y agentes responder de forma audible, mejorando la accesibilidad, la interacción manos libres y la experiencia general del usuario.
Por último, el módulo reúne estas funcionalidades con voz a voz mediante Voice Live. Los alumnos descubren cómo Voice Live combina la conversión de voz en texto, el razonamiento de IA y el texto a voz en un único servicio totalmente administrado para conversaciones en tiempo real. En lugar de unir varios componentes, los desarrolladores pueden usar Voice Live para crear agentes de voz naturales que puedan escuchar, pensar y hablar, lo que facilita la creación de experiencias conversacionales listas para producción con Voz de Azure y Microsoft Foundry.
Use los vínculos siguientes para obtener más información.
- Azure Speech en la documentación del servicio
- Más información sobre los kits de desarrollo de software (SDK) de Azure Speech
- Más información sobre Voz de Azure: Voice Live en la documentación