Introducción a la voz en Azure
Microsoft Azure ofrece funciones de reconocimiento y síntesis de voz a través del servicio de Voz de Azure AI, que incluye las siguientes interfaces de programación de aplicaciones (API):
- API Speech to Text
- API Text to Speech
Recursos de Azure para Voz de Azure AI
Para usar Voz de Azure AI, es necesario crear un recurso apropiado en su suscripción de Azure. Puede optar por crear cualquiera de los siguientes tipos de recursos:
- Recurso de Voz: elija este tipo de recurso si solo planea usar Voz de Azure AI, o bien si desea administrar el acceso y la facturación del recurso por separado de otros servicios.
- Recurso de servicios de Azure AI: elija este tipo de recurso si planea usar Voz de Azure AI en combinación con otros servicios de Azure AI, y desea administrar juntos el acceso y la facturación de estos servicios.
API Speech to Text
Puede usar la API de conversión de voz en texto de Azure AI para realizar transcripciones de audio en tiempo real o por lotes a un formato de texto. La fuente de audio de la transcripción puede ser una transmisión de audio en tiempo real desde un micrófono o un archivo de audio.
El modelo que usa la API Speech to Text se basa en el modelo de lenguaje universal que ha entrenado Microsoft. Los datos para el modelo son propiedad de Microsoft y se implementan en Microsoft Azure. El modelo está optimizado para dos escenarios: conversacional y dictado. También puede crear y entrenar sus propios modelos personalizados, incluida la acústica, el idioma y la pronunciación, si los modelos pregenerados de Microsoft no le ofrecen lo que necesita.
Transcripción en tiempo real
La conversión de voz en texto en tiempo real le permite transcribir el texto en secuencias de audio. Puede usar la transcripción en tiempo real para presentaciones, demostraciones o cualquier otra situación en la que una persona hable.
Para que la transcripción en tiempo real funcione, la aplicación deberá escuchar el audio entrante de un micrófono u otra fuente de entrada de audio, como un archivo de audio. El código de la aplicación transmite el audio al servicio, que devuelve el texto transcrito.
Transcripción por lotes
No todos los escenarios de conversión de voz en texto son en tiempo real. Es posible que tenga grabaciones de audio almacenadas en un recurso compartido de archivos, en un servidor remoto o incluso en almacenamiento de Azure. Puede apuntar a archivos de audio con un URI de firma de acceso compartido (SAS) y recibir resultados de transcripción de forma asincrónica.
La transcripción por lotes se debe ejecutar de forma asincrónica porque los trabajos por lotes se programan en función de la mejor opción. Normalmente, un trabajo empezará a ejecutarse a los pocos minutos de la solicitud, pero no hay una estimación de cuándo un trabajo cambia al estado de ejecución.
API Text to Speech
La API Text to Speech le permite convertir la entrada de texto en voz audible, que puede reproducirse directamente a través del altavoz de un equipo o escribirse en un archivo de audio.
Voces de síntesis de voz
Cuando usa la API Text to Speech, puede especificar la voz que se usará para vocalizar el texto. Esta opción le ofrece la flexibilidad de personalizar la solución de síntesis de voz y darle un carácter concreto.
El servicio incluye varias voces predefinidas compatibles con varios idiomas y con pronunciación regional, incluidas voces neuronales que aprovechan las redes neuronales para superar las limitaciones comunes de la síntesis de voz con respecto a la entonación, lo que da lugar a una voz que suena más natural. También puede desarrollar voces personalizadas y usarlas con la API Text To Speech.
Idiomas compatibles
Las API Speech To Text y Text To Speech admiten diversos idiomas. Use los enlaces siguientes para obtener más detalles sobre los idiomas admitidos: