Configuración del formato de audio y las voces

3 minutos

Al sintetizar voz, puede usar un objeto SpeechConfig para personalizar el audio devuelto por Azure Speech en Foundry Tools.

Formato de audio

Azure Speech admite varios formatos de salida para la secuencia de audio generada por la síntesis de voz. Dependiendo de sus necesidades específicas, puede elegir un formato según el requisito:

Tipo de archivo de audio
Frecuencia de muestreo
Profundidad de bits

Por ejemplo, el siguiente código de Python establece el formato de salida de voz para un objeto SpeechConfig definido anteriormente denominado speech_config:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Para obtener una lista completa de los formatos admitidos y sus valores de enumeración, consulte la documentación del SDK de Voz de Azure.

Voces

El servicio Voz de Azure proporciona varias voces que puede usar para personalizar las aplicaciones habilitadas para voz. Las voces se identifican por nombres que indican una configuración regional, el nombre de una persona y otros detalles; por ejemplo en-US-Brian:DragonHDLatestNeural, .

El siguiente código de ejemplo de Python establece la voz que se va a usar.

speech_config.speech_synthesis_voice_name='en-US-Brian:DragonHDLatestNeural'

Para más información sobre las voces, consulte la documentación del SDK de Voz de Azure.

Comentarios

¿Le ha resultado útil esta página?