Configuración del formato de audio y las voces

Completado

Al sintetizar la voz, puede usar un objeto SpeechConfig para personalizar el audio devuelto por el servicio De voz de Azure AI.

Formato de audio

El servicio Voz de Azure AI admite varios formatos de salida para la secuencia de audio generada por la síntesis de voz. Dependiendo de sus necesidades específicas, puede elegir un formato según el requisito:

  • Tipo de archivo de audio
  • Frecuencia de muestreo
  • Profundidad de bits

Por ejemplo, el siguiente código de Python establece el formato de salida de voz para un objeto SpeechConfig definido anteriormente denominado speech_config:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Para obtener una lista completa de los formatos admitidos y sus valores de enumeración, consulte la documentación del SDK de Voz de Azure AI.

Voces

El servicio Azure AI Speech proporciona varias voces que puede usar para personalizar las aplicaciones habilitadas para voz. Las voces se identifican por nombres que indican una configuración regional y el nombre de una persona; por ejemplo en-GB-George, .

El siguiente código de ejemplo de Python establece la voz que se va a usar.

speech_config.speech_synthesis_voice_name = "en-GB-George"

Para más información sobre las voces, consulte la documentación del SDK de Voz de Azure AI.