Konfigurer lydformat og stemmer
Når du syntetiserer tale, kan du bruke et SpeechConfig-objekt for å tilpasse lyden som returneres av Azure Speech i Foundry Tools.
Lydformat
Azure Speech støtter flere utdataformater for lydstrømmen som genereres av talesyntese. Avhengig av dine spesifikke behov, kan du velge et format basert på det nødvendige:
- Lydfiltype
- Sample-rate
- Bit-depth
Følgende Python-kode angir for eksempel taleutdataformatet for et tidligere definert SpeechConfig-objekt kalt speech_config:
speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)
For en fullstendig liste over støttede formater og deres enumerasjonsverdier, se Azure Speech SDK-dokumentasjonen.
Voices
Azure Speech-tjenesten tilbyr flere stemmer som du kan bruke til å personalisere dine taleaktiverte applikasjoner. Stemmer identifiseres med navn som indikerer et sted, en persons navn og andre detaljer – for eksempel en-US-Brian:DragonHDLatestNeural.
Følgende Python-eksempelkode angir stemmen som skal brukes
speech_config.speech_synthesis_voice_name='en-US-Brian:DragonHDLatestNeural'
For informasjon om stemmer, se Azure Speech SDK-dokumentasjonen.