Konfigurace formátu zvuku a hlasů
Při synchronizaci řeči můžete pomocí objektu SpeechConfig přizpůsobit zvuk vrácený službou Azure Speech v nástrojích Foundry.
Formát zvuku
Azure Speech podporuje více výstupních formátů zvukového streamu, který je generován syntézou řeči. V závislosti na konkrétních potřebách můžete zvolit formát podle požadovaných požadavků:
- Typ zvukového souboru
- Vzorkovací frekvence
- Bitová hloubka
Například následující kód Pythonu nastaví výstupní formát řeči pro dříve definovaný objekt SpeechConfig s názvem speech_config:
speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)
Úplný seznam podporovaných formátů a jejich hodnot výčtu najdete v dokumentaci k sadě Azure Speech SDK.
Hlasy
Služba Azure Speech poskytuje více hlasů, které můžete použít k přizpůsobení aplikací s podporou řeči. Hlasy jsou identifikovány jmény, které označují národní prostředí, jméno osoby a další podrobnosti – například en-US-Brian:DragonHDLatestNeural.
Následující ukázkový kód Pythonu nastaví hlas, který se má použít.
speech_config.speech_synthesis_voice_name='en-US-Brian:DragonHDLatestNeural'
Informace o hlasech naleznete v dokumentaci k sadě Azure Speech SDK.