Konfigurace formátu zvuku a hlasů

Dokončeno

Při synchronizaci řeči můžete pomocí objektu SpeechConfig přizpůsobit zvuk vrácený službou Azure Speech v nástrojích Foundry.

Formát zvuku

Azure Speech podporuje více výstupních formátů zvukového streamu, který je generován syntézou řeči. V závislosti na konkrétních potřebách můžete zvolit formát podle požadovaných požadavků:

  • Typ zvukového souboru
  • Vzorkovací frekvence
  • Bitová hloubka

Například následující kód Pythonu nastaví výstupní formát řeči pro dříve definovaný objekt SpeechConfig s názvem speech_config:

speech_config.set_speech_synthesis_output_format(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm)

Úplný seznam podporovaných formátů a jejich hodnot výčtu najdete v dokumentaci k sadě Azure Speech SDK.

Hlasy

Služba Azure Speech poskytuje více hlasů, které můžete použít k přizpůsobení aplikací s podporou řeči. Hlasy jsou identifikovány jmény, které označují národní prostředí, jméno osoby a další podrobnosti – například en-US-Brian:DragonHDLatestNeural.

Následující ukázkový kód Pythonu nastaví hlas, který se má použít.

speech_config.speech_synthesis_voice_name='en-US-Brian:DragonHDLatestNeural'

Informace o hlasech naleznete v dokumentaci k sadě Azure Speech SDK.