Konfigurowanie formatu audio i głosów

Ukończone

Podczas synchronizowania mowy można użyć obiektu SpeechConfig, aby dostosować dźwięk zwracany przez usługę Azure AI Speech.

Format audio

Usługa Azure AI Speech obsługuje wiele formatów wyjściowych strumienia audio generowanego przez syntezę mowy. W zależności od konkretnych potrzeb można wybrać format w zależności od wymaganego:

  • Typ pliku audio
  • Częstotliwość próbkowania
  • Głębokość bitu

Obsługiwane formaty są wskazywane w zestawie SDK przy użyciu wyliczenia SpeechSynthesisOutputFormat . Na przykład SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Aby określić wymagany format danych wyjściowych, użyj metody SetSpeechSynthesisOutputFormat obiektu SpeechConfig:

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Pełną listę obsługiwanych formatów i ich wartości wyliczenia można znaleźć w dokumentacji zestawu SDK usługi Mowa usługi Azure AI.

Głosy

Usługa Azure AI Speech udostępnia wiele głosów, których można użyć do personalizowania aplikacji obsługujących mowę. Istnieją dwa rodzaje głosu, których można użyć:

  • Standardowe głosy — syntetyczne głosy utworzone na podstawie przykładów dźwiękowych.
  • Głosy neuronowe — bardziej naturalne głosy dźwiękowe utworzone przy użyciu głębokich sieci neuronowych.

Głosy są identyfikowane przez nazwy, które wskazują ustawienia regionalne i nazwisko osoby — na przykład en-GB-George.

Aby określić głos syntezy mowy w pliku SpeechConfig, ustaw jej właściwość SpeechSynthesisVoiceName na głos, którego chcesz użyć:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Aby uzyskać informacje o głosach, zobacz dokumentację zestawu Sdk usługi Mowa usługi Azure AI.