Konfigurieren des Audioformats und der Stimmen

Abgeschlossen

Bei der Sprachsynthese können Sie ein SpeechConfig-Objekt verwenden, um die vom Azure KI Speech-Dienst zurückgegebenen Audioinhalte anzupassen.

Audioformat

Der Azure KI Speech-Dienst unterstützt mehrere Ausgabeformate für den Audiodatenstrom, der von der Sprachsynthese generiert wird. Abhängig von Ihren spezifischen Anforderungen können Sie ein Format auswählen, das auf den folgenden Anforderungen basiert:

  • Audiodateityp
  • Abtastrate
  • Bittiefe

Die unterstützten Formate werden im SDK mit der Enumeration SpeechSynthesisOutputFormat angegeben. Beispiel: SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm.

Um das erforderliche Ausgabeformat anzugeben, verwenden Sie die SetSpeechSynthesisOutputFormat-Methode des SpeechConfig-Objekts:

speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);

Eine vollständige Liste der unterstützten Formate und ihrer Enumerationswerte finden Sie in der Azure KI Speech-Dokumentation.

Stimmen

Der Azure KI Speech-Dienst stellt mehrere Stimmen bereit, mit denen Sie Ihre sprachaktivierten Anwendungen personalisieren können. Es gibt zwei Arten von Stimmen, die Sie verwenden können:

  • Standardstimmen: Synthetische Stimmen, die aus Audiobeispielen erstellt werden.
  • Neuronale Stimmen: Natürlicher klingende Stimmen, die mit Deep Neural Networks erstellt werden.

Stimmen werden anhand von Namen identifiziert, die ein Gebietsschema und den Namen einer Person angeben, z. B. en-GB-George.

Um eine Stimme für die Sprachsynthese in SpeechConfig anzugeben, legen Sie die SpeechSynthesisVoiceName-Eigenschaft auf die Stimme fest, die Sie verwenden möchten:

speechConfig.SpeechSynthesisVoiceName = "en-GB-George";

Informationen zu Stimmen finden Sie in der Azure KI Speech-Dokumentation.