Übersicht über SSML (Speech Synthesis Markup Language, Markupsprache für Sprachsynthese)

SSML (Speech Synthesis Markup Language, Markupsprache für Sprachsynthese) ist eine XML-basierte Markupsprache zum Optimieren der Text-zu-Sprache-Ausgabeattribute wie u. a. Tonhöhe, Aussprache, Sprechtempo und Lautstärke. Sie haben im Vergleich zu Nur-Text-Eingaben mehr Kontrolle und Flexibilität.

Tipp

Im Stimmkatalog können Sie Stimmen Beispieltext in verschiedenen Stilen und Tonhöhen vorlesen hören.

Szenarien

Sie können SSML für Folgendes verwenden:

  • Definieren der Eingabetextstruktur, die Struktur, Inhalt und andere Merkmale der Text-zu-Sprache-Ausgabe bestimmt. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text mit Ereignistags wie Lesezeichen oder Mundbildern umschließen, die später von Ihrer Anwendung verarbeitet werden können.
  • Wählen Sie Stimme, Sprache, Name, Stil und Rolle aus. Sie können in einem einzelnen SSML-Dokument mehrere Stimmen verwenden. Passen Sie Betonung, Sprechtempo, Tonhöhe und Lautstärke an. Sie können SSML außerdem verwenden, um vorab aufgezeichnete Audiodaten einzufügen, z. B. einen Soundeffekt oder eine Musiknote.
  • Steuern der Aussprache des Ausgabeaudios. Beispielsweise können Sie SSML mit Phonemen und einem benutzerdefinierten Lexikon einsetzen, um die Aussprache zu verbessern. Sie können mithilfe von SSML auch festlegen, wie ein Wort oder ein mathematischer Ausdruck ausgesprochen wird.

Verwenden von SSML

Wichtig

Ihnen wird jedes in Sprache umgewandelte Zeichen in Rechnung gestellt, auch Satzzeichen. Obwohl das SSML-Dokument selbst nicht abrechenbar ist, werden optionale Elemente wie Phoneme und Tonhöhe, mit denen eingestellt wird, wie der Text in Sprache umgewandelt wird, als abrechenbare Zeichen gezählt. Weitere Informationen finden Sie in den Text-zu-Sprache-Preisanmerkungen.

Sie können SSML auf folgende Weisen verwenden:

Nächste Schritte