音声合成マークアップ言語 (SSML) の概要

音声合成マークアップ言語 (SSML) は、ピッチ、発音、読み上げ速度、音量などのテキスト読み上げ出力属性を微調整するために使用できる XML ベースのマークアップ言語です。 プレーン テキスト入力と比較して、制御と柔軟性が高くなります。

ヒント

音声ギャラリーで、さまざまなスタイルや音程で読み上げられている例文の音声を聞くことができます。

シナリオ

SSML を使用すると、次のことができます。

  • 入力テキスト構造を定義します。これは、テキスト読み上げ出力の構造、コンテンツ、およびその他の特性を決定します。 たとえば、SSML を使用して、段落、文、中断または一時停止、あるいは無音を定義できます。 テキストをブックマークや口形素などのイベント タグで囲んで、後でアプリケーションで処理できます。
  • 音声を選択します。言語、名前、スタイル、ロールも同様です。 1 つの SSML ドキュメントで複数の音声を使用できます。 強調、読み上げ速度、ピッチ、音量を調整します。 SSML を使用して、サウンド効果や音符などの、事前に録音されたオーディオを挿入することもできます。
  • 発音を制御します (出力オーディオ)。 たとえば、発音を改善するために、音素とカスタム辞書で SSML を使用できます。 SSML を使用して、単語または数式の発音方法を定義することもできます。

SSML を使用する

重要

句読点を含めて、文字が音声に変換されるごとに課金されます。 SSML ドキュメント自体は課金対象外ですが、テキストが音声に変換される方法を調整するために使用される省略可能な要素 (音素やピッチなど) は、課金対象の文字としてカウントされます。 詳細については、テキスト読み上げの価格に関する注意を参照してください。

SSML は、次の方法で使用できます。

次のステップ