OpenAI テキスト読み上げ音声とは

Azure AI 音声の音声と同様、OpenAI テキスト読み上げ音声では、高品質の音声合成を実現し、書かれたテキストを自然な音声に変換します。 これにより、イマーシブで対話型のユーザー エクスペリエンスのさまざまな可能性が引き出されます。

OpenAI テキスト読み上げ音声は、NeuralNeuralHD の 2 つのモデル バリアントを介して使用できます。

  • Neural: 待機時間が最も短いが、NeuralHD よりも品質が低いリアルタイムのユース ケース向けに最適化されています。
  • NeuralHD: 品質を重視して最適化されています。

Azure OpenAI Studio と Speech Studio での OpenAI 音声のデモについては、この入門ビデオをご覧ください。

Azure AI サービスで使用できるテキスト読み上げ音声

次のような質問があるかと思います。OpenAI テキスト読み上げ音声を使用する場合は、Azure OpenAI Service または Azure AI 音声経由で使用する必要がありますか? どちらか一方を使用するようにガイドされるシナリオは何ですか?

各音声モデルには個別の機能が用意されており、特定のニーズに最も適したものを選択できます。 Azure AI サービスで使用できるテキスト読み上げ音声のオプションと違いを理解したいと考えています。

Azure AI サービスでは、次のテキスト読み上げ音声から選択できます。

  • Azure OpenAI Service の OpenAI テキスト読み上げ音声。 米国中北部とスウェーデン中部のリージョンで利用できます。
  • Azure AI 音声の OpenAI テキスト読み上げ音声。 米国中北部とスウェーデン中部のリージョンで利用できます。
  • Azure AI 音声サービスのテキスト読み上げ音声。 数十のリージョンで利用できます。 リージョンの一覧を参照してください。

Azure OpenAI Service または Azure AI 音声を介した OpenAI テキスト読み上げ音声

OpenAI テキスト読み上げ音声を使用する場合は、Azure OpenAIAzure AI 音声のどちらを使用するかを選択できます。 どちらの場合も、音声合成の結果は同じです。

Azure OpenAI Service の OpenAI テキスト読み上げ音声と Azure AI 音声の OpenAI テキスト読み上げ音声の機能の比較を次に示します。

機能 Azure OpenAI Service (OpenAI 音声) Azure AI 音声 (OpenAI 音声) Azure AI 音声の音声
リージョン 米国中北部、スウェーデン中部 米国中北部、スウェーデン中部 数十のリージョンで利用できます。 リージョンの一覧を参照してください。
音声の多様性 6 6 400 を超える
多言語音声の数 6 6 14
多言語の最大対応言語 57 57 77
音声合成マークアップ言語 (SSML) のサポート サポートされていません SSML 要素のサブセットのサポート。 Azure AI 音声での SSML の完全なセットのサポート。
開発オプション REST API Speech SDK、Speech CLI、REST API Speech SDK、Speech CLI、REST API
配置オプション クラウドのみ クラウドのみ クラウド、埋め込み、ハイブリッド、コンテナー。
リアルタイムまたはバッチ合成 リアルタイム リアルタイムおよびバッチ合成 リアルタイムおよびバッチ合成
待機時間 500 ミリ秒を超える 500 ミリ秒を超える 300 ミリ秒未満
合成オーディオのサンプル レート 24 kHz 8、16、24、48 kHz 8、16、24、48 kHz
音声出力オーディオの形式 opus、mp3、aac、flac opus、mp3、pcm、truesilk opus、mp3、pcm、truesilk

Azure AI Speech には、OpenAI 音声では使用できない追加の機能があります。 次に例を示します。

Azure AI 音声の OpenAI テキスト読み上げ音声でサポートされる SSML 要素

音声合成マークアップ言語 (SSML) と入力テキストにより、テキスト読み上げ出力の構造、コンテンツ、その他の特性が決定されます。 たとえば、SSML を使用して、段落、文、中断または一時停止、あるいは無音を定義できます。 テキストをブックマークや口形素などのイベント タグで囲んで、後でアプリケーションで処理できます。

次の表は、Azure AI 音声の OpenAI テキスト読み上げ音声でサポートされる音声合成マークアップ言語 (SSML) 要素の概要を示しています。 OpenAI 音声では、SSML タグの次のサブセットのみがサポートされます。 詳細については、「SSML ドキュメントの構造とイベント」を参照してください。

SSML 要素名 説明
<speak> 読み上げるコンテンツ全体を囲みます。 SSML ドキュメントのルート要素です。
<voice> テキスト読み上げ出力に使用される音声を指定します。
<sub> 要素で囲んだテキストの代わりにエイリアス属性のテキスト値を発音する必要があることを示します。
<say-as> 要素のテキストのコンテンツ タイプ (数値や日付など) を示します。

interpret-as="name" を除き、この要素のすべての interpret-as プロパティ値がサポートされています。 たとえば、<say-as interpret-as="date" format="dmy">10-12-2016</say-as> はサポートされますが、<say-as interpret-as="name">ED</say-as> はサポートされません。 詳細については、「SSML を使用した発音評価」を参照してください。
<s> 文を示します。
<lang> ニューラル音声で読み上げる言語の既定のロケールを示します。
<break> 単語間の中断や一時停止の既定の動作をオーバーライドするために使用されます。

次のステップ