テキスト読み上げの概要

[アーティクル]
11/03/2024

この概要では、Azure AI サービスに含まれる音声サービスのテキスト読み上げの利点と機能について説明します。

テキスト読み上げを使用すると、アプリケーション、ツール、またはデバイスで、テキストを人間に似た合成音声に変換できます。テキスト読み上げ機能は音声合成とも呼ばれます。人間に似た事前構築済みのニューラル音声をそのまま使用するか、製品やブランドに固有のカスタムニューラル音声を作成します。サポートされている音声、言語、ロケールの完全なリストについては、「音声サービスの言語と音声のサポート」を参照してください。

コア機能

テキスト読み上げには、次の機能が含まれています。

機能	まとめ	デモ
事前構築済みのニューラル音声 (価格ページでは "ニューラル" と表記)	非常に自然で、すぐに使用できる音声です。 Azure サブスクリプションと Speech リソースを作成した後、Speech SDK を使用するか、Speech Studio ポータルにアクセスし、事前構築済みニューラル音声を選択して作業を開始します。価格の詳細に関するページを確認してください。	音声ギャラリーを確認して、ビジネスニーズに合った適切な音声を決定してください。
カスタムニューラル音声 (価格ページでは "カスタムニューラル" と表記)	自然な音声を作成するための使いやすいセルフサービス。責任を持って使用していただくためアクセスが制限されています。 (S0 レベルで) Azure サブスクリプションと Speech リソースを作成し、カスタムボイス機能の使用を申し込みます。アクセスを許可されたら、Speech Studio ポータルにアクセスし、[Custom Voice] を選択して使用を開始します。価格の詳細に関するページを確認してください。	音声のサンプルを確認してください。

ニューラルテキスト読み上げ機能についての詳細情報

テキスト読み上げでは、ディープニューラルネットワークを使用して、人間の録音とほとんど区別できないコンピューターの音声を生成します。ニューラルテキスト読み上げでは、明瞭な発音により、ユーザーが AI システムと対話する際のリスニング疲労が大幅に軽減されます。

話し言葉のアクセントとイントネーションのパターンを、"韻律" と呼びます。従来のテキスト読み上げシステムでは、韻律を、独立したモデルによって管理される別々の言語分析と音響予測の手順に分解します。その結果、こもったような耳障りな音声合成になる可能性があります。

音声サービスのニューラルテキスト読み上げ機能と、従来のテキスト読み上げシステムの制限を克服する方法の詳細を次に示します。

リアルタイム音声合成: Speech SDK または REST API を使用して、あらかじめ構築されたニューラル音声またはカスタムニューラル音声を使ってテキスト読み上げを行います。
長時間の音声の非同期合成: バッチ合成 API を使用すると、10 分を超えるテキスト読み上げファイル (たとえば、オーディオブック、講義など) を非同期に合成できます。 Speech SDK または Speech to Text REST API を使用して実行される合成とは異なり、応答はリアルタイムで返されません。要求が非同期に送信され、応答がポーリングされること、および合成音声がサービスから利用可能になったときにダウンロードされることを想定しています。
事前構築済みニューラル音声: Azure AI 音声はディープニューラルネットワークを使用して、話し言葉のアクセントとイントネーションに関する従来の音声合成の限界を克服します。韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。事前構築済みの各ニューラル音声モデルは、24 kHz および高忠実度の 48 kHz で利用できます。ニューラル音声を使用すると、次のことができます。
- チャットボットや音声アシスタントとの対話をより自然で魅力的なものにします。
- 電子書籍などのデジタルテキストをオーディオブックに変換します。
- 車内ナビゲーションシステムを強化します。
Azure AI 音声の事前構築済みニューラル音声すべての一覧については、「音声サービスの言語と音声のサポート」を参照してください。
SSML を使用したテキスト読み上げ出力の改善: 音声合成マークアップ言語 (SSML) は、テキスト読み上げ出力をカスタマイズするために使用される XML ベースのマークアップ言語です。 SSML を使用して、ピッチの調整、一時停止の追加、発音の改善、話す速度の変更、音量の調整、単一のドキュメントへの複数の音声の割り当てを行うことができます。

SSML を使用して、独自の辞書を定義したり、さまざまな話し方に切り替えたりできます。多言語の音声では、SSML を介して話されている言語を調整することもできます。自分のシナリオでの音声出力を改善するには、「音声合成マークアップ言語を使用した合成の改善」および「Audio Content Creation ツールを使用した音声合成」を参照してください。
口形素: 口形素は、特定の音素を生成するときの唇、顎、舌の位置などの観察されたスピーチにおける主要な姿勢です。口形素は、音声と音素との強い相関関係を持っています。

Speech SDK で口形素イベントを使用すると、顔のアニメーションデータを生成できます。このデータは、読唇時のコミュニケーション、教育、エンターテイメント、カスタマーサービスでの顔をアニメーションで表現するために使用できます。口形素は現在、en-US 英語 (米国) のニューラル音声でのみサポートされています。

Note

Azure AI 音声のニューラル (非 HD) 音声に加えて、Azure AI 音声の高精細 (HD) 音声と Azure OpenAI のニューラル (HD と非 HD) 音声も使用できます。 HD 音声のほうが、より幅広いシナリオで高い品質を実現できます。

音声によっては、音声合成マークアップ言語 (SSML) タグが一部しかサポートされていないことがあります。これに含まれるものとしては、ニューラルテキスト読み上げ HD 音声、パーソナル音声、埋め込み音声があります。

Azure AI 音声の高精細 (HD) 音声での SSML サポートについては、こちらを参照してください。
パーソナル音声での SSML サポートについては、こちらを参照してください。
埋め込み音声での SSML サポートについては、こちらを参照してください。

作業の開始

テキスト読み上げの使用を開始するには、「クイックスタート」を参照してください。テキスト読み上げは、Speech SDK、REST API、および Speech CLI を介して利用できます。

ヒント

コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio の Audio Content Creation ツールを試してください。

サンプルコード

テキスト読み上げのサンプルコードは、GitHub 上で入手できます。これらのサンプルに含まれるテキスト読み上げ会話は、人気の高いプログラミング言語で作成されています。

カスタムニューラル音声

事前構築済みニューラル音声に加え、製品やブランドに固有のカスタムニューラル音声を作成することもできます。作業を始めるにあたって必要なのは、少数のオーディオファイルと関連する文字起こしだけです。詳細については、「カスタムニューラル音声の概要」を参照してください。

価格に関する注意

課金対象文字

テキスト読み上げ機能を使用している場合、句読点を含めて、文字が音声に変換されるごとに課金されます。 SSML ドキュメント自体は課金対象外ですが、テキストが音声に変換される方法を調整するために使用される省略可能な要素 (音素やピッチなど) は、課金対象としてカウントされます。課金対象の一覧を次に示します。

要求の SSML 本文でテキスト読み上げ機能に渡されたテキスト
<speak> と <voice> タグを除く、SSML 形式の要求本文のテキストフィールド内のすべてのアークアップ
文字、句読点、スペース、タブ、マークアップ、すべての空白文字
Unicode で定義されているすべてのコードポイント

詳細については、「Speech Services の価格」を参照してください。

重要

日本語で使用される漢字、韓国語で使用される漢字、その他の言語で使用される繁体字を含め、中国語の各文字は、課金では 2 文字としてカウントされます。

カスタムニューラル音声でのモデルのトレーニングとホスティングの時間

カスタムニューラル音声のトレーニングとホスティングは、どちらも時間単位で計算され、1 秒単位で課金されます。課金単価については、「Speech Services の価格」を参照してください。

カスタムニューラル音声 (CNV) のトレーニング時間は、"コンピューティング時間" (マシンの実行時間を測定する単位) によって測定されます。通常、音声モデルをトレーニングする場合、2 つのコンピューティングタスクが並列で実行されます。そのため、計算されたコンピューティング時間は、実際のトレーニング時間よりも長くなります。平均では、CNV Lite 音声をトレーニングするのにかかるコンピューティング時間は 1 時間未満です。CNV Pro の場合、通常、単一スタイルの音声をトレーニングするには 20 から 40 時間、マルチスタイルの音声をトレーニングするには約 90 時間かかります。 CNV のトレーニング時間は、上限 96 コンピューティング時間で課金されます。そのため、音声モデルのトレーニングにかかったコンピューティング時間が 98 時間の場合、96 コンピューティング時間に対してのみ課金されます。

カスタムニューラル音声 (CNV) エンドポイントのホスティングは、実際の時間 (時間単位) で測定されます。各エンドポイントのホスティング時間 (時間) は、毎日 00:00 UTC に、過去 24 時間について計算されます。たとえば、エンドポイントが 1 日目に 24 時間アクティブになっていた場合、2 日目の 00:00 UTC に 24 時間分課金されます。エンドポイントが新しく作成された場合、またはその日中に中断された場合、2 日目の 00:00 UTC までの累積実行時間に対して課金されます。エンドポイントが現在ホストされていない場合は、課金されません。毎日 00:00 UTC の日次の計算に加えて、エンドポイントが削除または一時停止されるた場合も、課金がすぐにトリガーされます。たとえば、12 月 1 日の 08:00 UTC に作成されたエンドポイントの場合、ホスティング時間は 12 月 2 日の 00:00 UTC で 16 時間、12 月 3 日の 00:00 UTC で 24 時間として計算されます。ユーザーが 12 月 3 日の 16:30 UTC にエンドポイントのホスティングを一時停止した場合、12 月 3 日の 00:00 から 16:30 UTC までの期間 (16.5 時間) が課金対象として計算されます。

Personal Voice

パーソナル音声機能を使用すると、プロファイルのストレージと合成の両方に対して課金されます。

プロファイルストレージ: パーソナル音声プロファイルが作成されると、システムから削除されるまで課金されます。課金単位は 1 日あたりの音声ごとです。音声ストレージが続く期間が 24 時間未満の場合は、1 日分として課金されます。
合成: 文字ごとに課金されます。課金対象文字の詳細については、上記の課金対象文字を参照してください。

テキスト読み上げアバター

音声合成のアバター機能を利用すると、ビデオ出力の長さに基づいて料金が発生し、秒単位で課金されます。ただし、リアルタイムアバターの場合、料金は、アバターがアクティブな時間に基づき、話しているか、サイレント状態であるかに関係なく、1 秒ごとに課金されます。リアルタイムのアバターの使用コストを最適化するには、サンプルコードで提供されているヒントを参照してください ("Use Local Video for Idle" を検索します)。アバターホスティングは、エンドポイントごとに 1 秒単位で課金されます。エンドポイントを一時停止してコストを節約できます。エンドポイントを一時停止する場合は、直接削除できます。もう一度使用する場合は、エンドポイントを再デプロイするだけです。

Azure のテキスト読み上げメトリックを監視する

テキスト読み上げサービスに関連付けられている主要なメトリックを監視することは、リソースの使用状況を管理しコストを制御するために重要です。このセクションでは、Azure portal で使用状況に関する情報を見つけ、主要なメトリックの詳細な定義を指定する方法について説明します。 Azure Monitor メトリックの詳細については、「Azure Monitor メトリックの概要」を参照してください。

Azure portal で使用状況に関する情報を見つける方法

Azure リソースを効率的に管理するには、使用状況に関する情報に定期的にアクセスして確認することが不可欠です。使用状況に関する情報を見つける方法を以下に示します。

Azure portal に移動し、Azure アカウントでサインインします。
[リソース] に移動し、監視したいリソースを選択します。
左側のメニューの [監視] の下の [メトリック] を選択します。
メトリックビューをカスタマイズします。

リソースの種類、メトリックの種類、時間の範囲、およびその他のパラメーターでデータをフィルター処理して、監視のニーズに合ったカスタムビューを作成できます。さらに、頻繁に使用されるメトリックに簡単にアクセスできるように、[ダッシュボードに保存] を選択することで、メトリックビューをダッシュボードに保存できます。
アラートの設定に関するページを参照してください。

使用状況をより効率的に管理するには、左側のメニューから [監視] の下の [アラート] タブに移動してアラートを設定します。アラートでは、使用量が特定のしきい値に達したときに通知を行うことで、予期しないコストを防ぐことができます。

メトリックの定義

次の表は、Azure テキスト読み上げサービスの主要なメトリックをまとめたものです。

メトリック名	説明
合成された文字数	事前構築済みのニューラル音声やカスタムニューラル音声を含め、音声に変換された文字数を追跡します。課金対象の文字の詳細については、「課金対象の文字」を参照してください。
合成されたビデオの秒数	バッチアバター合成、リアルタイムアバター合成、カスタムアバター合成を含め、合成されたビデオの合計時間を測定します。
アバターモデルホスティング秒数	カスタムアバターモデルがホストされた合計時間を秒単位で追跡します。
音声モデルホスティング時間	カスタムニューラル音声モデルがホストされた合計時間を時間単位で追跡します。
音声モデルトレーニング分数	カスタムニューラル音声モデルのトレーニングの合計時間を分単位で測定します。

リファレンスドキュメント

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

次の方法で共有

テキスト読み上げの概要

コア機能

ニューラルテキスト読み上げ機能についての詳細情報

作業の開始

サンプルコード

カスタムニューラル音声

価格に関する注意

課金対象文字

カスタムニューラル音声でのモデルのトレーニングとホスティングの時間

Personal Voice

テキスト読み上げアバター

Azure のテキスト読み上げメトリックを監視する

Azure portal で使用状況に関する情報を見つける方法

メトリックの定義

リファレンスドキュメント

責任ある AI

次のステップ

フィードバック

その他のリソース

次の方法で共有

テキスト読み上げの概要

コア機能

ニューラル テキスト読み上げ機能についての詳細情報

作業の開始

サンプル コード

カスタム ニューラル音声

価格に関する注意

課金対象文字

カスタム ニューラル音声でのモデルのトレーニングとホスティングの時間

Personal Voice

テキスト読み上げアバター

Azure のテキスト読み上げメトリックを監視する

Azure portal で使用状況に関する情報を見つける方法

メトリックの定義

リファレンス ドキュメント

責任ある AI

次のステップ

フィードバック

その他のリソース

ニューラルテキスト読み上げ機能についての詳細情報

サンプルコード

カスタムニューラル音声

カスタムニューラル音声でのモデルのトレーニングとホスティングの時間

リファレンスドキュメント