テキスト読み上げの概要

2025-06-25

この概要では、Azure AI サービスに含まれる音声サービスのテキスト読み上げの利点と機能について説明します。

テキスト読み上げを使用すると、アプリケーション、ツール、またはデバイスで、テキストを人間に似た合成音声に変換できます。テキスト読み上げ機能は音声合成とも呼ばれます。すぐに使える人間のような標準音声を利用するか、製品やブランドに特有のカスタム音声を作成します。サポートされている音声、言語、ロケールの完全なリストについては、「音声サービスの言語と音声のサポート」を参照してください。

コア機能

テキスト読み上げには、次の機能が含まれています。

機能	概要	デモ
標準音声 (価格ページでニューラルと呼ばれます)	非常に自然で、すぐに使用できる音声です。 Azure サブスクリプションと Speech リソースを作成し、 Speech SDK を使用するか、 Speech Studio ポータルにアクセスして標準音声を選択して開始します。価格の詳細に関するページを確認してください。	音声ギャラリーを確認して、ビジネスニーズに合った適切な音声を決定してください。
カスタム音声	自然な音声を作成するための使いやすいセルフサービス。責任を持って使用していただくためアクセスが制限されています。 Azure サブスクリプションと Azure AI Foundry リソースを作成し、カスタム音声を使用するように適用します。アクセス権が付与されたら、本格的な音声の微調整に関するドキュメントにアクセスして作業を開始します。価格の詳細に関するページを確認してください。	音声のサンプルを確認してください。

ニューラルテキスト読み上げ機能についての詳細情報

テキスト読み上げでは、ディープニューラルネットワークを使用して、人間の録音とほとんど区別できないコンピューターの音声を生成します。ニューラルテキスト読み上げでは、明瞭な発音により、ユーザーが AI システムと対話する際のリスニング疲労が大幅に軽減されます。

話し言葉のアクセントとイントネーションのパターンを、"韻律" と呼びます。従来のテキスト読み上げシステムでは、韻律を、独立したモデルによって管理される別々の言語分析と音響予測の手順に分解します。その結果、こもったような耳障りな音声合成になる可能性があります。

音声サービスのニューラルテキスト読み上げ機能と、従来のテキスト読み上げシステムの制限を克服する方法の詳細を次に示します。

リアルタイム音声合成: Speech SDK または REST API を使用して、標準音声またはカスタム音声を使用してテキストを音声に変換します。
長時間の音声の非同期合成: バッチ合成 API を使用すると、10 分を超えるテキスト読み上げファイル (たとえば、オーディオブック、講義など) を非同期に合成できます。 Speech SDK または Speech to Text REST API を使用して実行される合成とは異なり、応答はリアルタイムで返されません。要求が非同期に送信され、応答がポーリングされること、および合成音声がサービスから利用可能になったときにダウンロードされることを想定しています。
標準音声: Azure AI Speech では、ディープニューラルネットワークを使用して、音声言語でのストレスとイントネーションに関する従来の音声合成の制限を克服します。韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。各標準音声モデルは、24 kHz および高忠実度 48 kHz で利用できます。ニューラル音声を使用すると、次のことができます。
- チャットボットや音声アシスタントとの対話をより自然で魅力的なものにします。
- 電子書籍などのデジタルテキストをオーディオブックに変換します。
- 車内ナビゲーションシステムを強化します。
標準の Azure AI Speech ニューラル音声の完全な一覧については、 Speech サービスの言語と音声のサポートに関するページを参照してください。
SSML を使用したテキスト読み上げ出力の改善: 音声合成マークアップ言語 (SSML) は、テキスト読み上げ出力をカスタマイズするために使用される XML ベースのマークアップ言語です。 SSML を使用して、ピッチの調整、一時停止の追加、発音の改善、話す速度の変更、音量の調整、単一のドキュメントへの複数の音声の割り当てを行うことができます。

SSML を使用して、独自の辞書を定義したり、さまざまな話し方に切り替えたりできます。多言語の音声では、SSML を介して話されている言語を調整することもできます。自分のシナリオでの音声出力を改善するには、「音声合成マークアップ言語を使用した合成の改善」および「Audio Content Creation ツールを使用した音声合成」を参照してください。
口形素: 口形素は、特定の音素を生成するときの唇、顎、舌の位置などの観察されたスピーチにおける主要な姿勢です。口形素は、音声と音素との強い相関関係を持っています。

Speech SDK で口形素イベントを使用すると、顔のアニメーションデータを生成できます。このデータは、読唇時のコミュニケーション、教育、エンターテイメント、カスタマーサービスでの顔をアニメーションで表現するために使用できます。口形素は現在、en-US (米国英語) のニューラル音声でのみサポートされています。

注

Azure AI 音声のニューラル (非 HD) 音声に加えて、Azure AI 音声の高精細 (HD) 音声と Azure OpenAI のニューラル (HD と非 HD) 音声も使用できます。 HD 音声のほうが、より幅広いシナリオで高い品質を実現できます。

音声によっては、音声合成マークアップ言語 (SSML) タグが一部しかサポートされていないことがあります。これに含まれるものとしては、ニューラルテキスト読み上げ HD 音声、パーソナル音声、埋め込み音声があります。

Azure AI 音声の高精細 (HD) 音声での SSML サポートについては、こちらを参照してください。
パーソナル音声での SSML サポートについては、こちらを参照してください。
埋め込み音声での SSML サポートについては、こちらを参照してください。

開始する

テキスト読み上げの使用を開始するには、「クイックスタート」を参照してください。テキスト読み上げは、Speech SDK、REST API、および Speech CLI を介して利用できます。

ヒント

コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio の Audio Content Creation ツールを試してください。

サンプルコード

テキスト読み上げのサンプルコードは、GitHub 上で入手できます。これらのサンプルに含まれるテキスト読み上げ変換は、人気の高いプログラミング言語で作成されています。

カスタム音声

標準音声に加えて、製品やブランドに固有のカスタム音声を作成できます。カスタム音声とは、プロフェッショナルな音声の調整と個人の音声を含む包括的な用語です。作業を始めるにあたって必要なのは、少数のオーディオファイルと関連する文字起こしだけです。詳細については、プロフェッショナルな音声の微調整に関するドキュメントを参照してください。

価格に関する注意

課金対象文字

テキスト読み上げ機能を使用している場合、句読点を含めて、文字が音声に変換されるごとに課金されます。 SSML ドキュメント自体は課金対象外ですが、テキストが音声に変換される方法を調整するために使用される省略可能な要素 (音素やピッチなど) は、課金対象文字としてカウントされます。課金対象の一覧を次に示します。

要求の SSML 本文でテキスト読み上げ機能に渡されたテキスト
<speak> と <voice> タグを除く、SSML 形式の要求本文のテキストフィールド内のすべてのアークアップ
文字、句読点、スペース、タブ、マークアップ、すべての空白文字
Unicode で定義されているすべてのコードポイント

詳細については、「Speech Services の価格」を参照してください。

重要

日本語で使用される漢字、韓国語で使用される漢字、その他の言語で使用される繁体字を含め、中国語の各文字は、課金では 2 文字としてカウントされます。

カスタム音声でのモデルのトレーニングとホスティングの時間

カスタム音声トレーニングとホスティングは、どちらも時間単位で計算され、1 秒あたりに課金されます。課金単価については、「Speech Services の価格」を参照してください。

プロフェッショナル音声の微調整時間は、"コンピューティング時間" (マシンの実行時間を測定する単位) によって測定されます。通常、音声モデルをトレーニングする場合、2 つのコンピューティングタスクが並列で実行されます。そのため、計算されたコンピューティング時間は、実際のトレーニング時間よりも長くなります。プロの音声の微調整では、通常、シングルスタイルの音声をトレーニングするのに 20 ~ 40 時間、マルチスタイルの音声をトレーニングするのに約 90 時間かかります。プロフェッショナル音声の微調整時間は、96 コンピューティング時間の上限で課金されます。そのため、音声モデルのトレーニングにかかったコンピューティング時間が 98 時間の場合、96 コンピューティング時間に対してのみ課金されます。

カスタム音声エンドポイントのホスティングは、実際の時間 (時間) で測定されます。各エンドポイントのホスティング時間 (時間) は、毎日 00:00 UTC に、過去 24 時間について計算されます。たとえば、エンドポイントが 1 日目に 24 時間アクティブになっていた場合、2 日目の 00:00 UTC に 24 時間分課金されます。エンドポイントが新しく作成された場合、またはその日中に中断された場合、2 日目の 00:00 UTC までの累積実行時間に対して課金されます。エンドポイントが現在ホストされていない場合は、課金されません。毎日 00:00 UTC の日次の計算に加えて、エンドポイントが削除または一時停止されるた場合も、課金がすぐにトリガーされます。たとえば、12 月 1 日の 08:00 UTC に作成されたエンドポイントの場合、ホスティング時間は 12 月 2 日の 00:00 UTC で 16 時間、12 月 3 日の 00:00 UTC で 24 時間として計算されます。ユーザーが 12 月 3 日の 16:30 UTC にエンドポイントのホスティングを一時停止した場合、12 月 3 日の 00:00 から 16:30 UTC までの期間 (16.5 時間) が課金対象として計算されます。

パーソナル音声

パーソナル音声機能を使用すると、プロファイルストレージと合成の両方に対して課金されます。

プロファイルストレージ: パーソナル音声プロファイルが作成されると、それがシステムから削除されるまで課金されます。課金単位は 1 日あたりの音声ごとです。音声ストレージの保持が 24 時間未満の場合でも、1 日分として課金されます。
合成: 文字ごとに課金されます。課金対象文字の詳細については、上記の「課金対象文字」を参照してください。

テキスト読み上げアバター

テキスト読み上げアバター機能を使用すると、ビデオ出力の長さに基づいて、1 秒ごとに料金が課金されます。ただし、リアルタイムアバターの場合、アバターがアクティブな時間に基づいて (話しているか、サイレント状態であるかに関係なく) 1 秒ごとに料金が課金されます。リアルタイムのアバターの使用コストを最適化するには、アバターチャットサンプルコードの中で提供されている "Use Local Video for Idle" のヒントを参照してください。

カスタムテキスト読み上げアバターのトレーニングは、時間が "コンピューティング時間" (マシンの実行時間) で測定され、1 秒ごとに課金されます。トレーニング期間は、使用するデータ量によって異なります。カスタムアバターをトレーニングするには、通常は平均 20 から 40 コンピューティング時間がかかります。アバターのトレーニング時間は、96 コンピューティング時間を上限として課金されます。そのため、あるアバターモデルが 98 コンピューティング時間トレーニングされる場合、その料金は 96 コンピューティング時間のみとなります。

アバターホスティングは、エンドポイントごとに 1 秒単位で課金されます。エンドポイントを一時停止してコストを節約できます。エンドポイントを一時停止する場合は、直接削除できます。もう一度使用するには、そのエンドポイントを再デプロイします。

Azure のテキスト読み上げメトリックを監視する

テキスト読み上げサービスに関連付けられている主要なメトリックを監視することは、リソースの使用状況を管理しコストを制御するために重要です。このセクションでは、Azure portal 内で使用状況の情報を見つけて、主要なメトリックの詳細な定義を指定する方法について説明します。 Azure Monitor メトリックに関する詳細については、「Azure Monitor メトリックの概要」を参照してください。

Azure portal で使用状況に関する情報を見つける方法

Azure リソースを効率的に管理するには、使用状況に関する情報に定期的にアクセスして確認することが不可欠です。使用状況に関する情報を見つける方法を以下に示します。

Azure portal に移動し、Azure アカウントでサインインします。
[リソース] に移動し、監視したいリソースを選択します。
左側のメニューの [監視] の下の [メトリック] を選択します。
メトリックビューをカスタマイズします。

リソースの種類、メトリックの種類、時間の範囲、およびその他のパラメーターでデータをフィルター処理して、監視のニーズに合ったカスタムビューを作成できます。さらに、頻繁に使用されるメトリックに簡単にアクセスできるように、[ダッシュボードに保存] を選択することで、メトリックビューをダッシュボードに保存できます。
アラートを設定します。

使用状況をより効率的に管理するには、左側のメニューから [監視] の下の [アラート] タブに移動してアラートを設定します。アラートでは、使用量が特定のしきい値に達したときに通知を行うことで、予期しないコストを防ぐことができます。

メトリックの定義

Azure テキスト読み上げの主要なメトリックをまとめた表を次に示します。

メトリック名	説明
合成された文字数	標準音声やカスタム音声など、音声に変換された文字数を追跡します。課金対象文字の詳細については、「課金対象文字」を参照してください。
合成されたビデオの秒数	バッチアバター合成、リアルタイムアバター合成、カスタムアバター合成を含め、合成されたビデオの合計時間を測定します。
アバターモデルホスティング秒数	カスタムアバターモデルがホストされた合計時間を秒単位で追跡します。
音声モデルホスティング時間	カスタム音声モデルがホストされている合計時間を時間単位で追跡します。
音声モデルトレーニング分数	カスタム音声モデルをトレーニングするための合計時間 (分単位) を測定します。

リファレンスドキュメント

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。「透明性に関するメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。