テキスト読み上げの概要
この概要では、Azure AI サービスに含まれる音声サービスのテキスト読み上げの利点と機能について説明します。
テキスト読み上げを使用すると、アプリケーション、ツール、またはデバイスで、テキストを人間に似た合成音声に変換できます。 テキスト読み上げ機能は音声合成とも呼ばれます。 人間に似た事前構築済みのニューラル音声をそのまま使用するか、製品やブランドに固有のカスタム ニューラル音声を作成します。 サポートされている音声、言語、ロケールの完全なリストについては、「音声サービスの言語と音声のサポート」を参照してください。
コア機能
テキスト読み上げには、次の機能が含まれています。
機能 | まとめ | デモ |
---|---|---|
事前構築済みのニューラル音声 (価格ページでは "ニューラル" と表記) | 非常に自然で、すぐに使用できる音声です。 Azure サブスクリプションと Speech リソースを作成した後、Speech SDK を使用するか、Speech Studio ポータルにアクセスし、事前構築済みニューラル音声を選択して作業を開始します。 価格の詳細に関するページを確認してください。 | 音声ギャラリーを確認して、ビジネス ニーズに合った適切な音声を決定してください。 |
カスタム ニューラル音声 (価格ページでは "カスタム ニューラル" と表記) | 自然な音声を作成するための使いやすいセルフ サービス。責任を持って使用していただくためアクセスが制限されています。 (S0 レベルで) Azure サブスクリプションと Speech リソースを作成し、カスタム ボイス機能の使用を申し込みます。 アクセスを許可されたら、Speech Studio ポータルにアクセスし、[Custom Voice] を選択して使用を開始します。 価格の詳細に関するページを確認してください。 | 音声のサンプルを確認してください。 |
ニューラル テキスト読み上げ機能についての詳細情報
テキスト読み上げでは、ディープ ニューラル ネットワークを使用して、人間の録音とほとんど区別できないコンピューターの音声を生成します。 ニューラル テキスト読み上げでは、明瞭な発音により、ユーザーが AI システムと対話する際のリスニング疲労が大幅に軽減されます。
話し言葉のアクセントとイントネーションのパターンを、"韻律" と呼びます。 従来のテキスト読み上げシステムでは、韻律を、独立したモデルによって管理される別々の言語分析と音響予測の手順に分解します。 その結果、こもったような耳障りな音声合成になる可能性があります。
音声サービスのニューラル テキスト読み上げ機能と、従来のテキスト読み上げシステムの制限を克服する方法の詳細を次に示します。
リアルタイム音声合成: Speech SDK または REST API を使用して、あらかじめ構築されたニューラル音声またはカスタム ニューラル音声を使ってテキスト読み上げを行います。
長時間の音声の非同期合成: バッチ合成 API を使用すると、10 分を超えるテキスト読み上げファイル (たとえば、オーディオ ブック、講義など) を非同期に合成できます。 Speech SDK または Speech to Text REST API を使用して実行される合成とは異なり、応答はリアルタイムで返されません。 要求が非同期に送信され、応答がポーリングされること、および合成音声がサービスから利用可能になったときにダウンロードされることを想定しています。
事前構築済みニューラル音声: Azure AI 音声はディープ ニューラル ネットワークを使用して、話し言葉のアクセントとイントネーションに関する従来の音声合成の限界を克服します。 韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。 事前構築済みの各ニューラル音声モデルは、24 kHz および高忠実度の 48 kHz で利用できます。 ニューラル音声を使用すると、次のことができます。
- チャットボットや音声アシスタントとの対話をより自然で魅力的なものにします。
- 電子書籍などのデジタル テキストをオーディオ ブックに変換します。
- 車内ナビゲーション システムを強化します。
Azure AI 音声の事前構築済みニューラル音声すべての一覧については、「音声サービスの言語と音声のサポート」を参照してください。
SSML を使用したテキスト読み上げ出力の改善: 音声合成マークアップ言語 (SSML) は、テキスト読み上げ出力をカスタマイズするために使用される XML ベースのマークアップ言語です。 SSML を使用して、ピッチの調整、一時停止の追加、発音の改善、話す速度の変更、音量の調整、単一のドキュメントへの複数の音声の割り当てを行うことができます。
SSML を使用して、独自の辞書を定義したり、さまざまな話し方に切り替えたりできます。 多言語の音声では、SSML を介して話されている言語を調整することもできます。 自分のシナリオでの音声出力を改善するには、「音声合成マークアップ言語を使用した合成の改善」および「Audio Content Creation ツールを使用した音声合成」を参照してください。
口形素: 口形素は、特定の音素を生成するときの唇、顎、舌の位置などの観察されたスピーチにおける主要な姿勢です。 口形素は、音声と音素との強い相関関係を持っています。
Speech SDK で口形素イベントを使用すると、顔のアニメーション データを生成できます。 このデータは、読唇時のコミュニケーション、教育、エンターテイメント、カスタマー サービスでの顔をアニメーションで表現するために使用できます。 口形素は現在、
en-US
英語 (米国) のニューラル音声でのみサポートされています。
Note
Azure AI 音声のニューラル (非 HD) 音声に加えて、Azure AI 音声の高精細 (HD) 音声と Azure OpenAI のニューラル (HD と非 HD) 音声も使用できます。 HD 音声のほうが、より幅広いシナリオで高い品質を実現できます。
音声によっては、音声合成マークアップ言語 (SSML) タグが一部しかサポートされていないことがあります。 これに含まれるものとしては、ニューラル テキスト読み上げ HD 音声、パーソナル音声、埋め込み音声があります。
- Azure AI 音声の高精細 (HD) 音声での SSML サポートについては、こちらを参照してください。
- パーソナル音声での SSML サポートについては、こちらを参照してください。
- 埋め込み音声での SSML サポートについては、こちらを参照してください。
作業の開始
テキスト読み上げの使用を開始するには、「クイックスタート」を参照してください。 テキスト読み上げは、Speech SDK、REST API、および Speech CLI を介して利用できます。
ヒント
コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech Studio の Audio Content Creation ツールを試してください。
サンプル コード
テキスト読み上げのサンプル コードは、GitHub 上で入手できます。 これらのサンプルに含まれるテキスト読み上げ会話は、人気の高いプログラミング言語で作成されています。
カスタム ニューラル音声
事前構築済みニューラル音声に加え、製品やブランドに固有のカスタム ニューラル音声を作成することもできます。 作業を始めるにあたって必要なのは、少数のオーディオ ファイルと関連する文字起こしだけです。 詳細については、「カスタム ニューラル音声の概要」を参照してください。
価格に関する注意
課金対象文字
テキスト読み上げ機能を使用している場合、句読点を含めて、文字が音声に変換されるごとに課金されます。 SSML ドキュメント自体は課金対象外ですが、テキストが音声に変換される方法を調整するために使用される省略可能な要素 (音素やピッチなど) は、課金対象としてカウントされます。 課金対象の一覧を次に示します。
- 要求の SSML 本文でテキスト読み上げ機能に渡されたテキスト
<speak>
と<voice>
タグを除く、SSML 形式の要求本文のテキスト フィールド内のすべてのアークアップ- 文字、句読点、スペース、タブ、マークアップ、すべての空白文字
- Unicode で定義されているすべてのコード ポイント
詳細については、「Speech Services の価格」を参照してください。
重要
日本語で使用される漢字、韓国語で使用される漢字、その他の言語で使用される繁体字を含め、中国語の各文字は、課金では 2 文字としてカウントされます。
カスタム ニューラル音声でのモデルのトレーニングとホスティングの時間
カスタム ニューラル音声のトレーニングとホスティングは、どちらも時間単位で計算され、1 秒単位で課金されます。 課金単価については、「Speech Services の価格」を参照してください。
カスタム ニューラル音声 (CNV) のトレーニング時間は、"コンピューティング時間" (マシンの実行時間を測定する単位) によって測定されます。 通常、音声モデルをトレーニングする場合、2 つのコンピューティング タスクが並列で実行されます。 そのため、計算されたコンピューティング時間は、実際のトレーニング時間よりも長くなります。 平均では、CNV Lite 音声をトレーニングするのにかかるコンピューティング時間は 1 時間未満です。CNV Pro の場合、通常、単一スタイルの音声をトレーニングするには 20 から 40 時間、マルチスタイルの音声をトレーニングするには約 90 時間かかります。 CNV のトレーニング時間は、上限 96 コンピューティング時間で課金されます。 そのため、音声モデルのトレーニングにかかったコンピューティング時間が 98 時間の場合、96 コンピューティング時間に対してのみ課金されます。
カスタム ニューラル音声 (CNV) エンドポイントのホスティングは、実際の時間 (時間単位) で測定されます。 各エンドポイントのホスティング時間 (時間) は、毎日 00:00 UTC に、過去 24 時間について計算されます。 たとえば、エンドポイントが 1 日目に 24 時間アクティブになっていた場合、2 日目の 00:00 UTC に 24 時間分課金されます。 エンドポイントが新しく作成された場合、またはその日中に中断された場合、2 日目の 00:00 UTC までの累積実行時間に対して課金されます。 エンドポイントが現在ホストされていない場合は、課金されません。 毎日 00:00 UTC の日次の計算に加えて、エンドポイントが削除または一時停止されるた場合も、課金がすぐにトリガーされます。 たとえば、12 月 1 日の 08:00 UTC に作成されたエンドポイントの場合、ホスティング時間は 12 月 2 日の 00:00 UTC で 16 時間、12 月 3 日の 00:00 UTC で 24 時間として計算されます。 ユーザーが 12 月 3 日の 16:30 UTC にエンドポイントのホスティングを一時停止した場合、12 月 3 日の 00:00 から 16:30 UTC までの期間 (16.5 時間) が課金対象として計算されます。
Personal Voice
パーソナル 音声機能を使用すると、プロファイルのストレージと合成の両方に対して課金されます。
- プロファイル ストレージ: パーソナル音声プロファイルが作成されると、システムから削除されるまで課金されます。 課金単位は 1 日あたりの音声ごとです。 音声ストレージが続く期間が 24 時間未満の場合は、1 日分として課金されます。
- 合成: 文字ごとに課金されます。 課金対象文字の詳細については、上記の課金対象文字を参照してください。
テキスト読み上げアバター
音声合成のアバター機能を利用すると、ビデオ出力の長さに基づいて料金が発生し、秒単位で課金されます。 ただし、リアルタイム アバターの場合、料金は、アバターがアクティブな時間に基づき、話しているか、サイレント状態であるかに関係なく、1 秒ごとに課金されます。 リアルタイムのアバターの使用コストを最適化するには、サンプル コードで提供されているヒントを参照してください ("Use Local Video for Idle" を検索します)。 アバター ホスティングは、エンドポイントごとに 1 秒単位で課金されます。 エンドポイントを一時停止してコストを節約できます。 エンドポイントを一時停止する場合は、直接削除できます。 もう一度使用する場合は、エンドポイントを再デプロイするだけです。
Azure のテキスト読み上げメトリックを監視する
テキスト読み上げサービスに関連付けられている主要なメトリックを監視することは、リソースの使用状況を管理しコストを制御するために重要です。 このセクションでは、Azure portal で使用状況に関する情報を見つけ、主要なメトリックの詳細な定義を指定する方法について説明します。 Azure Monitor メトリックの詳細については、「Azure Monitor メトリックの概要」を参照してください。
Azure portal で使用状況に関する情報を見つける方法
Azure リソースを効率的に管理するには、使用状況に関する情報に定期的にアクセスして確認することが不可欠です。 使用状況に関する情報を見つける方法を以下に示します。
Azure portal に移動し、Azure アカウントでサインインします。
[リソース] に移動し、監視したいリソースを選択します。
左側のメニューの [監視] の下の [メトリック] を選択します。
メトリック ビューをカスタマイズします。
リソースの種類、メトリックの種類、時間の範囲、およびその他のパラメーターでデータをフィルター処理して、監視のニーズに合ったカスタム ビューを作成できます。 さらに、頻繁に使用されるメトリックに簡単にアクセスできるように、[ダッシュボードに保存] を選択することで、メトリック ビューをダッシュボードに保存できます。
アラートの設定に関するページを参照してください。
使用状況をより効率的に管理するには、左側のメニューから [監視] の下の [アラート] タブに移動してアラートを設定します。 アラートでは、使用量が特定のしきい値に達したときに通知を行うことで、予期しないコストを防ぐことができます。
メトリックの定義
次の表は、Azure テキスト読み上げサービスの主要なメトリックをまとめたものです。
メトリック名 | 説明 |
---|---|
合成された文字数 | 事前構築済みのニューラル音声やカスタム ニューラル音声を含め、音声に変換された文字数を追跡します。 課金対象の文字の詳細については、「課金対象の文字」を参照してください。 |
合成されたビデオの秒数 | バッチ アバター合成、リアルタイム アバター合成、カスタム アバター合成を含め、合成されたビデオの合計時間を測定します。 |
アバター モデル ホスティング秒数 | カスタム アバター モデルがホストされた合計時間を秒単位で追跡します。 |
音声モデル ホスティング時間 | カスタム ニューラル音声モデルがホストされた合計時間を時間単位で追跡します。 |
音声モデル トレーニング分数 | カスタム ニューラル音声モデルのトレーニングの合計時間を分単位で測定します。 |
リファレンス ドキュメント
責任ある AI
AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。 「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。
- カスタム ニューラル音声の透過性のためのメモとユース ケース
- カスタム ニューラル音声を使用する場合の特性と制限
- カスタム ニューラル音声への制限付きアクセス
- 合成音声テクノロジの責任あるデプロイのためのガイドライン
- ボイス タレントに関する開示
- 開示設計のガイドライン
- 設計パターンの開示
- テキスト読み上げ統合の倫理規定
- カスタム ニューラル音声のデータ、プライバシー、セキュリティ