テキスト読み上げの概要

この概要では、Azure AI サービスに含まれる音声サービスのテキスト読み上げの利点と機能について説明します。

テキスト読み上げを使用すると、アプリケーション、ツール、またはデバイスで、テキストを人間に似た合成音声に変換できます。 テキスト読み上げ機能は音声合成とも呼ばれます。 人間に似た事前構築済みのニューラル音声をそのまま使用するか、製品やブランドに固有のカスタム ニューラル音声を作成します。 サポートされている音声、言語、ロケールの完全なリストについては、「音声サービスの言語と音声のサポート」を参照してください。

コア機能

テキスト読み上げには、次の機能が含まれています。

機能 まとめ デモ
事前構築済みのニューラル音声 (価格ページでは "ニューラル" と表記) 非常に自然で、すぐに使用できる音声です。 Azure アカウントと Speech Service のサブスクリプションを作成します。次に、Speech SDK を使用するか、Speech Studio ポータルにアクセスし、事前構築済みのニューラル音声を選択すると作業を開始できます。 価格の詳細に関するページを確認してください。 音声ギャラリーを確認して、ビジネス ニーズに合った適切な音声を決定してください。
カスタム ニューラル音声 (価格ページでは "カスタム ニューラル" と表記) 自然な音声を作成するための使いやすいセルフ サービス。責任を持って使用していただくためアクセスが制限されています。 (S0 層を使用して) Azure アカウントと音声サービスのサブスクリプションを作成し、カスタム ニューラル機能を使用するように適用します。 アクセスを許可されたら、Speech Studio ポータルにアクセスし、[Custom Voice] を選択して使用を開始します。 価格の詳細に関するページを確認してください。 音声のサンプルを確認してください。

ニューラル テキスト読み上げ機能についての詳細情報

テキスト読み上げでは、ディープ ニューラル ネットワークを使用して、人間の録音とほとんど区別できないコンピューターの音声を生成します。 ニューラル テキスト読み上げでは、明瞭な発音により、ユーザーが AI システムと対話する際のリスニング疲労が大幅に軽減されます。

話し言葉のアクセントとイントネーションのパターンを、"韻律" と呼びます。 従来のテキスト読み上げシステムでは、韻律を、独立したモデルによって管理される別々の言語分析と音響予測の手順に分解します。 その結果、こもったような耳障りな音声合成になる可能性があります。

音声サービスのニューラル テキスト読み上げ機能と、従来のテキスト読み上げシステムの制限を克服する方法の詳細を次に示します。

  • リアルタイム音声合成: Speech SDK または REST API を使用して、あらかじめ構築されたニューラル音声またはカスタム ニューラル音声を使ってテキスト読み上げを行います。

  • 長時間の音声の非同期合成: バッチ合成 API (プレビュー) を使用すると、10 分を超えるテキスト読み上げファイル (たとえば、オーディオ ブック、講義など) を非同期に合成できます。 Speech SDK または Speech to Text REST API を使用して実行される合成とは異なり、応答はリアルタイムで返されません。 要求が非同期に送信され、応答がポーリングされること、および合成音声がサービスから利用可能になったときにダウンロードされることを想定しています。

  • 事前構築済みのニューラル音声: Microsoft のニューラル テキスト読み上げ機能では、ディープ ニューラル ネットワークを使用して、話し言葉のアクセントとイントネーションに関する従来の音声合成の限界を克服します。 韻律予測と音声合成が同時に行われるため、より滑らかで自然な音声出力が得られます。 事前構築済みの各ニューラル音声モデルは、24 kHz および高忠実度の 48 kHz で利用できます。 ニューラル音声を使用すると、次のことができます。

    • チャットボットや音声アシスタントとの対話をより自然で魅力的なものにします。
    • 電子書籍などのデジタル テキストをオーディオ ブックに変換します。
    • 車内ナビゲーション システムを強化します。

    プラットフォーム ニューラル音声の完全な一覧については、「音声サービスの言語と音声のサポート」を参照してください。

  • SSML でテキスト読み上げの出力を微調整する: 音声合成マークアップ言語 (SSML) は、テキスト読み上げの出力をカスタマイズするために使用される XML ベースのマークアップ言語です。 SSML を使用して、ピッチの調整、一時停止の追加、発音の改善、話す速度の変更、音量の調整、単一のドキュメントへの複数の音声の割り当てを行うことができます。

    SSML を使用して、独自の辞書を定義したり、さまざまな話し方に切り替えたりできます。 多言語の音声では、SSML を介して話されている言語を調整することもできます。 シナリオの音声出力を微調整するには、「音声合成マークアップ言語を使用して合成を改善する」および「Audio Content Creation ツールを使用する音声合成」を参照してください。

  • 口形素: 口形素は、特定の音素を生成するときの唇、顎、舌の位置などの観察されたスピーチにおける主要な姿勢です。 口形素は、音声と音素との強い相関関係を持っています。

    Speech SDK で口形素イベントを使用すると、顔のアニメーション データを生成できます。 このデータは、読唇時のコミュニケーション、教育、エンターテイメント、カスタマー サービスでの顔をアニメーションで表現するために使用できます。 口形素は現在、en-US 英語 (米国) のニューラル音声でのみサポートされています。

注意

2024 年に従来型/標準型音声とニューラル以外のカスタム音声は廃止される予定です。 その後、サポートは終了します。

アプリケーション、ツール、または製品が標準型音声とカスタム音声のいずれかを使用している場合は、ニューラル バージョンに移行する必要があります。 詳細については、ニューラル音声への移行に関するページを参照してください。

作業の開始

テキスト読み上げの使用を開始するには、「クイックスタート」を参照してください。 テキスト読み上げは、Speech SDKREST API、および Speech CLI を介して利用できます。

ヒント

コードを使用しない方法でテキスト読み上げを音声に変換するには、Speech StudioAudio Content Creation ツールを試してください。

サンプル コード

テキスト読み上げのサンプル コードは、GitHub 上で入手できます。 これらのサンプルに含まれるテキスト読み上げ会話は、人気の高いプログラミング言語で作成されています。

カスタム ニューラル音声

あらかじめ構築されたニューラル音声に加え、製品またはブランドに固有のカスタム ニューラル音声を作成し、微調整できます。 作業を始めるにあたって必要なのは、少数のオーディオ ファイルと関連する文字起こしだけです。 詳細については、「カスタム ニューラル音声の概要」を参照してください。

価格に関する注意

課金対象文字

テキスト読み上げ機能を使用している場合、句読点を含めて、文字が音声に変換されるごとに課金されます。 SSML ドキュメント自体は課金対象外ですが、テキストが音声に変換される方法を調整するために使用される省略可能な要素 (音素やピッチなど) は、課金対象としてカウントされます。 課金対象の一覧を次に示します。

  • 要求の SSML 本文でテキスト読み上げ機能に渡されたテキスト
  • <speak><voice> タグを除く、SSML 形式の要求本文のテキスト フィールド内のすべてのアークアップ
  • 文字、句読点、スペース、タブ、マークアップ、すべての空白文字
  • Unicode で定義されているすべてのコード ポイント

詳細については、「Speech Services の価格」を参照してください。

重要

日本語で使用される漢字、韓国語で使用される漢字、その他の言語で使用される繁体字を含め、中国語の各文字は、課金では 2 文字としてカウントされます。

カスタム ニューラル音声でのモデルのトレーニングとホスティングの時間

カスタム ニューラル音声のトレーニングとホスティングは、どちらも時間単位で計算され、1 秒単位で課金されます。 課金単価については、「Speech Services の価格」を参照してください。

カスタム ニューラル音声 (CNV) のトレーニング時間は、"コンピューティング時間" (マシンの実行時間を測定する単位) によって測定されます。 通常、音声モデルをトレーニングする場合、2 つのコンピューティング タスクが並列で実行されます。 そのため、計算されたコンピューティング時間は、実際のトレーニング時間よりも長くなります。 平均では、CNV Lite 音声をトレーニングするのにかかるコンピューティング時間は 1 時間未満です。CNV Pro の場合、通常、単一スタイルの音声をトレーニングするには 20 から 40 時間、マルチスタイルの音声をトレーニングするには約 90 時間かかります。 CNV のトレーニング時間は、上限 96 コンピューティング時間で課金されます。 そのため、音声モデルのトレーニングにかかったコンピューティング時間が 98 時間の場合、96 コンピューティング時間に対してのみ課金されます。

カスタム ニューラル音声 (CNV) エンドポイントのホスティングは、実際の時間 (時間単位) で測定されます。 各エンドポイントのホスティング時間 (時間) は、毎日 00:00 UTC に、過去 24 時間について計算されます。 たとえば、エンドポイントが 1 日目に 24 時間アクティブになっていた場合、2 日目の 00:00 UTC に 24 時間分課金されます。 エンドポイントが新しく作成された場合、またはその日中に中断された場合、2 日目の 00:00 UTC までの累積実行時間に対して課金されます。 エンドポイントが現在ホストされていない場合は、課金されません。 毎日 00:00 UTC の日次の計算に加えて、エンドポイントが削除または一時停止されるた場合も、課金がすぐにトリガーされます。 たとえば、12 月 1 日の 08:00 UTC に作成されたエンドポイントの場合、ホスティング時間は 12 月 2 日の 00:00 UTC で 16 時間、12 月 3 日の 00:00 UTC で 24 時間として計算されます。 ユーザーが 12 月 3 日の 16:30 UTC にエンドポイントのホスティングを一時停止した場合、12 月 3 日の 00:00 から 16:30 UTC までの期間 (16.5 時間) が課金対象として計算されます。

リファレンス ドキュメント

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。 「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

次のステップ