カスタム ニューラル音声とは

カスタム ニューラル音声 (CNV) は、アプリケーション用に独自にカスタマイズした合成音声を作成できるようにするテキスト読み上げ機能です。 カスタム ニューラル音声を使用すると、人間の発話サンプルをトレーニング データとして提供することで、ブランドやキャラクターの音声を非常に自然な音声で作成できます。

重要

カスタム ニューラル音声アクセスは、資格と使用条件に基づいて制限されます。 入力フォームで アクセスを要求します。

より高品質な音声を作成するためのプロフェッショナルなレコーディングに投資する前に、どなたでもカスタム ニューラル音声 (CNV) Liteにアクセスして、CNV をデモして評価することができます。

テキスト読み上げは、サポートされている各言語の事前構築済みのニューラル音声で、追加設定なしで使用できます。 独自の音声が必要ではない場合は、ほとんどのテキスト読み上げシナリオで、事前構築済みのニューラル音声が効果的に機能します。

カスタム ニューラル音声は、ニューラル テキスト読み上げテクノロジと多言語マルチスピーカーユニバーサル モデルに基づいています。 豊富な話し方の合成音声や、調整可能なクロス言語を作成できます。 カスタム ニューラル音声のリアルで自然な声は、ブランドや擬人化したコンピューターを表し、ユーザーが会話的にアプリケーションと対話することが可能になります。 カスタム ニューラル音声でサポートされる言語を参照してください。

しくみ

カスタム ニューラル音声を作成するには、Speech Studio を使用して、録音された音声とそれに対応するスクリプトをアップロードし、モデルをトレーニングして、音声をカスタム エンドポイントにデプロイします。

ヒント

より高品質な音声を作成するためのプロフェッショナルなレコーディングに実際に投資する前に、カスタム ニューラル音声 (CNV) Lite を試して、CNV を体験してください。

優れたカスタム ニューラル音声を作成するには、音声設計からデータ準備、音声モデルのシステムへのデプロイまで、各手順において慎重に品質を管理する必要があります。

Speech Studio で作業を開始する前に、いくつかの考慮事項を次に示します。

  • 簡潔なペルソナ ドキュメントを使用して、ブランドを表す音声のペルソナを設計します。 このドキュメントは、音声の特徴や音声の背後にある特性などの要素を定義します。 これは、スクリプトの定義、ボイス タレントの選択、トレーニング、音声のチューニングなど、カスタム ニューラル音声モデルを作成するプロセスのガイドとして役立ちます。
  • 音声のユーザー シナリオを表す、レコーディング スクリプトを選択します。 たとえば、カスタマー サービス ボットを作成する場合、ボットの会話フレーズをレコーディング スクリプトとして使用できます。 陳述文、質問文、感嘆文など、さまざまな種類の文をスクリプトに含めます。

次に Speech Studio でカスタム ニューラル音声を作成する手順の概要を示します。

  1. データ、音声モデル、テスト、エンドポイントを含むプロジェクトを作成します。 プロジェクトは、国やリージョン、および言語ごとに作成されます。 複数の音声を作成する場合は、音声ごとにプロジェクトを作成することをお勧めします。
  2. ボイス タレントを設定します。 ニューラル音声をトレーニングする前に、ボイス タレントの同意ステートメントの録音を送信する必要があります。 ボイス タレント ステートメントは、音声データを使用してカスタム音声モデルをトレーニングすることに同意するステートメントを読み上げるボイス タレントの録音です。
  3. 適切な形式トレーニング データを準備します。 高い SN 比 (信号対雑音比) を実現するため、プロフェッショナル品質の録音スタジオでオーディオ録音をキャプチャすることをお勧めします。 音声モデルの品質は、トレーニング データに大きく依存します。 一定の音量、話す速度、ピッチ、さらには話の表現方法における一貫性も必要です。
  4. 音声モデルをトレーニングします。 カスタム ニューラル音声を作成するには、少なくとも 300 個の発話を選択します。 アップロードすると、一連のデータ品質チェックが自動的に実行されます。 高品質な音声モデルを作成するには、すべてのエラーを修正してからもう一度送信する必要があります。
  5. 音声をテストします。 アプリのさまざまなユース ケースをカバーする音声モデルのテスト スクリプトを準備します。 トレーニング データセットの内部および外部のスクリプトを使用することをお勧めします。そうすることで、さまざまなコンテンツに対して幅広く品質をテストできます。
  6. 音声モデルをアプリにデプロイして使用します

事前構築済みのニューラル音声を使用する場合と同様に、カスタム音声を調整して使用できます。 リアルタイムでテキストを音声に変換したり、テキスト入力を使用してオーディオ コンテンツをオフラインで生成したりできます。 REST APISpeech SDK、または Speech Studio を使用します。

ヒント

Speech SDK とカスタム音声 REST API を使用して、カスタム ニューラル音声をトレーニングすることもできます。

アプリケーションで個人用音声を使用する方法については、GitHub の Speech SDK リポジトリのコード サンプルを参照してください。

トレーニング済みの音声モデルのスタイルと特性は、トレーニングに採用したボイス タレントのスタイルと録音品質によって異なってきます。 とはいえ、音声モデルに対して API を呼び出して合成音声を生成するときに、SSML (音声合成マークアップ言語) を使用していくつかの調整を行うことができます。 SSML は、テキストを音声に変換するテキスト読み上げサービスとの通信に使用されるマークアップ言語です。 実施できる調整には、ピッチ、速さ、イントネーションの変更や発音の修正が含まれます。 複数のスタイルで音声モデルが構築されている場合は、SSML を使用してスタイルを切り替えることもできます。

コンポーネント シーケンス

カスタム ニューラル音声は 3 つの主要コンポーネントで構成されています。テキスト アナライザー、ニューラル音響モデル、ニューラル ボコーダーです。 テキストから自然な合成音声を生成するために、まずテキストがテキスト アナライザーに入力されます。これにより、音素シーケンスの形式で出力が提供されます。 "音素" は、特定の言語で、ある単語を別の単語と区別するための基本的なサウンド単位です。 音素のシーケンスは、テキストで提供された単語の発音を定義します。

次に、音素シーケンスは、ニューラル音響モデルに投入され、音声信号を定義する音響の特徴が予測されます。 音響の特徴には、音色、話し方、速度、イントネーション、強勢パターンなどがあります。 最後に、ニューラル ボコーダーが音響特徴を可聴波に変換すると、合成音声が生成されます。

Flowchart that shows the components of custom neural voice.

ニューラル テキスト読み上げ音声モデルは、人間の声の録音サンプルに基づき、ディープ ニューラル ネットワークを使用してトレーニングされています。 詳細については、こちらの Microsoft ブログ記事をご覧ください。 ニューラル ボコーダーのトレーニング方法の詳細については、こちらの Microsoft ブログ記事をご覧ください。

カスタム ニューラル音声への移行

以前のバージョンの Custom Voice (2024 年 2 月に廃止予定) を使用している場合は、カスタム ニューラル音声への移行方法に関する記事を参照してください。

責任ある AI

AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、それがデプロイされる環境も含まれます。 「透過性のためのメモ」を読み、システムでの責任ある AI の使用とデプロイについて確認してください。

次のステップ