カスタム ニューラル音声 Lite (プレビュー)

Speech Studio では、2 つのカスタム ニューラル音声 (CNV) プロジェクトの種類 (CNV Lite と CNV Professional) が提供されます。

  • カスタム ニューラル音声 (CNV) Professional を使用すると、プロフェッショナルなレコーディング スタジオを通じて収集されたトレーニング データをアップロードし、人間のサンプルとほとんど区別のつかない高品質の音声を作成できます。 CNV Professional アクセスは、資格と使用条件に基づいて制限されます。 入力フォームで アクセスを要求します。
  • カスタム ニューラル音声 (CNV) Lite は、パブリック プレビューのプロジェクト タイプです。 より高品質な音声を作成するためのプロフェッショナルなレコーディングに投資する前に、カスタム ニューラル音声をデモして評価することができます。 申請は必要ありません。 Microsoft は、CNV Lite で使用する録音とテストのサンプルを制限し、選択します。 ビジネス目的で CNV Lite モデルをデプロイして使用するには、CNV Professional へのフル アクセスを申請する必要があります。

CNV Lite プロジェクトでは、Microsoft が提供する 20 から 50 個の定義済みスクリプトを読み、音声をオンラインで録音します。 少なくとも 20 個のサンプルを記録した後、モデルのトレーニングを開始できます。 モデルが正常にトレーニングされると、モデルを確認し、定義済みスクリプトの別のセットで生成された 20 個の出力サンプルをチェックアウトできます。

カスタム ニューラル音声でサポートされる言語を参照してください。

プロジェクト タイプを比較する

次の表は、CNV Lite と CNV Professional プロジェクトの種類の主な違いをまとめたものです。

項目 Lite (プレビュー) Pro
ターゲットのシナリオ デモンストレーションまたは評価 チャット ボットのブランドやキャラクターの音声、オーディオ コンテンツの読み上げなどのプロフェッショナルなシナリオ。
トレーニング データ Speech Studio を使用してオンラインで記録する 独自のデータを取り込みます。 プロフェッショナル スタジオでのレコーディングをお勧めします。
レコーディング用のスクリプト Speech Studio での提供 ユース ケースのシナリオに一致する独自のスクリプトを使用します。 Microsoft では、参照用のスクリプトの例 を提供しています。
必要なデータ サイズ 20 から 50 回の発話 300 から 2000 回の発話
トレーニング時間 コンピューティング時間が 1 時間未満 コンピューティング時間が約 20 から 40 時間
音声品質 中程度の品質 高品質
可用性 誰でもサンプルをオンラインで記録し、デモと評価のためにモデルをトレーニングできます。 CNV Lite モデルをビジネス用にデプロイする場合は、カスタム ニューラル音声へのフル アクセスが必要です。 データのアップロードは制限されませんが、アクセスが承認された後にのみ、CNV Professional モデルをトレーニングしてデプロイできます。 CNV Professional アクセスは、資格と使用条件に基づいて制限されます。 入力フォームで アクセスを要求します。
価格 ユニットあたりの価格は、CNV Lite プロジェクトと CNV Professional プロジェクトの両方に等しく適用されます。 こちらで価格の詳細に関するページを確認してください。 ユニットあたりの価格は、CNV Lite プロジェクトと CNV Professional プロジェクトの両方に等しく適用されます。 こちらで価格の詳細に関するページを確認してください。

カスタム ニューラル音声 Lite プロジェクトを作成する

カスタム ニューラル音声 Lite プロジェクトを作成するには、次の手順に従います。

  1. Speech Studio にサインインします。

  2. 使用するサブスクリプションと Speech リソースを選択します。

    重要

    カスタム ニューラル音声トレーニングは、現在一部のリージョンでのみ使用できます。 詳細については、リージョン テーブルの脚注を参照してください。

  3. [Custom Voice]>[プロジェクトの作成] の順に選択します。

  4. [カスタム ニューラル音声 Lite]>[次へ] の順に選択します。

    Note

    カスタム ニューラル音声 Pro プロジェクトを作成するには、「カスタム ニューラル音声のプロジェクトを作成する」を参照してください。

  5. ウィザードの手順に従ってプロジェクトを作成します。

  6. 新しいプロジェクトの名前を選択するか、[プロジェクトに移動] を選択します。 左側のパネルには、[録音と構築][モデルの確認][モデルのデプロイ] のメニュー項目が表示されます。
    Screenshot with an overview of the CNV lite record, train, test, and deploy workflow.

CNV Lite プロジェクトは、ボイス タレントによって録音されたボイス タレント ステートメントが送信されない限り、90 日後に期限切れになります。

CNV Lite モデルを録音して構築する

オンラインで提供されたスクリプトを使用して、少なくとも 20 個の音声サンプル (最大 50 個) を録音します。 ここで録音した音声サンプルは、音声の合成バージョンを作成するために使用されます。

音声サンプルを録音するために役立つヒントを次に示します。

  • 適切なマイクを使用する。 高品質のマイクを使用して、サンプルの明瞭さを高める。 マイクから約 8 インチ離れた場所で話し、リップ ノイズを避けます。
  • バックグラウンド ノイズを避ける。 バックグラウンド ノイズやエコーのない静かな部屋で録音します。
  • リラックスして自然に話します。 文章を読む際には思い切って感情を表現します。
  • 1 テイクで録音します。 一貫したエネルギー レベルを維持するために、すべての文を 1 つのセッションで録音します。
  • 各単語を正しく発音し、明確に話します。

CNV Lite モデルを録音して構築するには、次の手順に従います。

  1. [Custom Voice]> [プロジェクト名]>[録音と構築] の順に選択します。
  2. [Get started](作業を開始する) を選択します。
  3. ボイス タレントの利用規約をよく読んでください。 利用規約に同意するチェック ボックスをオンにします。
  4. [Accept](承認) を選択します。
  5. マイク アイコンを押してノイズ チェックを開始します。 このノイズ チェックはわずか数秒で完了し、その間に話す必要はありません。
  6. ノイズが検出された場合は、[もう一度チェック] を選択してノイズ チェックを繰り返すことができます。 ノイズが検出されなかった場合は、[完了] を選択して次の手順に進むことができます。 Screenshot of the noise check results when noise was detected.
  7. 録音のヒントを確認し、[了解] を選択します。 最適な結果を得るには、音声サンプルを録音する前に、バックグラウンド ノイズのない静かなエリアに移動します。
  8. マイク アイコンを押して録音を開始します。 Screenshot of the record sample dashboard.
  9. 停止アイコンを押して録音を停止します。
  10. 品質メトリックを確認します。 各サンプルを録音した後、次のサンプルに進む前に品質メトリックを確認します。
  11. その他のサンプルを録音します。 20 個のサンプルだけでモデルを作成できますが、品質を向上させるために最大 50 個まで録音することをお勧めします。
  12. [モデルのトレーニング] を選択して、トレーニング プロセスを開始します。

トレーニング プロセスには、約 1 時間かかります。 トレーニング プロセスの進行状況は、[モデルの確認] ページで確認できます。

モデルの確認

CNV Lite モデルを確認し、独自の合成音声を聞くには、次の手順に従います。

  1. [Custom Voice]> [プロジェクト名]>[モデルの確認] の順に選択します。 ここでは、音声モデル名、モデル言語、サンプル データ サイズ、トレーニングの進行状況を確認できます。 音声名は、プロジェクト名に付加された "ニューラル" という単語で作成されます。
  2. 音声モデル名を選択してモデルの詳細を確認し、サンプルのテキスト読み上げ結果を聞きます。
  3. 再生アイコンを選択して、各スクリプトを音声で読み上げます。 Screenshot of the review sample output dashboard.

ボイス タレント ステートメントを送信する

また、ビジネスで使用するためにモデルをデプロイする前に、ボイス タレントによって録音されたボイス タレント ステートメントが必要です。

ボイス タレントのボイス タレント ステートメントを送信するには、次の手順に従います。

  1. [Custom Voice]> [プロジェクト名]>[モデルのデプロイ] >[ボイス タレントの管理] の順に選択します。 Screenshot of the record voice talent consent dashboard.
  2. モデルを選択します。
  3. ボイス タレント名と会社名を入力します。
  4. ステートメントを読んで録音します。 マイク アイコンを選択して録音を開始します。 停止アイコンを選択して録音を停止します。
  5. [送信] を選択してステートメントを送信します。
  6. ダッシュボードの下部にあるスクリプト テーブルの処理状態を確認します。 ステータスが [成功] になったら、モデルをデプロイできます。

モデルのデプロイ

音声モデルをデプロイしてアプリケーションで使用するには、カスタム ニューラル音声へのフル アクセスを取得する必要があります。 入力フォームで アクセスを要求します。 約 10 営業日以内に、承認状態が記載されたメールが届きます。 また、ビジネスで使用するためにモデルをデプロイする前に、ボイス タレントによって録音されたボイス タレント ステートメントも必要です。

CNV Lite モデルをデプロイするには、次の手順に従います。

  1. [Custom Voice]> [プロジェクト名] >[モデルのデプロイ]>[モデルのデプロイ] の順に選択します。
  2. 音声モデル名を選択し、[次へ] を選択します。
  3. エンドポイントの名前と説明を入力し、[次へ] を選択します。
  4. 利用規約に同意するチェック ボックスをオンにし、[次へ] を選択します。
  5. [デプロイ] を選択して、モデルをデプロイします。

ここでは、CNV Professional 音声モデルと同様に CNV Lite 音声モデルを使用できます。 たとえば、エンドポイントを作成した後に、中断または再開して、使用を制限し、使用されていないリソースを節約できます。 Speech StudioAudio Content Creation ツールで音声にアクセスすることもできます。

次のステップ