次の方法で共有


カスタム音声 Lite

カスタムボイスライトは、高品質の音声を作成するためにプロの録音に投資する前に、カスタム音声をデモして評価できるプロジェクトタイプです。 デモと評価の目的では申し込みは必要ありません。 ただし、Microsoft では、カスタム音声ライトで使用する録音とテストのサンプルを制限し、選択します。 ビジネス目的でカスタム音声ライト モデルをデプロイして使用するには、プロの音声微調整へのフル アクセスを申請する必要があります。 その場合は、インテイク フォームでアクセスを要求してください。

カスタム音声ライトは スピーチ スタジオ でのみ使用できます。 Azure AI Foundry ポータル、REST API、または SDK では使用できません。

カスタム音声ライト プロジェクトでは、Microsoft が提供する 20 から 50 個の事前に定義されたスクリプトを読んで、音声をオンラインで録音します。 少なくとも 20 個のサンプルを記録した後、モデルのトレーニングを開始できます。 モデルが正常にトレーニングされると、モデルを確認し、定義済みスクリプトの別のセットで生成された 20 個の出力サンプルをチェックアウトできます。

カスタム音声で サポートされている言語を 参照してください。

プロジェクト タイプを比較する

次の表は、カスタム音声ライトとプロの音声微調整の主な違いをまとめたものです。

項目 ライト プロフェッショナル
ターゲットのシナリオ デモンストレーションまたは評価 チャット ボットのブランドやキャラクターの音声、オーディオ コンテンツの読み上げなどのプロフェッショナルなシナリオ。
トレーニング データ Speech Studio を使用してオンラインで記録する 独自のデータを取り込みます。 プロフェッショナル スタジオでのレコーディングをお勧めします。
レコーディング用のスクリプト Speech Studio での提供 ユース ケースのシナリオに一致する独自のスクリプトを使用します。 Microsoft では、参照用のスクリプトの例 を提供しています。
必要なデータ サイズ 20 から 50 回の発話 300 から 2000 回の発話
トレーニング時間 コンピューティング時間が 1 時間未満 コンピューティング時間が約 20 から 40 時間
音声品質 中程度の品質 高品質
可用性 誰でもサンプルをオンラインで記録し、デモと評価のためにモデルをトレーニングできます。 ビジネス用にカスタム音声ライト モデルをデプロイする場合は、カスタム音声へのフル アクセスが必要です。 データのアップロードは制限されませんが、アクセスが承認された後にのみプロの音声を微調整できます。 プロフェッショナルな音声の微調整は、資格と使用条件に基づいて制限されます。 入力フォームで アクセスを要求します。
価格 ユニットあたりの価格は、カスタム音声 Lite と Pro の両方の音声微調整に同じように適用されます。 こちらで価格の詳細に関するページを確認してください。 1単位あたりの価格は、カスタム音声ライトとプロフェッショナル音声チューニングの両方に均等に適用されます。 こちらで価格の詳細に関するページを確認してください。

カスタムボイスライトプロジェクトを作成する

カスタム音声ライト プロジェクトを作成するには、次の手順に従います。

  1. Speech Studio にサインインします。

  2. 使用するサブスクリプションと Speech リソースを選択します。

  3. [Custom Voice]>[プロジェクトの作成] の順に選択します。

  4. [カスタム ニューラル音声 Lite]>[次へ] の順に選択します。 代わりにカスタム音声プロフェッショナル プロジェクトを作成するには、 プロフェッショナル音声の微調整に関するドキュメントを参照してください。

  5. ウィザードの手順に従ってプロジェクトを作成します。

    重要

    カスタムボイスライトプロジェクトは、ボイスタレントによって録音された 口頭声明 が提出されない限り、90日後に期限切れになります。

  6. 新しいプロジェクトの名前を選択するか、[プロジェクトに移動] を選択します。 左側のパネルには、[録音と構築][モデルの確認][モデルのデプロイ] のメニュー項目が表示されます。

    カスタム音声ライト レコード、トレーニング、テスト、展開ワークフローの概要を示すスクリーンショット。

カスタム軽量音声モデルを録音して構築する

オンラインで提供されたスクリプトを使用して、少なくとも 20 個の音声サンプル (最大 50 個) を録音します。 ここで録音した音声サンプルは、音声の合成バージョンを作成するために使用されます。

カスタム音声トレーニングは現在、一部のリージョンでのみ利用できます。 詳細については、リージョン テーブルの脚注を参照してください。

音声サンプルを録音するために役立つヒントを次に示します。

  • 適切なマイクを使用する。 高品質のマイクを使用して、サンプルの明瞭さを高める。 マイクから約 8 インチ離れた場所で話し、リップ ノイズを避けます。
  • バックグラウンド ノイズを避ける。 バックグラウンド ノイズやエコーのない静かな部屋で録音します。
  • リラックスして自然に話します。 文章を読む際には思い切って感情を表現します。
  • 1 テイクで録音します。 一貫したエネルギー レベルを維持するために、すべての文を 1 つのセッションで録音します。
  • 各単語を正しく発音し、明確に話します。

カスタム音声ライト モデルを記録して構築するには、 Speech Studio で次の手順に従います。

  1. [Custom Voice]> [プロジェクト名]>[録音と構築] の順に選択します。
  2. [Get started](作業を開始する) を選択します。
  3. ボイス タレントの利用規約をよく読んでください。 利用規約に同意するチェック ボックスをオンにします。
  4. [Accept](承認) を選択します。
  5. マイク アイコンを押してノイズ チェックを開始します。 このノイズ チェックはわずか数秒で完了し、その間に話す必要はありません。
  6. ノイズが検出された場合は、[もう一度チェック] を選択してノイズ チェックを繰り返すことができます。 ノイズが検出されなかった場合は、[完了] を選択して次の手順に進むことができます。 ノイズが検出されたときのノイズ チェック結果のスクリーンショット。
  7. 録音のヒントを確認し、[了解] を選択します。 最適な結果を得るには、音声サンプルを録音する前に、バックグラウンド ノイズのない静かなエリアに移動します。
  8. マイク アイコンを押して録音を開始します。 録音サンプル ダッシュボードのスクリーンショット。
  9. 停止アイコンを押して録音を停止します。
  10. 品質メトリックを確認します。 各サンプルを録音した後、次のサンプルに進む前に品質メトリックを確認します。
  11. その他のサンプルを録音します。 20 個のサンプルだけでモデルを作成できますが、品質を向上させるために最大 50 個まで録音することをお勧めします。
  12. [モデルのトレーニング] を選択して、トレーニング プロセスを開始します。

トレーニング プロセスには、約 1 時間かかります。 トレーニング プロセスの進行状況は、[モデルの確認] ページで確認できます。

モデルの確認

カスタム音声ライト モデルを確認し、独自の合成音声を聞くには、次の手順に従います。

  1. [Custom Voice]> [プロジェクト名]>[モデルの確認] の順に選択します。 ここでは、音声モデル名、モデル言語、サンプル データ サイズ、トレーニングの進行状況を確認できます。 音声名は、プロジェクト名に付加された "ニューラル" という単語で作成されます。
  2. 音声モデル名を選択してモデルの詳細を確認し、サンプルのテキスト読み上げ結果を聞きます。
  3. 再生アイコンを選択して、各スクリプトを音声で読み上げます。 レビュー サンプル出力ダッシュボードのスクリーンショット。

ボイス タレント ステートメントを送信する

また、ビジネスで使用するためにモデルをデプロイする前に、ボイス タレントによって録音されたボイス タレント ステートメントが必要です。

音声タレントの口述を送信するには、 Speech Studio で次の手順に従います。

  1. [Custom Voice]> [プロジェクト名]>[モデルのデプロイ] >[ボイス タレントの管理] の順に選択します。 録音ボイス タレント同意ダッシュボードのスクリーンショット。
  2. モデルを選択します。
  3. ボイス タレント名と会社名を入力します。
  4. ステートメントを読んで録音します。 マイク アイコンを選択して録音を開始します。 停止アイコンを選択して録音を停止します。
  5. [送信] を選択してステートメントを送信します。
  6. ダッシュボードの下部にあるスクリプト テーブルの処理状態を確認します。 ステータスが [成功] になったら、モデルをデプロイできます。

モデルのデプロイ

カスタム音声ライト モデルをデプロイしてアプリケーションで使用するには、カスタム音声へのフル アクセスを取得する必要があります。 入力フォームで アクセスを要求します。 約 10 営業日以内に、承認状態が記載されたメールが届きます。 また、ビジネスで使用するためにモデルをデプロイする前に、ボイス タレントによって録音されたボイス タレント ステートメントも必要です。

カスタム音声ライト モデルをデプロイするには、 Speech Studio で次の手順に従います。

  1. [Custom Voice]> [プロジェクト名] >[モデルのデプロイ]>[モデルのデプロイ] の順に選択します。
  2. 音声モデル名を選択し、[次へ] を選択します。
  3. エンドポイントの名前と説明を入力し、[次へ] を選択します。
  4. 利用規約に同意するチェック ボックスをオンにし、[次へ] を選択します。
  5. [デプロイ] を選択して、モデルをデプロイします。

ここからは、プロの音声モデルを使用するのと同様に、カスタム音声ライト モデルを使用できます。 たとえば、エンドポイントを作成した後に、中断または再開して、使用を制限し、使用されていないリソースを節約できます。 Speech StudioAudio Content Creation ツールで音声にアクセスすることもできます。

次のステップ