次の方法で共有


テキスト読み上げのパーソナル ボイスとは

パーソナル ボイスを使用すると、ユーザーは数秒で AI によって生成された自分の音声のレプリケーションを取得できます。 音声プロンプトとして音声ステートメントと短い音声サンプルを使用すると、ユーザーのパーソナル ボイスを作成し、100 を超えるロケールでサポートされている 90 を超える言語のいずれかで音声を生成できます。

個人用音声をサポートするリージョンの現在の一覧については、 Speech Service リージョンの表を参照してください。 サポートされているロケールについては、パーソナル ボイスの言語サポートに関するページを参照してください。

次の表は、個人の音声とプロの音声の違いをまとめたものです。

比較 パーソナル ボイス プロフェッショナルな音声
ターゲット シナリオ ユーザーがアプリで自身のパーソナル ボイスを作成し、使用できるようにするためにアプリをビルドする企業の顧客。 チャット ボットのブランドやキャラクターの音声、オーディオ コンテンツの読み上げなどのプロフェッショナルなシナリオ。
ユース ケース 限られたユース ケースに限定されます。 透過性のためのメモに関する記事をご覧ください。
トレーニング データ 必ず倫理規定に従ってください。 独自のデータを持ち込みます。 プロフェッショナル スタジオでのレコーディングをお勧めします。
必要なデータ サイズ 1 分間の人間のスピーチ。 300 から 2,000 件の発話 (人間のスピーチで約 30 分から 3 時間)。
トレーニング時間 5 秒未満 約 20 から 40 時間のコンピューティング時間。
音声品質 自然 非常に自然
多言語サポート あり。 音声は約 100 か国語に対応し、言語の自動検出も有効です。 あり。 トレーニング データとは異なる言語を話すモデルをトレーニングするには、"ニューラル - クロス言語" 機能を選択する必要があります。
可用性 Speech Studio のデモは登録すると利用できます。 API へのアクセスは、対象となるお客様と承認されたユース ケースに制限されています。 取り込みフォーム経由でアクセスを要求します。 プロの音声微調整は、アクセスが承認された後にのみ使用できます。 プロフェッショナルな音声微調整アクセスは、適格性と使用条件に基づいて制限されます。 取り込みフォーム経由でアクセスを要求します。
価格 こちら1 で価格の詳細に関するページを確認してください。 こちらで価格の詳細に関するページを確認してください。
責任ある AI の要件 話者の音声ステートメントが必要です。 未承認のユース ケースは許可されません。 話者の音声ステートメントが必要です。 未承認のユース ケースは許可されません。

1 個人用音声の価格は、この機能が利用可能なサービス リージョンでのみ表示されることに注意してください。 サポートされているリージョンの現在の一覧については、 Speech Service リージョンの表を参照してください。

デモの試用

S0 リソースがある場合、Speech Studio でパーソナル ボイスのデモにアクセスできます。 パーソナル ボイス API を使用するには、ここでアクセスを申請できます。

  1. Speech Studio にアクセスします。

  2. パーソナル ボイス カードを選択します。

  3. 自分の音声を録音したり、さまざまな言語で音声出力サンプルを試したりできます。 デモには、パーソナル ボイスでサポートされている言語のサブセットが含まれています。

    Speech Studio のパーソナル ボイス デモ エクスペリエンスのスクリーンショット。

パーソナル ボイスを作成する方法

作業を始めるにあたり、パーソナル ボイスを作成する手順の概要を次に示します。

  1. プロジェクトを作成します
  2. 同意ファイルをアップロードします。 パーソナル ボイス機能では、すべての音声がユーザーの明示的な同意のもとに作成される必要があります。 お客様 (Foundry Tools リソースの Azure Speech 所有者) が自身の音声を作成および使用することに同意する、ユーザーの録音されたステートメントが必要です。
  3. Personal Voice 用の話者プロファイル ID を取得します。 話者の音声による同意の意思表示と音声プロンプトに基づいて、話者プロファイル ID を取得します。 ユーザーの音声特性は、テキスト読み上げに使われる speakerProfileId プロパティにエンコードされます。

パーソナル ボイスを作成したら、それを使って、100 以上のロケールでサポートされる 91 の言語のいずれかで音声を合成できます。 ロケール タグは必要ありません。 パーソナル ボイスは、文レベルでの自動言語検出を使用します。 詳しくは、アプリケーションでのパーソナル ボイスの使用に関する記事をご覧ください。

ヒント

アプリケーションでパーソナル ボイスを使用する方法については、GitHub の Speech SDK リポジトリのコード サンプルを参照してください。

リファレンス ドキュメント

責任ある AI

Microsoft は、テクノロジに留意するのと同じくらい、AI のユーザーや AI の影響を受けるユーザーにも留意します。 詳細については、責任ある AI の透明性のためのメモを参照してください。

次のステップ