パーソナル ボイスを使用すると、ユーザーは数秒で AI によって生成された自分の音声のレプリケーションを取得できます。 音声プロンプトとして音声ステートメントと短い音声サンプルを使用すると、ユーザーのパーソナル ボイスを作成し、100 を超えるロケールでサポートされている 90 を超える言語のいずれかで音声を生成できます。
注
個人用音声をサポートするリージョンの現在の一覧については、 Speech Service リージョンの表を参照してください。 サポートされているロケールについては、パーソナル ボイスの言語サポートに関するページを参照してください。
次の表は、個人の音声とプロの音声の違いをまとめたものです。
| 比較 | パーソナル ボイス | プロフェッショナルな音声 |
|---|---|---|
| ターゲット シナリオ | ユーザーがアプリで自身のパーソナル ボイスを作成し、使用できるようにするためにアプリをビルドする企業の顧客。 | チャット ボットのブランドやキャラクターの音声、オーディオ コンテンツの読み上げなどのプロフェッショナルなシナリオ。 |
| ユース ケース | 限られたユース ケースに限定されます。 透過性のためのメモに関する記事をご覧ください。 | |
| トレーニング データ | 必ず倫理規定に従ってください。 | 独自のデータを持ち込みます。 プロフェッショナル スタジオでのレコーディングをお勧めします。 |
| 必要なデータ サイズ | 1 分間の人間のスピーチ。 | 300 から 2,000 件の発話 (人間のスピーチで約 30 分から 3 時間)。 |
| トレーニング時間 | 5 秒未満 | 約 20 から 40 時間のコンピューティング時間。 |
| 音声品質 | 自然 | 非常に自然 |
| 多言語サポート | あり。 音声は約 100 か国語に対応し、言語の自動検出も有効です。 | あり。 トレーニング データとは異なる言語を話すモデルをトレーニングするには、"ニューラル - クロス言語" 機能を選択する必要があります。 |
| 可用性 | Speech Studio のデモは登録すると利用できます。 API へのアクセスは、対象となるお客様と承認されたユース ケースに制限されています。 取り込みフォーム経由でアクセスを要求します。 | プロの音声微調整は、アクセスが承認された後にのみ使用できます。 プロフェッショナルな音声微調整アクセスは、適格性と使用条件に基づいて制限されます。 取り込みフォーム経由でアクセスを要求します。 |
| 価格 | こちら1 で価格の詳細に関するページを確認してください。 | こちらで価格の詳細に関するページを確認してください。 |
| 責任ある AI の要件 | 話者の音声ステートメントが必要です。 未承認のユース ケースは許可されません。 | 話者の音声ステートメントが必要です。 未承認のユース ケースは許可されません。 |
1 個人用音声の価格は、この機能が利用可能なサービス リージョンでのみ表示されることに注意してください。 サポートされているリージョンの現在の一覧については、 Speech Service リージョンの表を参照してください。
デモの試用
S0 リソースがある場合、Speech Studio でパーソナル ボイスのデモにアクセスできます。 パーソナル ボイス API を使用するには、ここでアクセスを申請できます。
Speech Studio にアクセスします。
パーソナル ボイス カードを選択します。
自分の音声を録音したり、さまざまな言語で音声出力サンプルを試したりできます。 デモには、パーソナル ボイスでサポートされている言語のサブセットが含まれています。
パーソナル ボイスを作成する方法
作業を始めるにあたり、パーソナル ボイスを作成する手順の概要を次に示します。
- プロジェクトを作成します。
- 同意ファイルをアップロードします。 パーソナル ボイス機能では、すべての音声がユーザーの明示的な同意のもとに作成される必要があります。 お客様 (Foundry Tools リソースの Azure Speech 所有者) が自身の音声を作成および使用することに同意する、ユーザーの録音されたステートメントが必要です。
-
Personal Voice 用の話者プロファイル ID を取得します。 話者の音声による同意の意思表示と音声プロンプトに基づいて、話者プロファイル ID を取得します。 ユーザーの音声特性は、テキスト読み上げに使われる
speakerProfileIdプロパティにエンコードされます。
パーソナル ボイスを作成したら、それを使って、100 以上のロケールでサポートされる 91 の言語のいずれかで音声を合成できます。 ロケール タグは必要ありません。 パーソナル ボイスは、文レベルでの自動言語検出を使用します。 詳しくは、アプリケーションでのパーソナル ボイスの使用に関する記事をご覧ください。
ヒント
アプリケーションでパーソナル ボイスを使用する方法については、GitHub の Speech SDK リポジトリのコード サンプルを参照してください。
リファレンス ドキュメント
責任ある AI
Microsoft は、テクノロジに留意するのと同じくらい、AI のユーザーや AI の影響を受けるユーザーにも留意します。 詳細については、責任ある AI の透明性のためのメモを参照してください。
次のステップ
- プロジェクトを作成します。
- カスタム音声の詳細については、 概要を参照してください。
- Speech Studio に関する詳細については、概要を参照してください。