カスタムニューラル音声 Lite (プレビュー)

[アーティクル]
09/15/2024

Azure AI 音声は、CNV Lite と CNV Professional というカスタムニューラル音声の 2 つのプロジェクトタイプを提供しています。

カスタムニューラル音声 (CNV) Professional を使用すると、プロフェッショナルなレコーディングスタジオを通じて収集されたトレーニングデータをアップロードし、人間のサンプルとほとんど区別のつかない高品質の音声を作成できます。 CNV Professional アクセスは、資格と使用条件に基づいて制限されます。入力フォームでアクセスを要求します。
カスタムニューラル音声 (CNV) Lite は、パブリックプレビューのプロジェクトタイプです。より高品質な音声を作成するためのプロフェッショナルなレコーディングに投資する前に、カスタムニューラル音声をデモして評価することができます。デモと評価の目的では申し込みは必要ありません。ただし、Microsoft は CNV Lite で使用される録音とテストのサンプルを制限し選択しています。ビジネス目的で CNV Lite モデルをデプロイして使用するには、CNV Professional へのフルアクセスを申請する必要があります。その場合は、インテイクフォームでアクセスを要求してください。

CNV Lite プロジェクトでは、Microsoft が提供する 20 から 50 個の定義済みスクリプトを読み、音声をオンラインで録音します。少なくとも 20 個のサンプルを記録した後、モデルのトレーニングを開始できます。モデルが正常にトレーニングされると、モデルを確認し、定義済みスクリプトの別のセットで生成された 20 個の出力サンプルをチェックアウトできます。

カスタムニューラル音声でサポートされる言語を参照してください。

プロジェクトタイプを比較する

次の表は、CNV Lite と CNV Professional プロジェクトの種類の主な違いをまとめたものです。

項目	Lite (プレビュー)	Pro
ターゲットのシナリオ	デモンストレーションまたは評価	チャットボットのブランドやキャラクターの音声、オーディオコンテンツの読み上げなどのプロフェッショナルなシナリオ。
トレーニングデータ	Speech Studio を使用してオンラインで記録する	独自のデータを取り込みます。プロフェッショナルスタジオでのレコーディングをお勧めします。
レコーディング用のスクリプト	Speech Studio での提供	ユースケースのシナリオに一致する独自のスクリプトを使用します。 Microsoft では、参照用のスクリプトの例を提供しています。
必要なデータサイズ	20 から 50 回の発話	300 から 2000 回の発話
トレーニング時間	コンピューティング時間が 1 時間未満	コンピューティング時間が約 20 から 40 時間
音声品質	中程度の品質	高品質
可用性	誰でもサンプルをオンラインで記録し、デモと評価のためにモデルをトレーニングできます。 CNV Lite モデルをビジネス用にデプロイする場合は、カスタムニューラル音声へのフルアクセスが必要です。	データのアップロードは制限されませんが、アクセスが承認された後にのみ、CNV Professional モデルをトレーニングしてデプロイできます。 CNV Professional アクセスは、資格と使用条件に基づいて制限されます。入力フォームでアクセスを要求します。
価格	ユニットあたりの価格は、CNV Lite プロジェクトと CNV Professional プロジェクトの両方に等しく適用されます。こちらで価格の詳細に関するページを確認してください。	ユニットあたりの価格は、CNV Lite プロジェクトと CNV Professional プロジェクトの両方に等しく適用されます。こちらで価格の詳細に関するページを確認してください。

カスタムニューラル音声 Lite プロジェクトを作成する

カスタムニューラル音声 Lite プロジェクトを作成するには、次の手順に従います。

Speech Studio にサインインします。
使用するサブスクリプションと Speech リソースを選択します。
[Custom Voice]>[プロジェクトの作成] の順に選択します。
[カスタムニューラル音声 Lite]>[次へ] の順に選択します。代わりにカスタムニューラル音声プロフェッショナルプロジェクトを作成するには、「カスタムニューラル音声用のプロジェクトの作成」を参照してください。
ウィザードの手順に従ってプロジェクトを作成します。

重要

CNV Lite プロジェクトは、ボイスタレントによって録音されたボイスタレントステートメントが送信されない限り、90 日後に期限切れになります。
新しいプロジェクトの名前を選択するか、[プロジェクトに移動] を選択します。左側のパネルには、[録音と構築]、[モデルの確認]、[モデルのデプロイ] のメニュー項目が表示されます。

CNV Lite モデルを録音して構築する

オンラインで提供されたスクリプトを使用して、少なくとも 20 個の音声サンプル (最大 50 個) を録音します。ここで録音した音声サンプルは、音声の合成バージョンを作成するために使用されます。

Note

カスタムニューラル音声トレーニングは、現在一部のリージョンでのみ使用できます。詳細については、リージョンテーブルの脚注を参照してください。

音声サンプルを録音するために役立つヒントを次に示します。

適切なマイクを使用する。高品質のマイクを使用して、サンプルの明瞭さを高める。マイクから約 8 インチ離れた場所で話し、リップノイズを避けます。
バックグラウンドノイズを避ける。バックグラウンドノイズやエコーのない静かな部屋で録音します。
リラックスして自然に話します。文章を読む際には思い切って感情を表現します。
1 テイクで録音します。一貫したエネルギーレベルを維持するために、すべての文を 1 つのセッションで録音します。
各単語を正しく発音し、明確に話します。

CNV Lite モデルを録音して構築するには、次の手順に従います。

[Custom Voice]> [プロジェクト名]>[録音と構築] の順に選択します。
[Get started](作業を開始する) を選択します。
ボイスタレントの利用規約をよく読んでください。利用規約に同意するチェックボックスをオンにします。
[Accept](承認) を選択します。
マイクアイコンを押してノイズチェックを開始します。このノイズチェックはわずか数秒で完了し、その間に話す必要はありません。
ノイズが検出された場合は、[もう一度チェック] を選択してノイズチェックを繰り返すことができます。ノイズが検出されなかった場合は、[完了] を選択して次の手順に進むことができます。
録音のヒントを確認し、[了解] を選択します。最適な結果を得るには、音声サンプルを録音する前に、バックグラウンドノイズのない静かなエリアに移動します。
マイクアイコンを押して録音を開始します。
停止アイコンを押して録音を停止します。
品質メトリックを確認します。各サンプルを録音した後、次のサンプルに進む前に品質メトリックを確認します。
その他のサンプルを録音します。 20 個のサンプルだけでモデルを作成できますが、品質を向上させるために最大 50 個まで録音することをお勧めします。
[モデルのトレーニング] を選択して、トレーニングプロセスを開始します。

トレーニングプロセスには、約 1 時間かかります。トレーニングプロセスの進行状況は、[モデルの確認] ページで確認できます。

モデルの確認

CNV Lite モデルを確認し、独自の合成音声を聞くには、次の手順に従います。

[Custom Voice]> [プロジェクト名]>[モデルの確認] の順に選択します。ここでは、音声モデル名、モデル言語、サンプルデータサイズ、トレーニングの進行状況を確認できます。音声名は、プロジェクト名に付加された "ニューラル" という単語で作成されます。
音声モデル名を選択してモデルの詳細を確認し、サンプルのテキスト読み上げ結果を聞きます。
再生アイコンを選択して、各スクリプトを音声で読み上げます。

ボイスタレントステートメントを送信する

また、ビジネスで使用するためにモデルをデプロイする前に、ボイスタレントによって録音されたボイスタレントステートメントが必要です。

ボイスタレントのボイスタレントステートメントを送信するには、次の手順に従います。

[Custom Voice]> [プロジェクト名]>[モデルのデプロイ] >[ボイスタレントの管理] の順に選択します。
モデルを選択します。
ボイスタレント名と会社名を入力します。
ステートメントを読んで録音します。マイクアイコンを選択して録音を開始します。停止アイコンを選択して録音を停止します。
[送信] を選択してステートメントを送信します。
ダッシュボードの下部にあるスクリプトテーブルの処理状態を確認します。ステータスが [成功] になったら、モデルをデプロイできます。

モデルのデプロイ

音声モデルをデプロイしてアプリケーションで使用するには、カスタムニューラル音声へのフルアクセスを取得する必要があります。入力フォームでアクセスを要求します。約 10 営業日以内に、承認状態が記載されたメールが届きます。また、ビジネスで使用するためにモデルをデプロイする前に、ボイスタレントによって録音されたボイスタレントステートメントも必要です。

CNV Lite モデルをデプロイするには、次の手順に従います。

[Custom Voice]> [プロジェクト名] >[モデルのデプロイ]>[モデルのデプロイ] の順に選択します。
音声モデル名を選択し、[次へ] を選択します。
エンドポイントの名前と説明を入力し、[次へ] を選択します。
利用規約に同意するチェックボックスをオンにし、[次へ] を選択します。
[デプロイ] を選択して、モデルをデプロイします。

ここでは、CNV Professional 音声モデルと同様に CNV Lite 音声モデルを使用できます。たとえば、エンドポイントを作成した後に、中断または再開して、使用を制限し、使用されていないリソースを節約できます。 Speech Studio の Audio Content Creation ツールで音声にアクセスすることもできます。

次の方法で共有

カスタムニューラル音声 Lite (プレビュー)

プロジェクトタイプを比較する

カスタムニューラル音声 Lite プロジェクトを作成する

CNV Lite モデルを録音して構築する

モデルの確認

ボイスタレントステートメントを送信する

モデルのデプロイ

次のステップ

フィードバック

その他のリソース

次の方法で共有

カスタム ニューラル音声 Lite (プレビュー)

プロジェクト タイプを比較する

カスタム ニューラル音声 Lite プロジェクトを作成する

CNV Lite モデルを録音して構築する

モデルの確認

ボイス タレント ステートメントを送信する

モデルのデプロイ

次のステップ

フィードバック

その他のリソース

カスタムニューラル音声 Lite (プレビュー)

プロジェクトタイプを比較する

カスタムニューラル音声 Lite プロジェクトを作成する

ボイスタレントステートメントを送信する