カスタム音声 Lite

2025-06-09

カスタムボイスライトは、高品質の音声を作成するためにプロの録音に投資する前に、カスタム音声をデモして評価できるプロジェクトタイプです。デモと評価の目的では申し込みは必要ありません。ただし、Microsoft では、カスタム音声ライトで使用する録音とテストのサンプルを制限し、選択します。ビジネス目的でカスタム音声ライトモデルをデプロイして使用するには、プロの音声微調整へのフルアクセスを申請する必要があります。その場合は、インテイクフォームでアクセスを要求してください。

注

カスタム音声ライトはスピーチスタジオでのみ使用できます。 Azure AI Foundry ポータル、REST API、または SDK では使用できません。

カスタム音声ライトプロジェクトでは、Microsoft が提供する 20 から 50 個の事前に定義されたスクリプトを読んで、音声をオンラインで録音します。少なくとも 20 個のサンプルを記録した後、モデルのトレーニングを開始できます。モデルが正常にトレーニングされると、モデルを確認し、定義済みスクリプトの別のセットで生成された 20 個の出力サンプルをチェックアウトできます。

カスタム音声でサポートされている言語を参照してください。

プロジェクトタイプを比較する

次の表は、カスタム音声ライトとプロの音声微調整の主な違いをまとめたものです。

項目	ライト	プロフェッショナル
ターゲットのシナリオ	デモンストレーションまたは評価	チャットボットのブランドやキャラクターの音声、オーディオコンテンツの読み上げなどのプロフェッショナルなシナリオ。
トレーニングデータ	Speech Studio を使用してオンラインで記録する	独自のデータを取り込みます。プロフェッショナルスタジオでのレコーディングをお勧めします。
レコーディング用のスクリプト	Speech Studio での提供	ユースケースのシナリオに一致する独自のスクリプトを使用します。 Microsoft では、参照用のスクリプトの例を提供しています。
必要なデータサイズ	20 から 50 回の発話	300 から 2000 回の発話
トレーニング時間	コンピューティング時間が 1 時間未満	コンピューティング時間が約 20 から 40 時間
音声品質	中程度の品質	高品質
可用性	誰でもサンプルをオンラインで記録し、デモと評価のためにモデルをトレーニングできます。ビジネス用にカスタム音声ライトモデルをデプロイする場合は、カスタム音声へのフルアクセスが必要です。	データのアップロードは制限されませんが、アクセスが承認された後にのみプロの音声を微調整できます。プロフェッショナルな音声の微調整は、資格と使用条件に基づいて制限されます。入力フォームでアクセスを要求します。
価格	ユニットあたりの価格は、カスタム音声 Lite と Pro の両方の音声微調整に同じように適用されます。こちらで価格の詳細に関するページを確認してください。	1単位あたりの価格は、カスタム音声ライトとプロフェッショナル音声チューニングの両方に均等に適用されます。こちらで価格の詳細に関するページを確認してください。

カスタムボイスライトプロジェクトを作成する

カスタム音声ライトプロジェクトを作成するには、次の手順に従います。

Speech Studio にサインインします。
使用するサブスクリプションと Speech リソースを選択します。
[Custom Voice]>[プロジェクトの作成] の順に選択します。
[カスタムニューラル音声 Lite]>[次へ] の順に選択します。代わりにカスタム音声プロフェッショナルプロジェクトを作成するには、プロフェッショナル音声の微調整に関するドキュメントを参照してください。
ウィザードの手順に従ってプロジェクトを作成します。

重要

カスタムボイスライトプロジェクトは、ボイスタレントによって録音された口頭声明が提出されない限り、90日後に期限切れになります。
新しいプロジェクトの名前を選択するか、[プロジェクトに移動] を選択します。左側のパネルには、[録音と構築]、[モデルの確認]、[モデルのデプロイ] のメニュー項目が表示されます。

カスタム軽量音声モデルを録音して構築する

オンラインで提供されたスクリプトを使用して、少なくとも 20 個の音声サンプル (最大 50 個) を録音します。ここで録音した音声サンプルは、音声の合成バージョンを作成するために使用されます。

注

カスタム音声トレーニングは現在、一部のリージョンでのみ利用できます。詳細については、リージョンテーブルの脚注を参照してください。

音声サンプルを録音するために役立つヒントを次に示します。

適切なマイクを使用する。高品質のマイクを使用して、サンプルの明瞭さを高める。マイクから約 8 インチ離れた場所で話し、リップノイズを避けます。
バックグラウンドノイズを避ける。バックグラウンドノイズやエコーのない静かな部屋で録音します。
リラックスして自然に話します。文章を読む際には思い切って感情を表現します。
1 テイクで録音します。一貫したエネルギーレベルを維持するために、すべての文を 1 つのセッションで録音します。
各単語を正しく発音し、明確に話します。

カスタム音声ライトモデルを記録して構築するには、 Speech Studio で次の手順に従います。

[Custom Voice]> [プロジェクト名]>[録音と構築] の順に選択します。
[Get started](作業を開始する) を選択します。
ボイスタレントの利用規約をよく読んでください。利用規約に同意するチェックボックスをオンにします。
[Accept](承認) を選択します。
マイクアイコンを押してノイズチェックを開始します。このノイズチェックはわずか数秒で完了し、その間に話す必要はありません。
ノイズが検出された場合は、[もう一度チェック] を選択してノイズチェックを繰り返すことができます。ノイズが検出されなかった場合は、[完了] を選択して次の手順に進むことができます。
録音のヒントを確認し、[了解] を選択します。最適な結果を得るには、音声サンプルを録音する前に、バックグラウンドノイズのない静かなエリアに移動します。
マイクアイコンを押して録音を開始します。
停止アイコンを押して録音を停止します。
品質メトリックを確認します。各サンプルを録音した後、次のサンプルに進む前に品質メトリックを確認します。
その他のサンプルを録音します。 20 個のサンプルだけでモデルを作成できますが、品質を向上させるために最大 50 個まで録音することをお勧めします。
[モデルのトレーニング] を選択して、トレーニングプロセスを開始します。

トレーニングプロセスには、約 1 時間かかります。トレーニングプロセスの進行状況は、[モデルの確認] ページで確認できます。

モデルの確認

カスタム音声ライトモデルを確認し、独自の合成音声を聞くには、次の手順に従います。

[Custom Voice]> [プロジェクト名]>[モデルの確認] の順に選択します。ここでは、音声モデル名、モデル言語、サンプルデータサイズ、トレーニングの進行状況を確認できます。音声名は、プロジェクト名に付加された "ニューラル" という単語で作成されます。
音声モデル名を選択してモデルの詳細を確認し、サンプルのテキスト読み上げ結果を聞きます。
再生アイコンを選択して、各スクリプトを音声で読み上げます。

ボイスタレントステートメントを送信する

また、ビジネスで使用するためにモデルをデプロイする前に、ボイスタレントによって録音されたボイスタレントステートメントが必要です。

音声タレントの口述を送信するには、 Speech Studio で次の手順に従います。

[Custom Voice]> [プロジェクト名]>[モデルのデプロイ] >[ボイスタレントの管理] の順に選択します。
モデルを選択します。
ボイスタレント名と会社名を入力します。
ステートメントを読んで録音します。マイクアイコンを選択して録音を開始します。停止アイコンを選択して録音を停止します。
[送信] を選択してステートメントを送信します。
ダッシュボードの下部にあるスクリプトテーブルの処理状態を確認します。ステータスが [成功] になったら、モデルをデプロイできます。

モデルのデプロイ

カスタム音声ライトモデルをデプロイしてアプリケーションで使用するには、カスタム音声へのフルアクセスを取得する必要があります。入力フォームでアクセスを要求します。約 10 営業日以内に、承認状態が記載されたメールが届きます。また、ビジネスで使用するためにモデルをデプロイする前に、ボイスタレントによって録音されたボイスタレントステートメントも必要です。

カスタム音声ライトモデルをデプロイするには、 Speech Studio で次の手順に従います。

[Custom Voice]> [プロジェクト名] >[モデルのデプロイ]>[モデルのデプロイ] の順に選択します。
音声モデル名を選択し、[次へ] を選択します。
エンドポイントの名前と説明を入力し、[次へ] を選択します。
利用規約に同意するチェックボックスをオンにし、[次へ] を選択します。
[デプロイ] を選択して、モデルをデプロイします。

ここからは、プロの音声モデルを使用するのと同様に、カスタム音声ライトモデルを使用できます。たとえば、エンドポイントを作成した後に、中断または再開して、使用を制限し、使用されていないリソースを節約できます。 Speech Studio の Audio Content Creation ツールで音声にアクセスすることもできます。

次の方法で共有

カスタム音声 Lite

プロジェクト タイプを比較する

カスタムボイスライトプロジェクトを作成する

カスタム軽量音声モデルを録音して構築する

モデルの確認

ボイス タレント ステートメントを送信する

モデルのデプロイ

次のステップ

フィードバック

その他のリソース

プロジェクトタイプを比較する

ボイスタレントステートメントを送信する