次の方法で共有


Voice Live の入力と出力をカスタマイズする方法

Voice Live には、カスタム モデルを使用してパフォーマンスと品質を最適化するための複数のオプションが用意されています。 現在、次のカスタマイズ オプションを使用できます。

  • 音声入力のカスタマイズ:
    • フレーズ リスト: 認識品質の向上に役立つセッション構成の一部として提供される単語またはフレーズの一覧に基づく軽量の Just-In-Time カスタマイズ。 詳細については、「 フレーズ リストを使用して認識精度を向上させる」を参照してください。
    • Custom Speech: カスタム音声を使用すると、アプリケーションや製品の音声認識の精度を評価および向上させ、ビジネス ニーズに合わせて認識品質を微調整できます。 詳細については、「 カスタム音声とは」 を参照してください。
  • 音声出力のカスタマイズ:
    • カスタム辞書: カスタム辞書を使用すると、標準の Azure テキスト読み上げ音声とカスタム音声の両方の発音を簡単にカスタマイズして、ユース ケースの音声合成精度を向上させることができます。 詳細については、 テキスト読み上げ用のカスタム辞書 を参照してください。
    • カスタム音声: カスタム音声を使用すると、アプリケーション用に独自のカスタマイズされた合成音声を作成できます。 カスタム音声を使用すると、人間の音声サンプルを微調整データとして提供することで、ブランドやキャラクターに対して非常に自然に聞こえる音声を構築できます。 詳細については、「 カスタム音声とは」 を参照してください。
    • カスタム アバター: カスタム テキスト読み上げアバターを使用すると、アプリケーション用にカスタマイズされた独自の合成会話アバターを作成できます。 カスタムテキスト読み上げアバターを使用すると、選択したアクターのビデオ録画データを提供することで、製品やブランドに固有の自然な見た目のアバターを作成できます。 詳細については、「 カスタム テキスト読み上げアバターとは」 を参照してください。

音声入力のカスタマイズ

フレーズ リスト

オーディオ入力で軽量の Just-In-Time カスタマイズを行うには、フレーズ リストを使用します。 フレーズ リストを構成するには、 session.update メッセージでphrase_listを設定します。

{
    "session": {
        "input_audio_transcription": {
            "model": "azure-speech",
            "phrase_list": ["Neo QLED TV", "TUF Gaming", "AutoQuote Explorer"]
        }
    }
}

フレーズ リストでは現在、gpt-realtime、gpt-4o-mini-realtime、phi4-mm-realtime はサポートされていません。 フレーズ リストの詳細については、音声テキスト変換 のフレーズ リストを参照してください。

カスタム音声構成

custom_speech フィールドを使用して、カスタム音声モデルを指定できます。 このフィールドはディクショナリとして定義され、各キーはロケール コードを表し、各値はカスタム音声モデルの Model ID に対応します。 カスタム音声の詳細については、「カスタム 音声とは」を参照してください。

Voice Live では、各種類がロケールごとに一意であり、合計で最大 10 個の言語が指定されている限り、基本モデルとカスタム モデルの組み合わせの使用がサポートされます。

カスタム音声モデルを使用したセッション構成の例。 この例では、検出された言語が英語の場合は基本モデルが使用され、検出された言語が中国語の場合はカスタム音声モデルが使用されます。

{
  "session": {
    "input_audio_transcription": {
      "model": "azure-speech",
      "language": "en",
      "custom_speech": {
        "zh-CN": "847cb03d-7f22-4b11-444-e1be1d77bf17"
      }
    }
  }
}

Voice Live API でカスタム音声モデルを使用するには、Voice Live API の呼び出しに使用しているのと同じ Microsoft Foundry リソースでモデルを使用できる必要があります。 Foundry Tools リソースの別の Microsoft Foundry または Azure Speech でモデルをトレーニングした場合は、Voice Live API を呼び出すために使用しているリソースにモデルをコピーする必要があります。 カスタム音声トレーニングとモデル ホスティングには別途料金が適用されます。

音声出力のカスタマイズ

カスタム辞書

custom_lexicon_url文字列プロパティを使用して、標準の Azure テキスト読み上げ音声とカスタム音声の両方の発音をカスタマイズします。 カスタム辞書 (音声合成マークアップ言語 (SSML) と同じ) の書式を設定する方法の詳細については、テキスト読み上げ 用のカスタム辞書を参照してください。

{
  "voice": {
    "name": "en-US-Ava:DragonHDLatestNeural",
    "type": "azure-standard",
    "temperature": 0.8, // optional
    "custom_lexicon_url": "<custom lexicon url>"
  }
}

Azure カスタム音声

オーディオ出力にはカスタム音声を使用できます。 カスタム音声を作成する方法については、「カスタム音声 とは」を参照してください。

{
  "voice": {
    "name": "en-US-CustomNeural",
    "type": "azure-custom",
    "endpoint_id": "your-endpoint-id", // a guid string
    "temperature": 0.8 // optional, value range 0.0-1.0, only take effect when using HD voices
  }
}

Important

カスタム音声アクセスは、適格性と使用条件に基づいて 制限 されます。 取り込みフォームでアクセス権を要求します。

Voice Live API でカスタム音声モデルを使用するには、Voice Live API の呼び出しに使用しているのと同じ Microsoft Foundry リソースでモデルを使用できる必要があります。 別の Microsoft Foundry または Azure Speech リソースでモデルをトレーニングした場合は、Voice Live API を呼び出すために使用しているリソースにモデルをコピーする必要があります。 カスタム音声トレーニングとモデル ホスティングには別途料金が適用されます。 サポートされているリージョンの詳細については、「 Speech Service でサポートされているリージョン」を参照してください。

Azure カスタム アバター

テキスト読み上げアバター は、自然な音声で話すフォトリアリスティックな人間 (標準のアバターまたは カスタム テキストから音声へのアバター) のデジタル ビデオにテキストを変換します。

カスタム アバターの構成は、標準アバターの構成と異なるわけではありません。 詳細な例については、「 Voice Live API - Azure Text to Speech アバターの使用方法 」を参照してください。

Important

カスタム テキスト読み上げアバター アクセスは、 資格と使用条件に基づいて制限されます。 取り込みフォームでアクセス権を要求します。

Voice Live API でカスタム音声モデルを使用するには、Voice Live API の呼び出しに使用しているのと同じ Microsoft Foundry リソースでモデルを使用できる必要があります。 別の Microsoft Foundry または Azure Speech リソースでモデルをトレーニングした場合は、Voice Live API を呼び出すために使用しているリソースにモデルをコピーする必要があります。 カスタムアバタートレーニングとモデルホスティングには別途料金が適用されます。 サポートされているリージョンの詳細については、「 Speech Service でサポートされているリージョン」を参照してください。

カスタム写真アバター (プレビュー) トレーニングはセルフサービス オプションとしてまだ利用できないため、現在は手動のオフライン プロセスが必要です。