次の方法で共有


@azure/ai-voicelive package

クラス

VoiceLiveAuthenticationError

Voice Live操作の認証エラークラス

VoiceLiveClient

VoiceLiveクライアントはリアルタイムの会話型AI機能のためのセッション管理を提供します。

このクライアントは、実際のWebSocket接続やサービスとのリアルタイムのやり取りを処理するVoiceLiveSessionインスタンスを作成するファクトリーとして機能します。

VoiceLiveConnectionError

Voice Live WebSocket操作の基本エラークラス

VoiceLiveError

General Voice Liveエラークラス

VoiceLiveProtocolError

Voice Liveメッセージ操作のプロトコルエラークラス

VoiceLiveSession

Azure VoiceLiveサービスとのリアルタイム音声通信のためのWebSocketベースのセッションを表します。

このクラスは接続管理、リアルタイムコミュニケーションの管理、音声ストリーミング、会話管理、アバターコントロールなどすべてのインタラクティブ機能へのアクセスを提供します。

インターフェイス

AgentConfig

エージェントの設定。

AgentSessionConfig

エージェントをメインAIアクターとするセッションを作成するための設定。

エージェントセッションを使用する場合、エージェントの設定(ツール、指示、温度など)はセッションコードではなくFoundryポータルで管理されます。

Animation

ブレンドシェイプやヴィセムのメタデータを含むアニメーション出力の設定。

AssistantMessageItem

会話中のアシスタントメッセージ項目。

AudioEchoCancellation

サーバー側のオーディオ処理のエコー キャンセル構成。

AudioInputTranscriptionOptions

入力オーディオ文字起こしの構成。

AudioNoiseReduction

入力オーディオノイズリダクションの構成。

AudioStreamOptions
AvatarConfig

アバターのストリーミング設定とセッション中の挙動について。

AzureCustomVoice

Azureのカスタム音声設定。

AzurePersonalVoice

Azure の個人用音声構成。

AzureSemanticDetection

Azure セマンティック発話の終了検出 (既定)。

AzureSemanticDetectionEn

Azure semantic end-of-utterance detection (英語最適化)。

AzureSemanticDetectionMultilingual

Azure semantic end-of-notance detection (multilingual).

AzureSemanticVad

Server Speech Detection (Azure semantic VAD, デフォルトバリアント)。

AzureSemanticVadEn

Server Speech Detection (Azure semantic VAD, 英語のみ)。

AzureSemanticVadMultilingual

Server Speech Detection (Azure semantic VAD).

AzureStandardVoice

Azure 標準音声構成。

AzureVoice

Azure 音声構成のベース。

Background

単色または画像URLのいずれかのビデオ背景を定義します(これらは相互に排他的です)。

CachedTokenDetails

出力トークンの使用の詳細。

ClientEvent

VoiceLiveクライアントイベントです。

ClientEventConversationItemCreate

メッセージ、関数呼び出し、関数呼び出し応答を含む新しいアイテムを会話のコンテキストに追加します。 このイベントは会話の「履歴」を入力したり、配信中に新しい項目を追加したりするために使用できますが、現在の制限としてアシスタントの音声メッセージを入力できません。 成功した場合、サーバーは conversation.item.created イベントで応答し、そうでなければ error イベントを送信します。

ClientEventConversationItemDelete

会話履歴からアイテムを削除したいときにこのイベントを送信してください。 サーバーは conversation.item.deleted イベントで応答しますが、そのアイテムが会話履歴に存在しない場合、エラーで応答します。

ClientEventConversationItemRetrieve

このイベントは、会話履歴で特定のアイテムのサーバーの表現を取り出したいときに送信してください。 例えば、ノイズキャンセリングやVAD後のユーザー音声の検査に役立ちます。 サーバーは conversation.item.retrieved イベントで応答しますが、そのアイテムが会話履歴に存在しない場合、エラーで応答します。

ClientEventConversationItemTruncate

このイベントを送信して、前のアシスタントメッセージの音声を切り捨てます。 サーバーはvoiceliveよりも速く音声を生成するため、ユーザーがクライアントに送信されたがまだ再生されていない音声を遮るために割り込む際にこのイベントが有用です。 これにより、サーバーの音声理解とクライアントの再生が同期されます。 音声を切り捨てると、サーバー側のテキストトランスクリプトが削除され、ユーザーが聞き取っていないテキストが文脈にないことを確認できます。 成功した場合、サーバーは conversation.item.truncated イベントで応答します。

ClientEventInputAudioBufferAppend

このイベントを送信して、入力オーディオバッファにオーディオバイトを追加します。 オーディオ バッファーは、書き込み後にコミットできる一時ストレージです。 サーバーVADモードでは、音声バッファを音声検出に使い、サーバーがコミットのタイミングを決定します。 サーバーVADが無効になっている場合は、オーディオバッファを手動でコミットしなければなりません。

クライアントは各イベントに最大15 MiBまでどれだけの音声を挿入するかを選択でき、例えばクライアントから小さなチャンクをストリーミングすることでVADの応答性を高めることができます。 他のクライアントイベントとは異なり、サーバーはこのイベントに対して確認応答を送りません。

ClientEventInputAudioBufferClear

このイベントを送信してバッファ内のオーディオバイトをクリアします。 サーバーは反応して input_audio_buffer.cleared イベントを発します。

ClientEventInputAudioBufferCommit

このイベントを送信してユーザー入力オーディオバッファをコミットし、会話内で新しいユーザーメッセージ項目が作成されます。 このイベントは入力オーディオバッファが空の場合エラーを生み出します。 サーバーVADモードの場合、クライアントはこのイベントを送信する必要がなく、サーバーが自動的にオーディオバッファをコミットします。 入力オーディオバッファをコミットすると(セッション設定で有効化された場合)入力音声文字起こしがトリガーされますが、モデルから応答は生成されません。 サーバーは反応して input_audio_buffer.committed イベントを発します。

ClientEventInputAudioClear

現在ストリーミング中の入力音声をすべてクリアします。

ClientEventInputAudioTurnAppend

進行中の入力ターンに音声データを付加します。

ClientEventInputAudioTurnCancel

進行中の入力音声ターンをキャンセルします。

ClientEventInputAudioTurnEnd

音声入力ターンの終了を示します。

ClientEventInputAudioTurnStart

新しいオーディオ入力ターンの開始を示します。

ClientEventResponseCancel

進行中の返信をキャンセルするには、このイベントを送信してください。 キャンセルの応答がない場合は、サーバーは response.cancelled イベントやエラーで応答します。

ClientEventResponseCreate

このイベントはサーバーにResponseを作成するよう指示し、モデル推論をトリガーします。 サーバーVADモードの場合、サーバーは自動的にレスポンスを作成します。 レスポンスには少なくとも1つのアイテムが含まれ、場合によっては2つある場合、2つ目は関数呼び出しとなります。 これらの項目は会話履歴に追加されます。 サーバーは response.created イベント、アイテムやコンテンツ作成のイベント、そして最後に応答完了を示す response.done イベントで応答します。 response.createイベントにはinstructionstemperatureのような推論構成が含まれます。 これらのフィールドは、この応答のセッション設定のみを上書きします。

ClientEventSessionAvatarConnect

クライアントが接続し、SDP(セッション記述プロトコル)を提供した際に送信されます。

アバター関連のメディア交渉のために。

ClientEventSessionUpdate

このイベントを送信してセッションのデフォルト設定を更新してください。 クライアントはこのイベントをいつでも送信して、 voiceを除く任意のフィールドを更新できます。 ただし、一度セッションが特定の modelで初期化されると、 session.updateを使って別のモデルに変更することはできません。 サーバーが session.updateを受け取ると、完全な有効な構成を示す session.updated イベントで応答します。 存在するフィールドのみが更新されます。 instructionsのようなフィールドをクリアするには、空の文字列を通します。

ConnectOptions
ConnectedEventArgs

接続が確立された際に提供される引数

ConnectionContext

接続関連ハンドラに提供されるコンテキスト情報

ContentPart

コンテンツの基礎; typeによって差別された。

ConversationItemBase

会話に追加するアイテム。

ConversationRequestItem

あらゆる応答項目のベース; typeによって差別された。

CreateSessionOptions
DisconnectedEventArgs

接続が途絶えたときに提供される引数

EouDetection

発話終了(EOU)意味検出構成のためのトップレベルユニオン。

ErrorEventArgs

エラーが発生した場合に提供される引数

ErrorResponse

標準誤差の応答範囲。

FunctionCallItem

会話中の関数呼び出し項目。

FunctionCallOutputItem

会話内で出力項目を呼び出しる関数です。

FunctionTool

VoiceLiveエンドポイントで使用される機能ツールの定義。

IceServer

WebRTC 接続ネゴシエーションの ICE サーバー構成。

InputAudioContentPart

入力音声コンテンツ部分。

InputTextContentPart

テキストコンテンツの入力部分。

InputTokenDetails

入力トークンの使用に関する詳細。

InterimResponseConfigBase

中間応答構成のベースモデル。

LlmInterimResponseConfig

LLMベースの中間応答生成の構成。 LLMを用いて、トリガー条件が満たされた際にコンテキスト認識型中間応答を生成します。

LogProbProperties

トークンの単一のログ確率エントリ。

MCPApprovalResponseRequestItem

MCP承認リクエストへの応答を表すリクエスト項目。

MCPServer

voiceliveエンドポイントで使用されるMCPサーバーの定義。

MCPTool

MCPツールの定義を表しています。

MessageContentPart

メッセージ内容の部分はベースです。 typeによって差別された。

MessageItem

会話の中のメッセージ項目。

OpenAIVoice

明示的な型フィールドを持つ OpenAI 音声構成。

これによりOpenAI音声の統一インターフェースが提供され、既存の文字列ベースのOAIVoiceを補完し、後方互換性を確保しています。

OutputTextContentPart

テキストコンテンツ部分を出力します。

OutputTokenDetails

出力トークンの使用の詳細。

RequestAudioContentPart

リクエストのための音声コンテンツ部分。 これはリアルタイムモデル(例:gpt-realtime)のみがサポートします。 テキストベースのモデルの場合は、代わりに input_text を使いましょう。

RequestImageContentPart

入力画像コンテンツ部分。

RequestSession

リクエストとレスポンスで共有されるセッション構成のベース。

RequestTextContentPart

リクエストのためのテキストコンテンツ部分です。

Response

応答リソース。

ResponseAudioContentPart

音声コンテンツの部分として回答します。

ResponseCancelledDetails

キャンセルされた返答の詳細。

ResponseCreateParams

これらのパラメータで新しいVoiceLiveレスポンスを作成

ResponseFailedDetails

失敗した回答の詳細。

ResponseFunctionCallItem

会話中の関数呼び出し項目。

ResponseFunctionCallOutputItem

会話内で出力項目を呼び出しる関数です。

ResponseIncompleteDetails

不完全な回答のための詳細です。

ResponseItem

あらゆる応答項目のベース; typeによって差別された。

ResponseMCPApprovalRequestItem

MCPツールを呼び出すための承認要請を表すレスポンスアイテム。

ResponseMCPApprovalResponseItem

MCP承認リクエストへの応答を表すレスポンスアイテム。

ResponseMCPCallItem

MCPツールへの呼び出しを表すレスポンスアイテム。

ResponseMCPListToolItem

MCPサーバー上で利用可能なツールを一覧にしたレスポンス項目。

ResponseMessageItem

会話内のメッセージ項目の基本タイプ。

ResponseSession

レスポンス内のセッション設定のベースを用意します。

ResponseStatusDetails

失敗した回答の詳細はベースです。

ResponseTextContentPart

返信のためのテキストコンテンツ部分。

SendEventOptions
ServerEvent

voiceliveサーバーイベントです。

ServerEventConversationItemCreated

会話項目が作成されると返送されます。 このイベントが生成されるシナリオは、以下のようにいくつか存在します。

  • サーバーはレスポンスを生成しており、成功すると1つまたは2つのアイテムが生成されます。アイテムはタイプ message (役割 assistant)またはタイプ function_callです。
  • 入力オーディオバッファはクライアントまたはサーバー( server_vad モード)によってコミットされています。 サーバーは入力されたオーディオバッファの内容を取り、新しいユーザーメッセージItemに追加します。
  • クライアントは会話に新しいアイテムを追加するための conversation.item.create イベントを送信しました。
ServerEventConversationItemDeleted

会話中の項目がクライアントによって conversation.item.delete イベントで削除されたときに返されます。 このイベントは、サーバーによる会話履歴の理解をクライアントのビューと同期するために使用されます。

ServerEventConversationItemInputAudioTranscriptionCompleted

このイベントは、ユーザー音声の音声書き起こしがユーザーの音声バッファに書き込まれた出力です。 文字起こしは、入力オーディオ バッファーがクライアントまたはサーバーによってコミットされたときに開始されます ( server_vad モード)。 文字起こしは応答作成と非同期で動作するため、このイベントは応答イベントの前後に発生することがあります。 VoiceLive APIモデルは音声をネイティブに受け入れているため、入力の文字起こしは別のASR(自動音声認識)モデル上で動作する別のプロセスです。 書き起こしはモデルの解釈と多少異なる場合があり、大まかなガイドとして扱うべきです。

ServerEventConversationItemInputAudioTranscriptionDelta

入力音声文字起こしのテキストが更新された際に返されます。

ServerEventConversationItemInputAudioTranscriptionFailed

入力音声文字起こしの設定が行われ、ユーザーメッセージの文字起こし要求が失敗した際に返されます。 これらのイベントは他の error イベントとは別に設定されており、クライアントが関連するアイテムを特定できるようにしています。

ServerEventConversationItemRetrieved

会話項目が conversation.item.retrieveで取得されると返送されます。

ServerEventConversationItemTruncated

クライアントが conversation.item.truncate イベントで以前のアシスタント音声メッセージ項目を切り詰めたときに返されます。 このイベントは、サーバーのオーディオに対する理解をクライアントの再生と同期するために使用されます。 この操作により音声が短縮され、サーバー側のテキストトランスクリプトが削除され、ユーザーが聞こえていないテキストが文脈にないことを保証します。

ServerEventError

エラーが発生した場合に返されます。エラーはクライアントの問題やサーバーの問題かもしれません。 ほとんどのエラーは回復可能でセッションは開いたままです。実装者にはデフォルトでエラーメッセージを監視・ログ記録することを推奨します。

ServerEventErrorDetails

エラーの詳細。

ServerEventInputAudioBufferCleared

クライアントが input_audio_buffer.clear イベントで入力オーディオバッファをクリアしたときに返されます。

ServerEventInputAudioBufferCommitted

入力オーディオバッファがコミットされた際に、クライアントまたはサーバーVADモードで自動的にコミットされた際に返されます。 item_idプロパティは作成されるユーザーメッセージアイテムのIDであり、したがってconversation.item.createdイベントもクライアントに送信されます。

ServerEventInputAudioBufferSpeechStarted

server_vadモードの際にサーバーから送信され、音声バッファ内で音声が検出されたことを示します。 これは音声がバッファに追加されるたびに起こり得ます(音声がすでに検出されていない限り)。 クライアントはこのイベントを使って音声再生を中断したり、ユーザーに視覚的フィードバックを提供したい場合があります。 クライアントは、音声が停止したときに input_audio_buffer.speech_stopped イベントを受け取る必要があります。 item_idプロパティは、音声が停止した際に作成されるユーザーメッセージ項目のIDであり、クライアントがVADアクティベーション時に手動でオーディオバッファをコミットしない限り、input_audio_buffer.speech_stoppedイベントにも含まれます。

ServerEventInputAudioBufferSpeechStopped

server_vadモードで、サーバーが音声バッファ内の音声終了を検出すると返されます。 サーバーはまた、オーディオバッファから作成されたユーザーメッセージアイテムを含む conversation.item.created イベントも送信します。

ServerEventMcpListToolsCompleted

MCPリストツール完了メッセージ。

ServerEventMcpListToolsFailed

MCPリストツールの失敗メッセージ。

ServerEventMcpListToolsInProgress

MCPの進行中のツール一覧メッセージ。

ServerEventResponseAnimationBlendshapeDelta

特定の応答出力に対するブレンドシェイプアニメーションフレームのデルタ更新を表します。

ServerEventResponseAnimationBlendshapeDone

特定の応答出力に対してブレンドシェイプアニメーション処理が完了したことを示します。

ServerEventResponseAnimationVisemeDelta

音声に基づくアニメーションのViseme IDデルタ更新を表します。

ServerEventResponseAnimationVisemeDone

応答のためのビセムアニメーション配信完了を示します。

ServerEventResponseAudioDelta

モデル生成音声が更新されると返却されます。

ServerEventResponseAudioDone

モデル生成音声が終わったら返送します。 また、応答が中断、不完全、またはキャンセルされた場合にも発信されます。

ServerEventResponseAudioTimestampDelta

応答のワードレベルの音声タイムスタンプ・デルタを表します。

ServerEventResponseAudioTimestampDone

応答のための音声タイムスタンプ配信完了を示します。

ServerEventResponseAudioTranscriptDelta

モデル生成の音声出力の書き起こしが更新されると返送されます。

ServerEventResponseAudioTranscriptDone

モデル生成の音声出力の文字起こしがストリーミングで終わったら返送されます。 また、応答が中断、不完全、またはキャンセルされた場合にも発信されます。

ServerEventResponseContentPartAdded

応答生成中にアシスタントメッセージ項目に新しいコンテンツ部分が追加された際に返されます。

ServerEventResponseContentPartDone

コンテンツ部分がアシスタントメッセージの項目でストリーミングされたときに返却されます。 また、応答が中断、不完全、またはキャンセルされた場合にも発信されます。

ServerEventResponseCreated

新しいレスポンスが作成されると返送されます。 応答作成の最初のイベントで、応答が初期状態 in_progressにある。

ServerEventResponseDone

レスポンスが配信終了すると返送されます。 最終状態に関わらず、常に放出される。 response.doneイベントに含まれるResponseオブジェクトは、すべての出力アイテムをResponseに含みますが、生の音声データは省略されます。

ServerEventResponseFunctionCallArgumentsDelta

モデル生成関数の呼び出し引数が更新されると返されます。

ServerEventResponseFunctionCallArgumentsDone

モデル生成関数の呼び出し引数のストリーミングが完了すると返されます。 また、応答が中断、不完全、またはキャンセルされた場合にも発信されます。

ServerEventResponseMcpCallArgumentsDelta

MCPツール呼び出しの引数のデルタ更新を表します。

ServerEventResponseMcpCallArgumentsDone

MCPツール呼び出しの引数の完了を示します。

ServerEventResponseMcpCallCompleted

MCP通話完了を示します。

ServerEventResponseMcpCallFailed

MCP通話が失敗したことを示します。

ServerEventResponseMcpCallInProgress

MCPコールが実行中であることを示します。

ServerEventResponseOutputItemAdded

レスポンス生成中に新しいアイテムが作成されると返されます。

ServerEventResponseOutputItemDone

アイテムの配信終了時に返品されます。 また、応答が中断、不完全、またはキャンセルされた場合にも発信されます。

ServerEventResponseTextDelta

「テキスト」コンテンツ部分のテキスト値が更新されたときに返されます。

ServerEventResponseTextDone

「テキスト」コンテンツ部分のテキスト値がストリーミング終了したときに返されます。 また、応答が中断、不完全、またはキャンセルされた場合にも発信されます。

ServerEventSessionAvatarConnecting

サーバーがアバターメディア接続を確立し、SDP応答を提供する際に送信されます。

ServerEventSessionCreated

セッションが作成されると返されます。 新しい接続が最初のサーバーイベントとして確立されると自動的に送信されます。 このイベントにはデフォルトのセッション構成が含まれます。

ServerEventSessionUpdated

エラーがない限り、セッションに更新された際に session.update イベントが更新されたときに返却されます。

ServerVad

VADベースの旋回検出の基本モデル。

SessionBase

VoiceLiveセッションオブジェクトの設定。

SessionContext

セッション関連ハンドラに提供されるコンテキスト情報

StartSessionOptions
StaticInterimResponseConfig

静的中間応答生成のための構成。 トリガー条件が満たされたときに、構成されたテキストからランダムに選択されます。

SystemMessageItem

会話内のシステムメッセージ項目。

TokenUsage

回答のための全体的な使用統計。

Tool

voiceliveツール定義の基本表現です。

ToolChoiceFunctionSelection

voiceliveの表現は、名前付き機能ツールを選択するtool_choiceです。

ToolChoiceSelection

名前付きツールを選択するtool_choice voiceliveの基本表現です。

TurnDetection

旋回検知構成のためのトップレベルのユニオン。

TurnOptions
UserMessageItem

会話内のユーザーメッセージ項目。

VideoCrop

左上および右下の座標を使ってビデオのトリミング長方形を定義します。

VideoParams

アバターのビデオ ストリーミング パラメーター。

VideoResolution

映像フィードの解像度(ピクセル単位)。

VoiceLiveClientOptions
VoiceLiveErrorDetails

API障害時にエラーオブジェクトを返します。

VoiceLiveSessionHandlers

VoiceLiveセッションイベントのハンドラー関数はAzure SDKパターンに従います。

すべてのハンドラーは任意です。自分が気にするイベントだけを実装してください! 各ハンドラは強型イベントデータとコンテキスト情報を受け取ります。

VoiceLiveSessionOptions
VoiceLiveSubscription

VoiceLiveセッションイベントのアクティブサブスクリプションを代表しています

型エイリアス

AnimationOutputType

出力するアニメーションデータの種類を指定します。
KnownAnimationOutputType はAnimationOutputTypeと同義使用可能で、この列挙はサービスがサポートする既知の値を含みます。

サービスでサポートされている既知の値

Blendshapes:Blendshapesの出力タイプ。
viseme_id:Viseme ID出力タイプ。

AudioTimestampType

オーディオ応答コンテンツでサポートされる出力タイムスタンプの種類。
KnownAudioTimestampTypeはAudioTimestampType と互換的に使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

ワード:出力音声の単語あたりのタイムスタンプ。

AvatarConfigTypes

アバターの設定タイプ
KnownAvatarConfigTypes は AvatarConfigTypes と互換性を持って使用でき、この列挙はサービスがサポートする既知の値を示します。

サービスでサポートされている既知の値

ビデオアバター:ビデオアバター
フォトアバター:フォトアバター

AvatarOutputProtocol

アバター設定出力プロトコル
KnownAvatarOutputProtocol はAvatarOutputProtocolと互換的に使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

WebRTC:WebRTCプロトコル、音声/映像ストリームをWebRTC経由で出力します
WebSocket:WebSocketプロトコルで、WebSocket経由でビデオフレームを出力します

AzureVoiceType

サポートされているすべてのAzure音声タイプの統合。
KnownAzureVoiceType はAzureVoiceTypeと同義使用可能で、この列挙はサービスがサポートする既知の値を含みます。

サービスでサポートされている既知の値

azure-custom: Azure custom voice.
azure-standard: Azure standard voice.
azure-personal: Azure personal voice.

AzureVoiceUnion

Alias for AzureVoiceUnion

ClientEventType

VoiceLiveプロトコルで使用されるクライアントイベントタイプ。
KnownClientEventType はClientEventTypeと同義で使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

session.update
input_audio_buffer.append
input_audio_buffer.commit
input_audio_buffer.clear
input_audio。ターン。スタート
input_audio.turn.append.
input_audio。ターン。終わり
input_audio.ターン.キャンセル
input_audio。クリア
conversation.item.create
conversation.item.retrieve
conversation.item.truncate
conversation.item.delete
response.create
response.cancel
session.avatar.connect
mcp_approval_response

ClientEventUnion

ClientEventUnion の別名

ContentPartType

コンテンツの種類PartType

ContentPartUnion

ContentPartUnion の別名

ConversationRequestItemUnion

会話用エイリアスRequestItemUnion

EouDetectionUnion

EouDetectionUnion の別名

EouThresholdLevel

Azure セマンティック・エンド・オブ・発話検出のための閾値レベル設定。
KnownEouThresholdLevel はEouThresholdLevelと互換的に使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

:低感度閾値レベル。
中:中程度の感度閾値レベル。
:高い感度閾値レベル。
デフォルト:デフォルトの感度閾値レベル。

InputAudioFormat

入力音声フォーマットタイプをサポートしています。
KnownInputAudioFormat はInputAudioFormatと互換的に使用可能で、この列挙はサービスがサポートする既知の値を示します。

サービスでサポートされている既知の値

PCM16:デフォルトのサンプリングレート(24kHz)での16ビットPCMオーディオフォーマット
g711_ulaw:G.711 μ法(mu-law)オーディオフォーマット、8kHzサンプリングレート
g711_alaw:8kHzサンプリングレートのG.711 A-lawオーディオフォーマット

InterimResponseConfig

暫定応答構成タイプの統合。

InterimResponseConfigBaseUnion

InterimResponseConfigBaseUnion の別名

InterimResponseConfigType

暫定的対応構成タイプ。
KnownInterimResponseConfigType はInterimResponseConfigTypeと同義で使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

static_interim_response:静的中間応答構成タイプ。
llm_interim_response:LLMベースの中間応答構成タイプ。

InterimResponseTrigger

中間反応生成を引き起こすトリガー。
KnownInterimResponseTrigger はInterimResponseTriggerと同義で使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

レイテンシ:応答レイテンシが閾値を超えた際に中間応答をトリガーします。
ツール:ツール呼び出しが実行された際に中間応答をトリガーします。

ItemParamStatus

アイテムまたはパラメータの処理状況を示します。
KnownItemParamStatus はItemParamStatusと同義で使用可能で、このenumはサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

完了:アイテムまたはパラメータはまだ処理中です。
未完成:項目またはパラメータがまだ完成していない。

ItemType

ItemType のタイプ

MCPApprovalType

利用可能なMCP承認タイプのセット。
KnownMCPApprovalType はMCPApprovalTypeと同義使用可能であり、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

決して:承認は一切必要ありません。
常に:承認は常に必要です。

MessageContentPartUnion

MessageContentPartUnion の別名

MessageItemUnion

MessageItemUnion の別名

MessageRole

MessageRoleの種類

Modality

セッションでサポートされた治療法。
KnownModality はModalityと同義で使用でき、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

テキスト:テキストモダリティ。
音声:音声モード。
アニメーション:アニメーション・モダリティ。
アバター:アバター・モダリティ。

OAIVoice

OpenAIの音声名(文字列列挙式)に対応しています。
KnownOAIVoice はOAIVoiceと互換的に使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

合金:合金の声。
アッシュ:アッシュの声。
バラード:バラードの声。
コーラル:コーラルの声。
エコー:エコーの声。
セージ:セージの声。
シマー:シマーボイス。
ヴァース:ヴァースボイス。
マリン:マリンの声です。
シダー:シダーの声です。

OutputAudioFormat

出力オーディオフォーマットタイプに対応しています。
KnownOutputAudioFormat はOutputAudioFormatと互換的に使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

PCM16:デフォルトのサンプリングレート(24kHz)での16ビットPCMオーディオフォーマット
pcm16_8000hz:8kHzサンプリングレートの16ビットPCMオーディオフォーマット
pcm16_16000hz:16kHzサンプリングレートの16ビットPCMオーディオフォーマット
g711_ulaw:G.711 μ法(mu-law)オーディオフォーマット、8kHzサンプリングレート
g711_alaw:8kHzサンプリングレートのG.711 A-lawオーディオフォーマット

PersonalVoiceModels

パーソナルボイスモデル
KnownPersonalVoiceModels はPersonalVoiceModelsと同義使用可能で、この列挙はサービスがサポートする既知の値を含みます。

サービスでサポートされている既知の値

DragonLatestNeural:最新のDragonモデルを使いましょう。
PhoenixLatestNeural:最新のPhoenixモデルを使いましょう。
PhoenixV2Neural:Phoenix V2モデルを使いましょう。

PhotoAvatarBaseModes

フォトアバターの基本モード
KnownPhotoAvatarBaseModes はPhotoAvatarBaseModesと互換的に使用可能で、この列挙はサービスがサポートする既知の値を示します。

サービスでサポートされている既知の値

VASA-1:VASA-1モデル

ReasoningEffort

推論モデルの推論に関する作業を制限します。 各モデルでサポートされている値については、モデルのドキュメントを参照してください。 推論作業を減らすと、応答が速くなり、応答の推論に使用されるトークンが少なくなる可能性があります。
KnownReasoningEffortはReasoningEffort と同義で使用可能で、この列挙はサービスがサポートする既知の値を含みます。

サービスでサポートされている既知の値

なし:理屈を考える努力なし。
最小限:最小限の推論努力。
:推論努力が少ない場合、より速い回答が少ない。
中程度:中程度の推論力 - スピードと推論の深さのバランス。
高い:高い推論力 - より徹底した推論で、時間がかかることがあります。
xhigh:超高推論努力 - 最大の推論深度。

RequestImageContentPartDetail

画像の詳細レベルを指定します。 'auto'、'low'、'high'、または不明な将来の値を指定できます。
KnownRequestImageContentPartDetail はRequestImageContentPartDetailと互換的に使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

自動:適切なディテールレベルを自動的に選択します。
:帯域幅やコストを抑えるために低ディテールレベルを用いましょう。
:より詳細なレベルを使い、場合によってはよりリソースを多く消費する。

ResponseItemStatus

応答項目の処理状況を示します。
KnownResponseItemStatus はResponseItemStatusと同義で使用可能で、この列挙にはサービスがサポートする既知の値が含まれています。

サービスでサポートされている既知の値

in_progress:進行中の項目。
完了:アイテムは完全に処理され完了しました。
不完全:アイテムは処理済みですが未完成です。

ResponseItemUnion

ResponseItemUnion の別名

ResponseStatus

応答の終端状態。
KnownResponseStatus はResponseStatusと同義で使用可能で、この列挙はサービスがサポートする既知の値を含みます。

サービスでサポートされている既知の値

完了
キャンセル
失敗した
不完全
in_progress

ResponseStatusDetailsUnion

ResponseStatusDetailsUnion の別名

ServerEventType

VoiceLiveプロトコルで使用されるサーバーイベントタイプ。
KnownServerEventType はServerEventTypeと同義で使用可能で、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

error
session.avatar.connecting
session.created
session.updated
conversation.item.input_audio_transcription.completed
conversation.item.input_audio_transcription.delta
conversation.item.input_audio_transcription.failed
会話アイテムが作成されました
conversation.item.retrieved
conversation.item.truncated
conversation.item.deleted
input_audio_buffer.committed
input_audio_buffer.cleared
input_audio_buffer.speech_started
input_audio_buffer.speech_stopped
response.created
response.done
response.output_item.added
response.output_item.done
response.content_part.added
response.content_part.done
response.text.delta
response.text.done
response.audio_transcript.delta
response.audio_transcript.done
response.audio.delta
response.audio.done
response.animation_blendshapes.delta
response.animation_blendshapes.done
response.audio_timestamp.delta
response.audio_timestamp.done
response.animation_viseme.delta
response.animation_viseme.done
response.function_call_arguments.delta
response.function_call_arguments.done
mcp_list_tools.in_progress
mcp_list_tools.completed
mcp_list_tools.failed
response.mcp_call_arguments.delta
response.mcp_call_arguments.done
response.mcp_call.in_progress
response.mcp_call.completed
response.mcp_call.failed

ServerEventUnion

serverEventUnion のエイリアス

SessionTarget

Voice Liveセッション用のターゲットで、モデルまたはエージェントのいずれかを指定します。

LLMがメインアクターとなるモデル中心のセッションには { model: string } を使いましょう。 エージェント中心のセッションでエージェントがメインアクターとなる場合に { agent: AgentSessionConfig } を使いましょう。

モデル中心のセッション

import { DefaultAzureCredential } from "@azure/identity";
import { VoiceLiveClient } from "@azure/ai-voicelive";

const credential = new DefaultAzureCredential();
const endpoint = "https://your-resource.cognitiveservices.azure.com";
const client = new VoiceLiveClient(endpoint, credential);

const session = client.createSession({ model: "gpt-4o-realtime-preview" });

エージェント中心セッション

import { DefaultAzureCredential } from "@azure/identity";
import { VoiceLiveClient } from "@azure/ai-voicelive";

const credential = new DefaultAzureCredential();
const endpoint = "https://your-resource.cognitiveservices.azure.com";
const client = new VoiceLiveClient(endpoint, credential);

const session = client.createSession({
  agent: { agentName: "my-agent", projectName: "my-project" },
});
ToolChoice

voicelive tool_choiceパラメータの利用可能な表現セットは、「auto」のような文字列リテラルオプションと定義されたツールへの構造化参照の両方を含みます。

ToolChoiceLiteral

voiceliveエンドポイント用のモードレベルの文字列リテラルの選択肢のセットtool_choice。
KnownToolChoiceLiteral はToolChoiceLiteralと同義で使用でき、この列挙にはサービスがサポートする既知の値が含まれています。

サービスでサポートされている既知の値

auto:モデルがどのツールまたはツールを呼び出すかを自由に決定することを指定します。
なし:モデルがツールを一切呼び出さないことを指定します。
必須:モデルが少なくとも1つのツールを呼び出しることを指定します。

ToolChoiceSelectionUnion

ToolChoiceSelectionUnion の別名

ToolType

voiceliveツール用のサポートツールタイプ識別器。 現時点でサポートされているのは、"function" ツールだけです。
KnownToolType はToolTypeと同義で使用でき、この列挙はサービスがサポートする既知の値を含む。

サービスでサポートされている既知の値

機能
MCP

ToolUnion

ToolUnion のエイリアス

TurnDetectionType

ターン検出タイプの種類

TurnDetectionUnion

TurnDetectionUnionの別名

Voice

サポートされているすべての音声構成の和集合。

列挙型

ConnectionState

ライフサイクル管理のための接続状態列挙

KnownAnimationOutputType

出力するアニメーションデータの種類を指定します。

KnownAudioTimestampType

オーディオ応答コンテンツでサポートされる出力タイムスタンプの種類。

KnownAvatarConfigTypes

アバターの設定タイプ

KnownAvatarOutputProtocol

アバター設定出力プロトコル

KnownAzureVoiceType

サポートされているすべてのAzure音声タイプの統合。

KnownClientEventType

VoiceLiveプロトコルで使用されるクライアントイベントタイプ。

KnownContentPartType

サービスが受け入れる既知の ContentPartType の値。

KnownEouThresholdLevel

Azure セマンティック・エンド・オブ・発話検出のための閾値レベル設定。

KnownInputAudioFormat

入力音声フォーマットタイプをサポートしています。

KnownInterimResponseConfigType

暫定的対応構成タイプ。

KnownInterimResponseTrigger

中間反応生成を引き起こすトリガー。

KnownItemParamStatus

アイテムまたはパラメータの処理状況を示します。

KnownItemType

サービスが受け入れている既知の ItemType の値。

KnownMCPApprovalType

利用可能なMCP承認タイプのセット。

KnownMessageRole

サービスが受け入れる既知の MessageRole の値は、

KnownModality

セッションでサポートされた治療法。

KnownOAIVoice

OpenAIの音声名(文字列列挙式)に対応しています。

KnownOutputAudioFormat

出力オーディオフォーマットタイプに対応しています。

KnownPersonalVoiceModels

パーソナルボイスモデル

KnownPhotoAvatarBaseModes

フォトアバターの基本モード

KnownReasoningEffort

推論モデルの推論に関する作業を制限します。 各モデルでサポートされている値については、モデルのドキュメントを参照してください。 推論作業を減らすと、応答が速くなり、応答の推論に使用されるトークンが少なくなる可能性があります。

KnownRequestImageContentPartDetail

画像の詳細レベルを指定します。 'auto'、'low'、'high'、または不明な将来の値を指定できます。

KnownResponseItemStatus

応答項目の処理状況を示します。

KnownResponseStatus

応答の終端状態。

KnownServerEventType

VoiceLiveプロトコルで使用されるサーバーイベントタイプ。

KnownToolChoiceLiteral

voiceliveエンドポイント用のモードレベルの文字列リテラルの選択肢のセットtool_choice。

KnownToolType

voiceliveツール用のサポートツールタイプ識別器。 現時点でサポートされているのは、"function" ツールだけです。

KnownTurnDetectionType

サービスが受け入れる TurnDetectionType の既知の値は、

VoiceLiveErrorCodes

Voice Live WebSocket操作のエラーコード

関数

classifyConnectionError(unknown)

接続エラーを分類します

classifyProtocolError(Error, string)

プロトコルエラーを分類します

isAgentSessionTarget(SessionTarget)

SessionTargetがエージェントセッションを指定するかどうかを確認するためにguardと入力します。

isModelSessionTarget(SessionTarget)

SessionTargetがモデルセッションを指定しているかどうかを確認するために、guardをタイプします。

関数の詳細

classifyConnectionError(unknown)

接続エラーを分類します

function classifyConnectionError(error: unknown): VoiceLiveConnectionError

パラメーター

error

unknown

戻り値

classifyProtocolError(Error, string)

プロトコルエラーを分類します

function classifyProtocolError(error: Error, messageType: string): VoiceLiveProtocolError

パラメーター

error

Error

messageType

string

戻り値

isAgentSessionTarget(SessionTarget)

SessionTargetがエージェントセッションを指定するかどうかを確認するためにguardと入力します。

function isAgentSessionTarget(target: SessionTarget): target

パラメーター

target
SessionTarget

確認すべきセッションターゲット

戻り値

target

ターゲットがエージェントセッションを指定する場合に真

isModelSessionTarget(SessionTarget)

SessionTargetがモデルセッションを指定しているかどうかを確認するために、guardをタイプします。

function isModelSessionTarget(target: SessionTarget): target

パラメーター

target
SessionTarget

確認すべきセッションターゲット

戻り値

target

対象がモデルセッションを指定する場合に真です