@azure/ai-voicelive package

الفصول

VoiceLiveAuthenticationError

فئة خطأ المصادقة لعمليات الصوت المباشر

VoiceLiveClient

يوفر عميل VoiceLive إدارة الجلسات لقدرات الذكاء الاصطناعي الحواري في الوقت الحقيقي.

يعمل هذا العميل كمصنع لإنشاء مثيلات VoiceLiveSession، التي تتعامل مع اتصالات WebSocket الفعلية والتفاعلات الفورية مع الخدمة.

VoiceLiveConnectionError

فئة الخطأ الأساسية لعمليات Voice Live WebSocket

VoiceLiveError

فئة أخطاء General Voice Live

VoiceLiveProtocolError

فئة خطأ البروتوكول لعمليات الرسائل الحية الصوتية

VoiceLiveSession

يمثل جلسة تعتمد على WebSocket للتواصل الصوتي في الوقت الحقيقي مع خدمة Azure VoiceLive.

تدير هذه الفئة الاتصال، وتتعامل مع التواصل في الوقت الحقيقي، وتوفر الوصول إلى جميع الميزات التفاعلية بما في ذلك بث الصوت، وإدارة المحادثات، والتحكم في الأفاتار.

الواجهات

AgentConfig

تكوين الوكيل.

AgentSessionConfig

تكوين لإنشاء جلسة يكون فيها وكيل هو الفاعل الرئيسي للذكاء الاصطناعي.

عند استخدام جلسة وكيل، يتم إدارة تكوين الوكيل (الأدوات، التعليمات، درجة الحرارة، إلخ) في بوابة Foundry، وليس في كود الجلسة.

Animation

تكوين مخرجات الرسوم المتحركة بما في ذلك بيانات الدمج والصور.

AssistantMessageItem

عنصر رسالة مساعد داخل المحادثة.

AudioEchoCancellation

تكوين إلغاء Echo لمعالجة الصوت من جانب الخادم.

AudioInputTranscriptionOptions

تكوين النسخ الصوتي للإدخل.

AudioNoiseReduction

تكوين الحد من ضوضاء صوت الإدخال.

AudioStreamOptions
AvatarConfig

تكوين البث والسلوك لصورة الأفاتار أثناء الجلسة.

AzureCustomVoice

Azure custom voice configuration.

AzurePersonalVoice

تكوين صوت Azure الشخصي.

AzureSemanticDetection

اكتشاف نهاية النطق الدلالي ل Azure (افتراضي).

AzureSemanticDetectionEn

Azure Semantic de-of-Statement detection (English-Optimized).

AzureSemanticDetectionMultilingual

Azure semantic end-of-statement detection (multilingual).

AzureSemanticVad

كشف الكلام في الخادم (Azure semantic VAD، النسخة الافتراضية).

AzureSemanticVadEn

كشف الكلام في الخادم (Azure Semantic VAD، باللغة الإنجليزية فقط).

AzureSemanticVadMultilingual

كشف الكلام في الخادم (Azure semantic VAD).

AzureStandardVoice

تكوين صوت Azure القياسي.

AzureVoice

قاعدة لتكوينات صوت Azure.

Background

يحدد خلفية فيديو، إما بلون واحد أو رابط صورة (متعارض).

CachedTokenDetails

تفاصيل استخدام الرموز المخرجة.

ClientEvent

فعالية عميل VoiceLive.

ClientEventConversationItemCreate

أضف عنصرا جديدا إلى سياق المحادثة، بما في ذلك الرسائل، واستدعاءات الوظائف، وردود استدعاء الوظائف. يمكن استخدام هذا الحدث لملء "تاريخ" المحادثة وإضافة عناصر جديدة أثناء البث، لكنه يحمل قيدا حاليا وهو أنه لا يستطيع ملء رسائل الصوت الخاصة بالمساعد. إذا نجحت، سيرد الخادم بحدث conversation.item.created ، وإلا سيتم إرسال حدث error .

ClientEventConversationItemDelete

أرسل هذا الحدث عندما تريد إزالة أي عنصر من سجل المحادثة. سيرد الخادم بحدث conversation.item.deleted ، إلا إذا لم يكن العنصر موجودا في سجل المحادثة، وفي هذه الحالة سيرد الخادم بخطأ.

ClientEventConversationItemRetrieve

أرسل هذا الحدث عندما ترغب في استرجاع تمثيل الخادم لعنصر معين في سجل المحادثة. وهذا مفيد، على سبيل المثال، لفحص صوت المستخدم بعد إلغاء الضوضاء وVAD. سيرد الخادم بحدث conversation.item.retrieved ، إلا إذا لم يكن العنصر موجودا في سجل المحادثة، وفي هذه الحالة سيرد الخادم بخطأ.

ClientEventConversationItemTruncate

أرسل هذا الحدث لقطع صوت رسالة مساعد سابقة. سيقوم الخادم بإنتاج الصوت أسرع من Voicelive، لذا يكون هذا الحدث مفيدا عندما يقاطع المستخدم لقطع الصوت الذي تم إرساله بالفعل إلى العميل لكنه لم يشغل بعد. سيزامن ذلك فهم الخادم للصوت مع تشغيل العميل. سيتم حذف الصوت لحذف نص الخادم لضمان عدم وجود نص في السياق لم يسمعه المستخدم. إذا نجح، سيرد الخادم بحدث conversation.item.truncated .

ClientEventInputAudioBufferAppend

أرسل هذا الحدث لإضافة بايتات صوتية إلى مخزن الصوت المدخل. المخزن المؤقت للصوت هو تخزين مؤقت يمكنك الكتابة إليه وتثبيته لاحقا. في وضع VAD للخادم، يستخدم مخزن الصوت لاكتشاف الكلام وسيقرر الخادم متى يلتزم بالكلام. عند تعطيل VAD في الخادم، يجب عليك الالتزام بمخزن الصوت يدويا.

يمكن للعميل اختيار كمية الصوت التي يجب وضعها في كل حدث حتى حد أقصى 15 ميجابايت، على سبيل المثال، بث مقاطع أصغر من العميل قد يسمح لجهاز VAD بأن يكون أكثر استجابة. على عكس أحداث العملاء الأخرى التي تم إنشاؤها، لن يرسل الخادم رد تأكيد لهذا الحدث.

ClientEventInputAudioBufferClear

أرسل هذا الحدث لمسح بايتات الصوت في المخزن المؤقت. سيرد الخادم بحدث input_audio_buffer.cleared .

ClientEventInputAudioBufferCommit

أرسل هذا الحدث لالتزام مخزن الصوت لإدخال المستخدم، والذي سينشئ عنصر رسالة مستخدم جديد في المحادثة. سيؤدي هذا الحدث إلى ظهور خطأ إذا كان مخزن الصوت الداخلي فارغا. عند وضع VAD للخادم، لا يحتاج العميل لإرسال هذا الحدث، حيث يقوم الخادم بالتزام مخزن الصوت تلقائيا. الالتزام بمخزن الصوت الداخلي سيؤدي إلى تشغيل نسخ صوت الإدخال (إذا تم تفعيله في تكوين الجلسة)، لكنه لن ينشئ استجابة من النموذج. سيرد الخادم بحدث input_audio_buffer.committed .

ClientEventInputAudioClear

يمسح كل إدخال الصوت الذي يتم بثه حاليا.

ClientEventInputAudioTurnAppend

يرفق بيانات الصوت على دورة إدخال مستمرة.

ClientEventInputAudioTurnCancel

يلغي تشغيل إدخال الصوت أثناء التقدم.

ClientEventInputAudioTurnEnd

يمثل نهاية دوران إدخال الصوت.

ClientEventInputAudioTurnStart

يشير إلى بداية دوران إدخال صوتي جديد.

ClientEventResponseCancel

أرسل هذا الحدث لإلغاء رد قيد التنفيذ. سيرد الخادم بحدث response.cancelled أو خطأ إذا لم يكن هناك رد للإلغاء.

ClientEventResponseCreate

يوجه هذا الحدث الخادم لإنشاء استجابة، مما يعني تفعيل استنتاج النموذج. عند وضع VAD في الخادم، يقوم الخادم بإنشاء الردود تلقائيا. سيتضمن الرد على الأقل عنصرا واحدا، وقد يحتوي على عنصرين، وفي هذه الحالة سيكون الثاني استدعاء دالة. سيتم إضافة هذه العناصر إلى سجل المحادثات. سيرد الخادم بحدث response.created ، وأحداث للعناصر والمحتوى الذي تم إنشاؤه، وأخيرا response.done حدث للدلالة على اكتمال الرد. يشمل الحدث response.create تكوين الاستدلال مثل instructions، و temperature. هذه الحقول ستتجاوز تكوين الجلسة لهذا الاستجابة فقط.

ClientEventSessionAvatarConnect

يتم الإرسال عندما يتصل العميل ويوفر بروتوكول وصف الجلسة (SDP) الخاص به

للتفاوض الإعلامي المتعلق بالأفاتار.

ClientEventSessionUpdate

أرسل هذا الحدث لتحديث التكوين الافتراضي للجلسة. يمكن للعميل إرسال هذا الحدث في أي وقت لتحديث أي حقل، باستثناء .voice ومع ذلك، لاحظ أنه بمجرد تهيئة جلسة باستخدام نموذج معين model، لا يمكن تغييرها إلى نموذج آخر باستخدام session.update. عندما يستقبل الخادم ، session.updateفإنه يستجيب بحدث session.updated يظهر التكوين الكامل والفعال. يتم تحديث الحقول الموجودة فقط. لمسح حقل مثل instructions، مرر وتر فارغ.

ConnectOptions
ConnectedEventArgs

الحجج المقدمة عند إثبات الارتباط

ConnectionContext

معلومات السياق المقدمة لمعالجي الاتصال

ContentPart

أساسي لأي جزء محتوى؛ تعرضت للتمييز بواسطة type.

ConversationItemBase

العنصر المراد إضافته إلى المحادثة.

ConversationRequestItem

الأساس لأي عنصر رد؛ تعرضت للتمييز بواسطة type.

CreateSessionOptions
DisconnectedEventArgs

الحجج المقدمة عند فقدان الاتصال

EouDetection

الاتحاد الأعلى لتكوين الكشف الدلالي في نهاية النطق (EOU).

ErrorEventArgs

الوسائط المقدمة عند حدوث خطأ

ErrorResponse

غلاف استجابة الخطأ القياسي.

FunctionCallItem

عنصر استدعاء وظيفي ضمن محادثة.

FunctionCallOutputItem

عنصر إخراج استدعاء دالة داخل المحادثة.

FunctionTool

تعريف أداة الدوال كما تستخدمها نقطة نهاية Voicelive.

IceServer

تكوين خادم ICE لتفاوض اتصال WebRTC.

InputAudioContentPart

إدخال محتوى الصوت.

InputTextContentPart

جزء محتوى النص.

InputTokenDetails

تفاصيل استخدام رموز الإدخال.

InterimResponseConfigBase

النموذج الأساسي لتكوين الاستجابة المؤقتة.

LlmInterimResponseConfig

تكوين لتوليد الاستجابة المؤقتة المعتمدة على نماذج اللغة الكبيرة (LLM). يستخدم نموذج اللغة الكبيرة لتوليد استجابات مؤقتة واعية للسياق عند تحقيق أي شرط للتحفيز.

LogProbProperties

إدخال احتمالية واحد لسجل الرمز (log bobability) لرمز.

MCPApprovalResponseRequestItem

عنصر طلب يمثل استجابة لطلب موافقة من MCP.

MCPServer

تعريف خادم MCP كما يستخدمه نقطة نهاية voicelive.

MCPTool

يمثل تعريف أداة MCP.

MessageContentPart

أساس أي جزء محتوى رسالة؛ تعرضت للتمييز بواسطة type.

MessageItem

عنصر رسالة داخل محادثة.

OpenAIVoice

تكوين صوت OpenAI مع حقل نوع صريح.

يوفر هذا واجهة موحدة لأصوات OpenAI، مكملة لنظام OAIVoice القائم على السلاسل النصية الحالي للتوافق مع الإصدارات السابقة.

OutputTextContentPart

جزء محتوى النص المخرج.

OutputTokenDetails

تفاصيل استخدام الرموز المخرجة.

RequestAudioContentPart

جزء محتوى صوتي لطلب. يدعم ذلك فقط النماذج الفورية (مثل gpt-realtime). بالنسبة للنماذج النصية، استخدم input_text بدلا من ذلك.

RequestImageContentPart

إدخال محتوى الصورة.

RequestSession

تكوين الجلسة المشترك بين الطلب والرد.

RequestTextContentPart

جزء محتوى نصي لطلب.

Response

مورد الاستجابة.

ResponseAudioContentPart

جزء محتوى صوتي للرد.

ResponseCancelledDetails

تفاصيل الرد الملغي.

ResponseCreateParams

أنشئ استجابة جديدة ل VoiceLive باستخدام هذه المعايير

ResponseFailedDetails

تفاصيل عن رد فاشل.

ResponseFunctionCallItem

عنصر استدعاء وظيفي ضمن محادثة.

ResponseFunctionCallOutputItem

عنصر إخراج استدعاء دالة داخل المحادثة.

ResponseIncompleteDetails

تفاصيل لإجابة غير مكتملة.

ResponseItem

الأساس لأي عنصر رد؛ تعرضت للتمييز بواسطة type.

ResponseMCPApprovalRequestItem

عنصر استجابة يمثل طلب موافقة لاستدعاء أداة MCP.

ResponseMCPApprovalResponseItem

عنصر استجابة يمثل ردا على طلب موافقة من MCP.

ResponseMCPCallItem

عنصر استجابة يمثل استدعاء إلى أداة MCP.

ResponseMCPListToolItem

عنصر استجابة يسرد الأدوات المتاحة على خادم MCP.

ResponseMessageItem

النوع الأساسي لعنصر الرسالة داخل المحادثة.

ResponseSession

الأساس لتكوين الجلسة في الرد.

ResponseStatusDetails

استند لجميع تفاصيل الرد غير الناجح.

ResponseTextContentPart

جزء محتوى نصي للرد.

SendEventOptions
ServerEvent

حدث خادم VoiceLive.

ServerEventConversationItemCreated

يتم إرجاعه عند إنشاء عنصر في المحادثة. هناك العديد من السيناريوهات التي تنتج هذا الحدث:

  • يقوم الخادم بتوليد استجابة، وإذا نجحت ستنتج عنصرا أو عنصرين واحدا أو اثنين، وهما من النوع message (الدور assistant) أو النوع function_call.
  • تم الالتزام بمخزن الصوت المدخل، إما من قبل العميل أو الخادم (في server_vad الوضع). سيأخذ الخادم محتوى مخزن الصوت المدخل ويضيفه إلى رسالة مستخدم جديدة بعنوان Item.
  • العميل أرسل حدثا conversation.item.create لإضافة عنصر جديد إلى المحادثة.
ServerEventConversationItemDeleted

يتم إرجاعها عندما يتم حذف عنصر في المحادثة من قبل العميل الذي يحتوي conversation.item.delete على حدث. يتم استخدام هذا الحدث لمزامنة فهم الخادم لمحفوظات المحادثات مع طريقة عرض العميل.

ServerEventConversationItemInputAudioTranscriptionCompleted

هذا الحدث هو إخراج نسخ صوتي لصوت المستخدم المكتوب إلى مخزن صوت المستخدم. يبدأ النسخ عندما يتم تثبيت المخزن المؤقت لصوت الإدخال بواسطة العميل أو الخادم (في server_vad الوضع). يعمل النسخ بشكل غير متزامن مع إنشاء الاستجابة، لذا قد يأتي هذا الحدث قبل أو بعد أحداث الاستجابة. نماذج VoiceLive API تقبل الصوت بشكل أصلي، وبالتالي فإن نسخ الإدخال هو عملية منفصلة تدار على نموذج ASR (التعرف التلقائي على الكلام) منفصل. قد يختلف النص إلى حد ما عن تفسير النموذج، ويجب التعامل معه كدليل تقريبي.

ServerEventConversationItemInputAudioTranscriptionDelta

تعاد عند تحديث قيمة نص جزء محتوى نقل الصوت المدخل.

ServerEventConversationItemInputAudioTranscriptionFailed

يعاد عند تكوين نسخ الصوت المدخل، وفشل طلب النسخ لرسالة المستخدم. هذه الأحداث منفصلة عن الأحداث الأخرى error حتى يتمكن العميل من تحديد العنصر ذي الصلة.

ServerEventConversationItemRetrieved

يتم إرجاعه عندما يتم استرجاع عنصر محادثة باستخدام conversation.item.retrieve.

ServerEventConversationItemTruncated

يتم إرجاعه عندما يتم اقتطاع عنصر رسالة صوتية لمساعد سابق بواسطة العميل مع conversation.item.truncate حدث. يتم استخدام هذا الحدث لمزامنة فهم الخادم للصوت مع تشغيل العميل. هذا الإجراء سيقطع الصوت ويزيل نص النص على الخادم لضمان عدم وجود نص في السياق لم يسمعه المستخدم.

ServerEventError

يتم إرجاعه عند حدوث خطأ، والذي قد يكون مشكلة في العميل أو في الخادم. معظم الأخطاء قابلة للاسترجاع وستبقى الجلسة مفتوحة، ونوصي المنفذين بمراقبة وتسجيل رسائل الأخطاء بشكل افتراضي.

ServerEventErrorDetails

تفاصيل الخطأ.

ServerEventInputAudioBufferCleared

يعاد عندما يتم مسح مخزن الصوت الداخلي بواسطة العميل مع حدث input_audio_buffer.clear .

ServerEventInputAudioBufferCommitted

يتم إرجاعه عند الالتزام بمخزن صوت مدخل، إما من قبل العميل أو تلقائيا في وضع VAD الخاص بالخادم. الخاصية item_id هي معرف عنصر رسالة المستخدم الذي سيتم إنشاؤه، وبالتالي conversation.item.created سيتم إرسال حدث أيضا إلى العميل.

ServerEventInputAudioBufferSpeechStarted

يرسل من قبل الخادم أثناء وضعه server_vad للإشارة إلى أن الكلام قد تم اكتشافه في مخزن الصوت. يمكن أن يحدث هذا في أي وقت يضاف فيه الصوت إلى المخزن المؤقت (إلا إذا تم اكتشاف الكلام بالفعل). قد يرغب العميل في استخدام هذا الحدث لمقاطعة تشغيل الصوت أو تقديم تغذية راجعة بصرية للمستخدم. يجب أن يتوقع العميل تلقي input_audio_buffer.speech_stopped حدث عند توقف الكلام. الخاصية item_id هي معرف عنصر رسالة المستخدم الذي سيتم إنشاؤه عند توقف الكلام input_audio_buffer.speech_stopped وسيتم تضمينه أيضا في الحدث (ما لم يقوم العميل بتنفيذ مخزن الصوت يدويا أثناء تفعيل VAD).

ServerEventInputAudioBufferSpeechStopped

تعاد إلى الوضع server_vad عندما يكتشف الخادم نهاية الكلام في مخزن الصوت. سيرسل الخادم أيضا حدثا conversation.item.created مع عنصر رسالة المستخدم الذي يتم إنشاؤه من مخزن الصوت.

ServerEventMcpListToolsCompleted

أدوات قائمة MCP مكتملة.

ServerEventMcpListToolsFailed

أدوات قوائم MCP فشلت.

ServerEventMcpListToolsInProgress

رسالة قائمة أدوات MCP قيد التنفيذ.

ServerEventResponseAnimationBlendshapeDelta

يمثل تحديثا دلتا لإطارات تحريك الشكل المزج لمخرج محدد من الرد.

ServerEventResponseAnimationBlendshapeDone

يشير إلى اكتمال معالجة تحريك الشكل المزج لمخرج محدد من الاستجابة.

ServerEventResponseAnimationVisemeDelta

يمثل تحديث لتعريف viseme ID دلتا للرسوم المتحركة المبنية على الصوت.

ServerEventResponseAnimationVisemeDone

يشير إلى إكمال تسليم تحريك viseme للرد.

ServerEventResponseAudioDelta

تعاد عند تحديث الصوت المولد من النموذج.

ServerEventResponseAudioDone

يتم إرجاعه عند الانتهاء من الصوت المولد من النموذج. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.

ServerEventResponseAudioTimestampDelta

يمثل دلتا طابع صوتي على مستوى الكلمة للرد.

ServerEventResponseAudioTimestampDone

يشير إلى إكمال تسليم الطابع الصوتي للرد.

ServerEventResponseAudioTranscriptDelta

تعاد عند تحديث النسخ المولد من النموذج لمخرجات الصوت.

ServerEventResponseAudioTranscriptDone

يعاد عند الانتهاء من البث الذي تم إنشاؤه بواسطة النموذج من الإخراج الصوتي. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.

ServerEventResponseContentPartAdded

يتم إرجاعه عند إضافة جزء محتوى جديد إلى عنصر رسالة مساعد أثناء توليد الرد.

ServerEventResponseContentPartDone

يتم إرجاعه عندما ينتهي جزء المحتوى من البث في عنصر رسالة مساعد. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.

ServerEventResponseCreated

تعاد عند إنشاء استجابة جديدة. الحدث الأول لإنشاء الاستجابة، حيث تكون الاستجابة في حالة ابتدائية ل in_progress.

ServerEventResponseDone

يتم إرجاعه عند انتهاء بث الرد. دائما ما ينبع، بغض النظر عن الحالة النهائية. كائن الاستجابة المدمج في response.done الحدث سيشمل جميع عناصر الإخراج في الاستجابة لكنه سيحذف بيانات الصوت الخام.

ServerEventResponseFunctionCallArgumentsDelta

يتم إرجاعها عند تحديث أوجاج استدعاء الدوال المولدة بواسطة النموذج.

ServerEventResponseFunctionCallArgumentsDone

يتم إرجاعه عندما تنتهي أوراقات استدعاء الدوال التي تولدها النماذج من البث. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.

ServerEventResponseMcpCallArgumentsDelta

يمثل تحديث دلتا للحجج الخاصة باستدعاء أداة MCP.

ServerEventResponseMcpCallArgumentsDone

يشير إلى إكمال الحجج الخاصة بنادة أداة MCP.

ServerEventResponseMcpCallCompleted

يشير إلى أن مكالمة MCP قد اكتملت.

ServerEventResponseMcpCallFailed

يشير إلى فشل مكالمة MCP.

ServerEventResponseMcpCallInProgress

يشير إلى تشغيل مكالمة MCP.

ServerEventResponseOutputItemAdded

يتم إرجاعه عند إنشاء عنصر جديد أثناء توليد الاستجابة.

ServerEventResponseOutputItemDone

تعاد عندما ينتهي العنصر من البث. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.

ServerEventResponseTextDelta

يتم إرجاعه عند تحديث قيمة النص لجزء محتوى "نص".

ServerEventResponseTextDone

يتم إرجاعه عندما ينتهي محتوى جزء "نص" من البث. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.

ServerEventSessionAvatarConnecting

يتم إرسالها عندما يكون الخادم في طور إنشاء اتصال وسائط أفاتار ويقدم إجابته في SDP.

ServerEventSessionCreated

يتم إرجاعه عند إنشاء جلسة. يتم إبداعها تلقائيا عند إنشاء اتصال جديد كأول حدث خادم. سيحتوي هذا الحدث على تكوين الجلسة الافتراضي.

ServerEventSessionUpdated

يعاد عند تحديث الجلسة بحدث session.update ، إلا إذا كان هناك خطأ.

ServerVad

النموذج الأساسي لاكتشاف الأدوار المعتمد على VAD.

SessionBase

تكوين كائنات جلسة VoiceLive.

SessionContext

معلومات السياق المقدمة لمعالجي الجلسات

StartSessionOptions
StaticInterimResponseConfig

تكوين لتوليد الاستجابة الانتقالية الثابتة. يتم التحديد عشوائيا من النصوص المكونة عند استيفاء أي شرط مشغل.

SystemMessageItem

عنصر رسالة نظام داخل المحادثة.

TokenUsage

إحصائيات الاستخدام العامة للرد.

Tool

التمثيل الأساسي لتعريف أداة voicelive.

ToolChoiceFunctionSelection

تمثيل الصوت المباشر tool_choice اختيار أداة وظيفة مسماة.

ToolChoiceSelection

تمثيل أساسي ل voicelive tool_choice اختيار أداة مسماة.

TurnDetection

اتحاد على المستوى الأعلى لتكوين اكتشاف الأدوار.

TurnOptions
UserMessageItem

عنصر رسالة مستخدم داخل المحادثة.

VideoCrop

يحدد مستطيل قص الفيديو باستخدام إحداثيات علوي-يسار وأسفل يمين.

VideoParams

معلمات دفق الفيديو للأفاتار.

VideoResolution

دقة بث الفيديو بالبكسل.

VoiceLiveClientOptions
VoiceLiveErrorDetails

تم إعادة كائن الخطأ في حالة فشل واجهة برمجة التطبيقات (API).

VoiceLiveSessionHandlers

دوال المعالجة لأحداث جلسة VoiceLive التي تتبع أنماط Azure SDK.

جميع المعالجين اختياريين - نفذ فقط الأحداث التي تهمك! كل معالج يتلقى بيانات أحداث قوية النوع ومعلومات سياقية.

VoiceLiveSessionOptions
VoiceLiveSubscription

يمثل اشتراكا نشطا في فعاليات جلسة VoiceLive

النوع أسماء مستعارة

AnimationOutputType

يحدد أنواع بيانات الرسوم المتحركة التي سيتم إخراجها.
يمكن استخدام KnownAnimationOutputType بالتبادل مع AnimationOutputType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

blendshapes: نوع إخراج Blendshapes.
viseme_id: نوع إخراج Viseme ID.

AudioTimestampType

أنواع الطابع الزمني للإخراج المدعومة في محتوى الاستجابة الصوتية.
يمكن استخدام نوع KnownAudioTimestampType بالتبادل مع نوع AudioTimestamp، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

word: الطوابع الزمنية لكل كلمة في الصوت المخرج.

AvatarConfigTypes

أنواع إعدادات الأفاتار
يمكن استخدام KnownAvatarConfigTypes بالتبادل مع AvatarConfigTypes، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

فيديو-أفاتار: فيديو أفاتار
صورة رمزية: صورة رمزية

AvatarOutputProtocol

بروتوكولات إخراج إعدادات أفاتار
يمكن استخدام KnownAvatarOutputProtocol بالتبادل مع AvatarOutputProtocol، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

WebRTC: بروتوكول WebRTC، يخرج تدفقات الصوت/الفيديو عبر WebRTC
websocket: بروتوكول WebSocket، يخرج إطارات الفيديو عبر WebSocket

AzureVoiceType

اتحاد جميع أنواع الأصوات المدعومة من Azure.
يمكن استخدام KnownAzureVoiceType بالتبادل مع AzureVoiceType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

azure-custom: Azure custom voice.
Azure-standard: Azure standard voice.
azure-personal: Azure personal voice.

AzureVoiceUnion

اسم مستعار ل AzureVoiceUnion

ClientEventType

أنواع أحداث العميل المستخدمة في بروتوكول VoiceLive.
يمكن استخدام KnownClientEventType بالتبادل مع ClientEventType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

session.update
input_audio_buffer.إلحاق
input_audio_buffer.commit
input_audio_buffer.clear
input_audio.turn.start
input_audio.turn.append
input_audio.turn.end
input_audio.turn.cancel
input_audio.clear
conversation.item.create
conversation.item.retrieve
conversation.item.truncate
conversation.item.delete
response.create
response.cancel
session.avatar.connect
mcp_approval_response

ClientEventUnion

اسم مستعار ل ClientEventUnion

ContentPartType

نوع المحتوىنوع جزء

ContentPartUnion

اسم مستعار ل ContentPartUnion

ConversationRequestItemUnion

اسم مستعار ل ConversationRequestItemUnion

EouDetectionUnion

اسم مستعار ل EouDetectionUnion

EouThresholdLevel

إعدادات مستوى العتبة لاكتشاف نهاية النطق الدلالي في Azure.
يمكن استخدام KnownEouThresholdLevel بالتبادل مع EouThresholdLevel، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

منخفض: مستوى حساسية منخفض.
متوسط: مستوى عتبة الحساسية المتوسط.
عالية: مستوى عتبة حساسية عالية.
الافتراضي: مستوى عتبة الحساسية الافتراضي.

InputAudioFormat

تم دعم أنواع صيغ الصوت المدخلة.
يمكن استخدام KnownInputAudioFormat بالتبادل مع InputAudioFormat، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

PCM16: صيغة صوت PCM 16-بت عند معدل أخذ عينات افتراضي (24 كيلوهرتز)
g711_ulaw: صيغة صوتية G.711 μ-law (mu-law) بمعدل أخذ عينات 8kHz
g711_alaw: صيغة صوت G.711 A-law بمعدل أخذ عينات 8 كيلوهرتز

InterimResponseConfig

اتحاد أنواع تكوين الاستجابة المؤقتة.

InterimResponseConfigBaseUnion

اسم مستعار ل InterimResponseConfigBaseUnion

InterimResponseConfigType

أنواع تكوين الاستجابة المؤقتة.
يمكن استخدام KnownInterimResponseConfigType بالتبادل مع InterimResponseConfigType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

static_interim_response: نوع تكوين الاستجابة الانتقالية الثابتة.
llm_interim_response: نوع تكوين الاستجابة المؤقتة المعتمد على نموذج اللغة اللغة.

InterimResponseTrigger

محفزات يمكنها تفعيل توليد الاستجابة المؤقتة.
يمكن استخدام KnownInterimResponseTrigger بالتبادل مع InterimResponseTrigger، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

التأخير: تفعيل الاستجابة الانتقالية عندما يتجاوز زمن الاستجابة الحد الأدنى.
الأداة: تفعيل الاستجابة المؤقتة عند تنفيذ استدعاء أداة.

ItemParamStatus

يشير إلى حالة معالجة عنصر أو معاملة.
يمكن استخدام KnownItemParamStatus بالتبادل مع ItemParamStatus، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

تم الاكتمال: لا يزال العنصر أو المعامل قيد المعالجة.
غير مكتمل: العنصر أو المعامل لم يكتمل بعد.

ItemType

نوع العنصرنوع

MCPApprovalType

مجموعة أنواع الموافقة المتاحة من MCP.
يمكن استخدام نوع KnownMCPApprovalType بالتبادل مع MCPApprovalType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

أبدا: لا يطلب الموافقة أبدا.
دائما: الموافقة مطلوبة دائما.

MessageContentPartUnion

اسم مستعار ل MessageContentPartUnion

MessageItemUnion

اسم مستعار ل MessageItemUnion

MessageRole

نوع الرسالة دور

Modality

دعمت الأساليب للجلسة.
يمكن استخدام KnownModality بالتبادل مع الموداليتي، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

النص: أسلوب النص.
الصوت: نمط الصوت.
الرسوم المتحركة: أسلوب الرسوم المتحركة.
أفاتار: نمط الأفاتار.

OAIVoice

دعم أسماء الأصوات في OpenAI (سلسلة النص).
يمكن استخدام KnownOAIVoice بالتبادل مع OAIVoice، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

ألوي: صوت ألوي.
آش: صوت آش.
بالاد: صوت بالارد.
المرجان: صوت المرجان.
صدى: صوت صدى.
سيج: صوت حكيم.
شيمر: صوت شيمر.
المقطع: صوت الآية.
مارين: صوت مارين.
سيدار: صوت الأرز.

OutputAudioFormat

أنواع صيغ الصوت المخرجة مدعومة.
يمكن استخدام KnownOutputAudioFormat بالتبادل مع OutputAudioFormat، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

PCM16: صيغة صوت PCM 16-بت عند معدل أخذ عينات افتراضي (24 كيلوهرتز)
pcm16_8000hz: صيغة صوت PCM 16-بت بمعدل أخذ عينات 8kHz
pcm16_16000hz: صيغة صوت PCM 16-بت بمعدل أخذ عينات 16 كيلوهرتز
g711_ulaw: صيغة صوتية G.711 μ-law (mu-law) بمعدل أخذ عينات 8kHz
g711_alaw: صيغة صوت G.711 A-law بمعدل أخذ عينات 8 كيلوهرتز

PersonalVoiceModels

نماذج PersonalVoice
يمكن استخدام KnownPersonalVoiceModels بالتبادل مع PersonalVoiceModels، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

DragonLatestNeural: استخدم أحدث طراز من دراجون.
PhoenixLatestNeural: استخدم أحدث طراز من فينيكس.
PhoenixV2Neural: استخدم نموذج Phoenix V2.

PhotoAvatarBaseModes

أوضاع الأساس لصورة الأفاتار
يمكن استخدام أوضاع KnownPhotoAvatarBaseModes بالتبادل مع PhotoAvatarBaseModes، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

فاسا-1: نموذج فاسا-1

ReasoningEffort

يقيد الجهد المبذول في التفكير في نماذج المنطق. تحقق من وثائق النموذج بحثا عن القيم المدعومة لكل نموذج. يمكن أن يؤدي تقليل جهد المنطق إلى استجابات أسرع والرموز المميزة الأقل المستخدمة في التفكير في الاستجابة.
يمكن استخدام KnownReasoningEffort بالتبادل مع ReasoningEffort، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

لا أحد: لا يوجد جهد منطقي.
الحد الأدنى: جهد التفكير البسيط.
منخفض: جهد تفكير منخفض - ردود أسرع مع تفكير أقل.
المتوسط: جهد التفكير المتوسط - متوازن بين السرعة وعمق التفكير.
عالية: جهد تفكيري عالي - التفكير العميق قد يستغرق وقتا أطول.
xhigh: جهد تفكير عالي جدا - أقصى عمق للتفكير.

RequestImageContentPartDetail

يحدد مستوى تفاصيل الصورة. يمكن أن تكون قيمة مستقبلية "تلقائية" أو "منخفضة" أو "مرتفعة" أو غير معروفة.
يمكن استخدام KnownRequestImageContentPartDetail بالتبادل مع RequestImageContentPartDetail، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

تلقائي: اختر تلقائيا مستوى التفاصيل المناسب.
منخفض: استخدم مستوى تفاصيل أقل لتقليل عرض النطاق الترددي أو التكلفة.
عالي: استخدم مستوى تفاصيل أعلى—قد يكون أكثر استهلاكا للموارد.

ResponseItemStatus

يشير إلى حالة معالجة عنصر الاستجابة.
يمكن استخدام KnownResponseItemStatus بالتبادل مع ResponseItemStatus، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

in_progress: العنصر قيد التنفيذ.
اكتمل: تم معالجة العنصر بالكامل واكتمل.
غير مكتمل: تم معالجة العنصر لكنه غير مكتمل.

ResponseItemUnion

اسم مستعار ل ResponseItemUnion

ResponseStatus

حالة الاستجابة النهائية.
يمكن استخدام حالة KnownResponseStatus بالتبادل مع حالة الاستجابة، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

اكمال
الغاء
فشل
ناقص
in_progress

ResponseStatusDetailsUnion

الاسم المستعار للرد الحالة التفاصيل الاتحاد

ServerEventType

أنواع أحداث الخادم المستخدمة في بروتوكول VoiceLive.
يمكن استخدام KnownServerEventType بالتبادل مع نوع ServerEventType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

error
session.avatar.connecting
جلسة عمل تم إنشاؤها
جلسة عمل محدثة
conversation.item.input_audio_transcription.completed
conversation.item.input_audio_transcription.delta
conversation.item.input_audio_transcription.failed
conversation.item.created
conversation.item.retrieved
conversation.item.truncated
conversation.item.deleted
input_audio_buffer.committed
input_audio_buffer.cleared
input_audio_buffer.speech_started
input_audio_buffer.speech_stopped
الاستجابة التي تم إنشاؤها
response.done
response.output_item.added
response.output_item.done
response.content_part.added
response.content_part.done
response.text.delta
response.text.done
response.audio_transcript.delta
response.audio_transcript.done
response.audio.delta
response.audio.done
response.animation_blendshapes.delta
response.animation_blendshapes.done
response.audio_timestamp.delta
response.audio_timestamp.done
response.animation_viseme.delta
response.animation_viseme.done
response.function_call_arguments.delta
response.function_call_arguments.done
mcp_list_tools.in_progress
mcp_list_tools.completed
فشل mcp_list_tools
response.mcp_call_arguments.delta
response.mcp_call_arguments.done
response.mcp_call.in_progress
response.mcp_call.completed
فشل response.mcp_call

ServerEventUnion

اسم مستعار ل ServerEventUnion

SessionTarget

Target لجلسة Voice Live، مع تحديد نموذج أو وكيل.

استخدامه { model: string } في جلسات تركز على النماذج حيث يكون الماجستير هو الممثل الرئيسي. يستخدم { agent: AgentSessionConfig } في الجلسات التي تركز على الوكيل حيث يكون الوكيل هو الفاعل الرئيسي.

مثال

جلسة تركز على النماذج

import { DefaultAzureCredential } from "@azure/identity";
import { VoiceLiveClient } from "@azure/ai-voicelive";

const credential = new DefaultAzureCredential();
const endpoint = "https://your-resource.cognitiveservices.azure.com";
const client = new VoiceLiveClient(endpoint, credential);

const session = client.createSession({ model: "gpt-4o-realtime-preview" });

مثال

جلسة تركز على الوكيل

import { DefaultAzureCredential } from "@azure/identity";
import { VoiceLiveClient } from "@azure/ai-voicelive";

const credential = new DefaultAzureCredential();
const endpoint = "https://your-resource.cognitiveservices.azure.com";
const client = new VoiceLiveClient(endpoint, credential);

const session = client.createSession({
  agent: { agentName: "my-agent", projectName: "my-project" },
});
ToolChoice

مجموعة التمثيلات المتاحة لمعلمة tool_choice في voicelive، تشمل خيارات حرفية للسلاسل مثل 'تلقائي' بالإضافة إلى مراجع منظمة للأدوات المعرفة.

ToolChoiceLiteral

مجموعة خيارات tool_choice على مستوى الوضع والوتر الحرفي المتاحة لنقطة نهاية الصوت الحي.
يمكن استخدام KnownToolChoiceLiteral بالتبادل مع ToolChoiceLiteral، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

تلقائي: يحدد أن النموذج يجب أن يحدد بحرية أي أداة أو أدوات، إن وجدت، يستدعيها.
لا شيء: يحدد أن النموذج يجب ألا يستدعي أي أدوات على الإطلاق.
مطلوب: يحدد أن النموذج يجب أن يستدعي أداة واحدة على الأقل.

ToolChoiceSelectionUnion

اسم مستعار ل ToolChoiceSelectionUnion

ToolType

المميزات المدعومة لأدوات voicelive. حاليا، يتم دعم أدوات "الوظيفة" فقط.
يمكن استخدام KnownToolType بالتبادل مع ToolType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة.

القيم المعروفة التي تدعمها الخدمة

وظيفة
MCP

ToolUnion

الاسم المستعار ل ToolUnion

TurnDetectionType

نوع المنعطف نوع الكشف

TurnDetectionUnion

اسم مستعار ل TurnDetectionUnion

Voice

اتحاد جميع تكوينات الصوت المدعومة.

التعدادات

ConnectionState

تعداد حالات الاتصال لإدارة دورة الحياة

KnownAnimationOutputType

يحدد أنواع بيانات الرسوم المتحركة التي سيتم إخراجها.

KnownAudioTimestampType

أنواع الطابع الزمني للإخراج المدعومة في محتوى الاستجابة الصوتية.

KnownAvatarConfigTypes

أنواع إعدادات الأفاتار

KnownAvatarOutputProtocol

بروتوكولات إخراج إعدادات أفاتار

KnownAzureVoiceType

اتحاد جميع أنواع الأصوات المدعومة من Azure.

KnownClientEventType

أنواع أحداث العميل المستخدمة في بروتوكول VoiceLive.

KnownContentPartType

القيم المعروفة ل ContentPartType التي تقبلها الخدمة.

KnownEouThresholdLevel

إعدادات مستوى العتبة لاكتشاف نهاية النطق الدلالي في Azure.

KnownInputAudioFormat

تم دعم أنواع صيغ الصوت المدخلة.

KnownInterimResponseConfigType

أنواع تكوين الاستجابة المؤقتة.

KnownInterimResponseTrigger

محفزات يمكنها تفعيل توليد الاستجابة المؤقتة.

KnownItemParamStatus

يشير إلى حالة معالجة عنصر أو معاملة.

KnownItemType

القيم المعروفة لنوع العنصر التي تقبلها الخدمة.

KnownMCPApprovalType

مجموعة أنواع الموافقة المتاحة من MCP.

KnownMessageRole

القيم المعروفة ل MessageRole التي تقبلها الخدمة.

KnownModality

دعمت الأساليب للجلسة.

KnownOAIVoice

دعم أسماء الأصوات في OpenAI (سلسلة النص).

KnownOutputAudioFormat

أنواع صيغ الصوت المخرجة مدعومة.

KnownPersonalVoiceModels

نماذج PersonalVoice

KnownPhotoAvatarBaseModes

أوضاع الأساس لصورة الأفاتار

KnownReasoningEffort

يقيد الجهد المبذول في التفكير في نماذج المنطق. تحقق من وثائق النموذج بحثا عن القيم المدعومة لكل نموذج. يمكن أن يؤدي تقليل جهد المنطق إلى استجابات أسرع والرموز المميزة الأقل المستخدمة في التفكير في الاستجابة.

KnownRequestImageContentPartDetail

يحدد مستوى تفاصيل الصورة. يمكن أن تكون قيمة مستقبلية "تلقائية" أو "منخفضة" أو "مرتفعة" أو غير معروفة.

KnownResponseItemStatus

يشير إلى حالة معالجة عنصر الاستجابة.

KnownResponseStatus

حالة الاستجابة النهائية.

KnownServerEventType

أنواع أحداث الخادم المستخدمة في بروتوكول VoiceLive.

KnownToolChoiceLiteral

مجموعة خيارات tool_choice على مستوى الوضع والوتر الحرفي المتاحة لنقطة نهاية الصوت الحي.

KnownToolType

المميزات المدعومة لأدوات voicelive. حاليا، يتم دعم أدوات "الوظيفة" فقط.

KnownTurnDetectionType

القيم المعروفة ل TurnDetectionType التي تقبلها الخدمة.

VoiceLiveErrorCodes

رموز الخطأ لعمليات Voice Live WebSocket

الوظائف

classifyConnectionError(unknown)

تصنيف أخطاء الاتصال

classifyProtocolError(Error, string)

تصنيف أخطاء البروتوكول

isAgentSessionTarget(SessionTarget)

قم بقسم Guard للتحقق مما إذا كان SessionTarget يحدد جلسة وكيل.

isModelSessionTarget(SessionTarget)

Type guard للتحقق مما إذا كان SessionTarget يحدد جلسة نموذجية.

تفاصيل الوظيفة

classifyConnectionError(unknown)

تصنيف أخطاء الاتصال

function classifyConnectionError(error: unknown): VoiceLiveConnectionError

المعلمات

error

unknown

المرتجعات

classifyProtocolError(Error, string)

تصنيف أخطاء البروتوكول

function classifyProtocolError(error: Error, messageType: string): VoiceLiveProtocolError

المعلمات

error

Error

messageType

string

المرتجعات

isAgentSessionTarget(SessionTarget)

قم بقسم Guard للتحقق مما إذا كان SessionTarget يحدد جلسة وكيل.

function isAgentSessionTarget(target: SessionTarget): target

المعلمات

target
SessionTarget

هدف الجلسة الذي يجب التحقق منه

المرتجعات

target

صحيح إذا كان الهدف يحدد جلسة وكيل

isModelSessionTarget(SessionTarget)

Type guard للتحقق مما إذا كان SessionTarget يحدد جلسة نموذجية.

function isModelSessionTarget(target: SessionTarget): target

المعلمات

target
SessionTarget

هدف الجلسة الذي يجب التحقق منه

المرتجعات

target

صحيح إذا كان الهدف يحدد جلسة نموذجية