@azure/ai-voicelive package

الفصول

VoiceLiveAuthenticationError	فئة خطأ المصادقة لعمليات الصوت المباشر
VoiceLiveClient	يوفر عميل VoiceLive إدارة الجلسات لقدرات الذكاء الاصطناعي الحواري في الوقت الحقيقي. يعمل هذا العميل كمصنع لإنشاء مثيلات VoiceLiveSession، التي تتعامل مع اتصالات WebSocket الفعلية والتفاعلات الفورية مع الخدمة.
VoiceLiveConnectionError	فئة الخطأ الأساسية لعمليات Voice Live WebSocket
VoiceLiveError	فئة أخطاء General Voice Live
VoiceLiveProtocolError	فئة خطأ البروتوكول لعمليات الرسائل الحية الصوتية
VoiceLiveSession	يمثل جلسة تعتمد على WebSocket للتواصل الصوتي في الوقت الحقيقي مع خدمة Azure VoiceLive. تدير هذه الفئة الاتصال، وتتعامل مع التواصل في الوقت الحقيقي، وتوفر الوصول إلى جميع الميزات التفاعلية بما في ذلك بث الصوت، وإدارة المحادثات، والتحكم في الأفاتار.

الواجهات

AgentConfig	تكوين الوكيل.
AgentSessionConfig	تكوين لإنشاء جلسة يكون فيها وكيل هو الفاعل الرئيسي للذكاء الاصطناعي. عند استخدام جلسة وكيل، يتم إدارة تكوين الوكيل (الأدوات، التعليمات، درجة الحرارة، إلخ) في بوابة Foundry، وليس في كود الجلسة.
Animation	تكوين مخرجات الرسوم المتحركة بما في ذلك بيانات الدمج والصور.
AssistantMessageItem	عنصر رسالة مساعد داخل المحادثة.
AudioEchoCancellation	تكوين إلغاء Echo لمعالجة الصوت من جانب الخادم.
AudioInputTranscriptionOptions	تكوين النسخ الصوتي للإدخل.
AudioNoiseReduction	تكوين الحد من ضوضاء صوت الإدخال.
AudioStreamOptions
AvatarConfig	تكوين البث والسلوك لصورة الأفاتار أثناء الجلسة.
AzureCustomVoice	Azure custom voice configuration.
AzurePersonalVoice	تكوين صوت Azure الشخصي.
AzureSemanticDetection	اكتشاف نهاية النطق الدلالي ل Azure (افتراضي).
AzureSemanticDetectionEn	Azure Semantic de-of-Statement detection (English-Optimized).
AzureSemanticDetectionMultilingual	Azure semantic end-of-statement detection (multilingual).
AzureSemanticVad	كشف الكلام في الخادم (Azure semantic VAD، النسخة الافتراضية).
AzureSemanticVadEn	كشف الكلام في الخادم (Azure Semantic VAD، باللغة الإنجليزية فقط).
AzureSemanticVadMultilingual	كشف الكلام في الخادم (Azure semantic VAD).
AzureStandardVoice	تكوين صوت Azure القياسي.
AzureVoice	قاعدة لتكوينات صوت Azure.
Background	يحدد خلفية فيديو، إما بلون واحد أو رابط صورة (متعارض).
CachedTokenDetails	تفاصيل استخدام الرموز المخرجة.
ClientEvent	فعالية عميل VoiceLive.
ClientEventConversationItemCreate	أضف عنصرا جديدا إلى سياق المحادثة، بما في ذلك الرسائل، واستدعاءات الوظائف، وردود استدعاء الوظائف. يمكن استخدام هذا الحدث لملء "تاريخ" المحادثة وإضافة عناصر جديدة أثناء البث، لكنه يحمل قيدا حاليا وهو أنه لا يستطيع ملء رسائل الصوت الخاصة بالمساعد. إذا نجحت، سيرد الخادم بحدث `conversation.item.created` ، وإلا سيتم إرسال حدث `error` .
ClientEventConversationItemDelete	أرسل هذا الحدث عندما تريد إزالة أي عنصر من سجل المحادثة. سيرد الخادم بحدث `conversation.item.deleted` ، إلا إذا لم يكن العنصر موجودا في سجل المحادثة، وفي هذه الحالة سيرد الخادم بخطأ.
ClientEventConversationItemRetrieve	أرسل هذا الحدث عندما ترغب في استرجاع تمثيل الخادم لعنصر معين في سجل المحادثة. وهذا مفيد، على سبيل المثال، لفحص صوت المستخدم بعد إلغاء الضوضاء وVAD. سيرد الخادم بحدث `conversation.item.retrieved` ، إلا إذا لم يكن العنصر موجودا في سجل المحادثة، وفي هذه الحالة سيرد الخادم بخطأ.
ClientEventConversationItemTruncate	أرسل هذا الحدث لقطع صوت رسالة مساعد سابقة. سيقوم الخادم بإنتاج الصوت أسرع من Voicelive، لذا يكون هذا الحدث مفيدا عندما يقاطع المستخدم لقطع الصوت الذي تم إرساله بالفعل إلى العميل لكنه لم يشغل بعد. سيزامن ذلك فهم الخادم للصوت مع تشغيل العميل. سيتم حذف الصوت لحذف نص الخادم لضمان عدم وجود نص في السياق لم يسمعه المستخدم. إذا نجح، سيرد الخادم بحدث `conversation.item.truncated` .
ClientEventInputAudioBufferAppend	أرسل هذا الحدث لإضافة بايتات صوتية إلى مخزن الصوت المدخل. المخزن المؤقت للصوت هو تخزين مؤقت يمكنك الكتابة إليه وتثبيته لاحقا. في وضع VAD للخادم، يستخدم مخزن الصوت لاكتشاف الكلام وسيقرر الخادم متى يلتزم بالكلام. عند تعطيل VAD في الخادم، يجب عليك الالتزام بمخزن الصوت يدويا. يمكن للعميل اختيار كمية الصوت التي يجب وضعها في كل حدث حتى حد أقصى 15 ميجابايت، على سبيل المثال، بث مقاطع أصغر من العميل قد يسمح لجهاز VAD بأن يكون أكثر استجابة. على عكس أحداث العملاء الأخرى التي تم إنشاؤها، لن يرسل الخادم رد تأكيد لهذا الحدث.
ClientEventInputAudioBufferClear	أرسل هذا الحدث لمسح بايتات الصوت في المخزن المؤقت. سيرد الخادم بحدث `input_audio_buffer.cleared` .
ClientEventInputAudioBufferCommit	أرسل هذا الحدث لالتزام مخزن الصوت لإدخال المستخدم، والذي سينشئ عنصر رسالة مستخدم جديد في المحادثة. سيؤدي هذا الحدث إلى ظهور خطأ إذا كان مخزن الصوت الداخلي فارغا. عند وضع VAD للخادم، لا يحتاج العميل لإرسال هذا الحدث، حيث يقوم الخادم بالتزام مخزن الصوت تلقائيا. الالتزام بمخزن الصوت الداخلي سيؤدي إلى تشغيل نسخ صوت الإدخال (إذا تم تفعيله في تكوين الجلسة)، لكنه لن ينشئ استجابة من النموذج. سيرد الخادم بحدث `input_audio_buffer.committed` .
ClientEventInputAudioClear	يمسح كل إدخال الصوت الذي يتم بثه حاليا.
ClientEventInputAudioTurnAppend	يرفق بيانات الصوت على دورة إدخال مستمرة.
ClientEventInputAudioTurnCancel	يلغي تشغيل إدخال الصوت أثناء التقدم.
ClientEventInputAudioTurnEnd	يمثل نهاية دوران إدخال الصوت.
ClientEventInputAudioTurnStart	يشير إلى بداية دوران إدخال صوتي جديد.
ClientEventResponseCancel	أرسل هذا الحدث لإلغاء رد قيد التنفيذ. سيرد الخادم بحدث `response.cancelled` أو خطأ إذا لم يكن هناك رد للإلغاء.
ClientEventResponseCreate	يوجه هذا الحدث الخادم لإنشاء استجابة، مما يعني تفعيل استنتاج النموذج. عند وضع VAD في الخادم، يقوم الخادم بإنشاء الردود تلقائيا. سيتضمن الرد على الأقل عنصرا واحدا، وقد يحتوي على عنصرين، وفي هذه الحالة سيكون الثاني استدعاء دالة. سيتم إضافة هذه العناصر إلى سجل المحادثات. سيرد الخادم بحدث `response.created` ، وأحداث للعناصر والمحتوى الذي تم إنشاؤه، وأخيرا `response.done` حدث للدلالة على اكتمال الرد. يشمل الحدث `response.create` تكوين الاستدلال مثل `instructions`، و `temperature`. هذه الحقول ستتجاوز تكوين الجلسة لهذا الاستجابة فقط.
ClientEventSessionAvatarConnect	يتم الإرسال عندما يتصل العميل ويوفر بروتوكول وصف الجلسة (SDP) الخاص به للتفاوض الإعلامي المتعلق بالأفاتار.
ClientEventSessionUpdate	أرسل هذا الحدث لتحديث التكوين الافتراضي للجلسة. يمكن للعميل إرسال هذا الحدث في أي وقت لتحديث أي حقل، باستثناء .`voice` ومع ذلك، لاحظ أنه بمجرد تهيئة جلسة باستخدام نموذج معين `model`، لا يمكن تغييرها إلى نموذج آخر باستخدام `session.update`. عندما يستقبل الخادم ، `session.update`فإنه يستجيب بحدث `session.updated` يظهر التكوين الكامل والفعال. يتم تحديث الحقول الموجودة فقط. لمسح حقل مثل `instructions`، مرر وتر فارغ.
ConnectOptions
ConnectedEventArgs	الحجج المقدمة عند إثبات الارتباط
ConnectionContext	معلومات السياق المقدمة لمعالجي الاتصال
ContentPart	أساسي لأي جزء محتوى؛ تعرضت للتمييز بواسطة `type`.
ConversationItemBase	العنصر المراد إضافته إلى المحادثة.
ConversationRequestItem	الأساس لأي عنصر رد؛ تعرضت للتمييز بواسطة `type`.
CreateSessionOptions
DisconnectedEventArgs	الحجج المقدمة عند فقدان الاتصال
EouDetection	الاتحاد الأعلى لتكوين الكشف الدلالي في نهاية النطق (EOU).
ErrorEventArgs	الوسائط المقدمة عند حدوث خطأ
ErrorResponse	غلاف استجابة الخطأ القياسي.
FunctionCallItem	عنصر استدعاء وظيفي ضمن محادثة.
FunctionCallOutputItem	عنصر إخراج استدعاء دالة داخل المحادثة.
FunctionTool	تعريف أداة الدوال كما تستخدمها نقطة نهاية Voicelive.
IceServer	تكوين خادم ICE لتفاوض اتصال WebRTC.
InputAudioContentPart	إدخال محتوى الصوت.
InputTextContentPart	جزء محتوى النص.
InputTokenDetails	تفاصيل استخدام رموز الإدخال.
InterimResponseConfigBase	النموذج الأساسي لتكوين الاستجابة المؤقتة.
LlmInterimResponseConfig	تكوين لتوليد الاستجابة المؤقتة المعتمدة على نماذج اللغة الكبيرة (LLM). يستخدم نموذج اللغة الكبيرة لتوليد استجابات مؤقتة واعية للسياق عند تحقيق أي شرط للتحفيز.
LogProbProperties	إدخال احتمالية واحد لسجل الرمز (log bobability) لرمز.
MCPApprovalResponseRequestItem	عنصر طلب يمثل استجابة لطلب موافقة من MCP.
MCPServer	تعريف خادم MCP كما يستخدمه نقطة نهاية voicelive.
MCPTool	يمثل تعريف أداة MCP.
MessageContentPart	أساس أي جزء محتوى رسالة؛ تعرضت للتمييز بواسطة `type`.
MessageItem	عنصر رسالة داخل محادثة.
OpenAIVoice	تكوين صوت OpenAI مع حقل نوع صريح. يوفر هذا واجهة موحدة لأصوات OpenAI، مكملة لنظام OAIVoice القائم على السلاسل النصية الحالي للتوافق مع الإصدارات السابقة.
OutputTextContentPart	جزء محتوى النص المخرج.
OutputTokenDetails	تفاصيل استخدام الرموز المخرجة.
RequestAudioContentPart	جزء محتوى صوتي لطلب. يدعم ذلك فقط النماذج الفورية (مثل gpt-realtime). بالنسبة للنماذج النصية، استخدم `input_text` بدلا من ذلك.
RequestImageContentPart	إدخال محتوى الصورة.
RequestSession	تكوين الجلسة المشترك بين الطلب والرد.
RequestTextContentPart	جزء محتوى نصي لطلب.
Response	مورد الاستجابة.
ResponseAudioContentPart	جزء محتوى صوتي للرد.
ResponseCancelledDetails	تفاصيل الرد الملغي.
ResponseCreateParams	أنشئ استجابة جديدة ل VoiceLive باستخدام هذه المعايير
ResponseFailedDetails	تفاصيل عن رد فاشل.
ResponseFunctionCallItem	عنصر استدعاء وظيفي ضمن محادثة.
ResponseFunctionCallOutputItem	عنصر إخراج استدعاء دالة داخل المحادثة.
ResponseIncompleteDetails	تفاصيل لإجابة غير مكتملة.
ResponseItem	الأساس لأي عنصر رد؛ تعرضت للتمييز بواسطة `type`.
ResponseMCPApprovalRequestItem	عنصر استجابة يمثل طلب موافقة لاستدعاء أداة MCP.
ResponseMCPApprovalResponseItem	عنصر استجابة يمثل ردا على طلب موافقة من MCP.
ResponseMCPCallItem	عنصر استجابة يمثل استدعاء إلى أداة MCP.
ResponseMCPListToolItem	عنصر استجابة يسرد الأدوات المتاحة على خادم MCP.
ResponseMessageItem	النوع الأساسي لعنصر الرسالة داخل المحادثة.
ResponseSession	الأساس لتكوين الجلسة في الرد.
ResponseStatusDetails	استند لجميع تفاصيل الرد غير الناجح.
ResponseTextContentPart	جزء محتوى نصي للرد.
SendEventOptions
ServerEvent	حدث خادم VoiceLive.
ServerEventConversationItemCreated	يتم إرجاعه عند إنشاء عنصر في المحادثة. هناك العديد من السيناريوهات التي تنتج هذا الحدث: يقوم الخادم بتوليد استجابة، وإذا نجحت ستنتج عنصرا أو عنصرين واحدا أو اثنين، وهما من النوع `message` (الدور `assistant`) أو النوع `function_call`. تم الالتزام بمخزن الصوت المدخل، إما من قبل العميل أو الخادم (في `server_vad` الوضع). سيأخذ الخادم محتوى مخزن الصوت المدخل ويضيفه إلى رسالة مستخدم جديدة بعنوان Item. العميل أرسل حدثا `conversation.item.create` لإضافة عنصر جديد إلى المحادثة.
ServerEventConversationItemDeleted	يتم إرجاعها عندما يتم حذف عنصر في المحادثة من قبل العميل الذي يحتوي `conversation.item.delete` على حدث. يتم استخدام هذا الحدث لمزامنة فهم الخادم لمحفوظات المحادثات مع طريقة عرض العميل.
ServerEventConversationItemInputAudioTranscriptionCompleted	هذا الحدث هو إخراج نسخ صوتي لصوت المستخدم المكتوب إلى مخزن صوت المستخدم. يبدأ النسخ عندما يتم تثبيت المخزن المؤقت لصوت الإدخال بواسطة العميل أو الخادم (في `server_vad` الوضع). يعمل النسخ بشكل غير متزامن مع إنشاء الاستجابة، لذا قد يأتي هذا الحدث قبل أو بعد أحداث الاستجابة. نماذج VoiceLive API تقبل الصوت بشكل أصلي، وبالتالي فإن نسخ الإدخال هو عملية منفصلة تدار على نموذج ASR (التعرف التلقائي على الكلام) منفصل. قد يختلف النص إلى حد ما عن تفسير النموذج، ويجب التعامل معه كدليل تقريبي.
ServerEventConversationItemInputAudioTranscriptionDelta	تعاد عند تحديث قيمة نص جزء محتوى نقل الصوت المدخل.
ServerEventConversationItemInputAudioTranscriptionFailed	يعاد عند تكوين نسخ الصوت المدخل، وفشل طلب النسخ لرسالة المستخدم. هذه الأحداث منفصلة عن الأحداث الأخرى `error` حتى يتمكن العميل من تحديد العنصر ذي الصلة.
ServerEventConversationItemRetrieved	يتم إرجاعه عندما يتم استرجاع عنصر محادثة باستخدام `conversation.item.retrieve`.
ServerEventConversationItemTruncated	يتم إرجاعه عندما يتم اقتطاع عنصر رسالة صوتية لمساعد سابق بواسطة العميل مع `conversation.item.truncate` حدث. يتم استخدام هذا الحدث لمزامنة فهم الخادم للصوت مع تشغيل العميل. هذا الإجراء سيقطع الصوت ويزيل نص النص على الخادم لضمان عدم وجود نص في السياق لم يسمعه المستخدم.
ServerEventError	يتم إرجاعه عند حدوث خطأ، والذي قد يكون مشكلة في العميل أو في الخادم. معظم الأخطاء قابلة للاسترجاع وستبقى الجلسة مفتوحة، ونوصي المنفذين بمراقبة وتسجيل رسائل الأخطاء بشكل افتراضي.
ServerEventErrorDetails	تفاصيل الخطأ.
ServerEventInputAudioBufferCleared	يعاد عندما يتم مسح مخزن الصوت الداخلي بواسطة العميل مع حدث `input_audio_buffer.clear` .
ServerEventInputAudioBufferCommitted	يتم إرجاعه عند الالتزام بمخزن صوت مدخل، إما من قبل العميل أو تلقائيا في وضع VAD الخاص بالخادم. الخاصية `item_id` هي معرف عنصر رسالة المستخدم الذي سيتم إنشاؤه، وبالتالي `conversation.item.created` سيتم إرسال حدث أيضا إلى العميل.
ServerEventInputAudioBufferSpeechStarted	يرسل من قبل الخادم أثناء وضعه `server_vad` للإشارة إلى أن الكلام قد تم اكتشافه في مخزن الصوت. يمكن أن يحدث هذا في أي وقت يضاف فيه الصوت إلى المخزن المؤقت (إلا إذا تم اكتشاف الكلام بالفعل). قد يرغب العميل في استخدام هذا الحدث لمقاطعة تشغيل الصوت أو تقديم تغذية راجعة بصرية للمستخدم. يجب أن يتوقع العميل تلقي `input_audio_buffer.speech_stopped` حدث عند توقف الكلام. الخاصية `item_id` هي معرف عنصر رسالة المستخدم الذي سيتم إنشاؤه عند توقف الكلام `input_audio_buffer.speech_stopped` وسيتم تضمينه أيضا في الحدث (ما لم يقوم العميل بتنفيذ مخزن الصوت يدويا أثناء تفعيل VAD).
ServerEventInputAudioBufferSpeechStopped	تعاد إلى الوضع `server_vad` عندما يكتشف الخادم نهاية الكلام في مخزن الصوت. سيرسل الخادم أيضا حدثا `conversation.item.created` مع عنصر رسالة المستخدم الذي يتم إنشاؤه من مخزن الصوت.
ServerEventMcpListToolsCompleted	أدوات قائمة MCP مكتملة.
ServerEventMcpListToolsFailed	أدوات قوائم MCP فشلت.
ServerEventMcpListToolsInProgress	رسالة قائمة أدوات MCP قيد التنفيذ.
ServerEventResponseAnimationBlendshapeDelta	يمثل تحديثا دلتا لإطارات تحريك الشكل المزج لمخرج محدد من الرد.
ServerEventResponseAnimationBlendshapeDone	يشير إلى اكتمال معالجة تحريك الشكل المزج لمخرج محدد من الاستجابة.
ServerEventResponseAnimationVisemeDelta	يمثل تحديث لتعريف viseme ID دلتا للرسوم المتحركة المبنية على الصوت.
ServerEventResponseAnimationVisemeDone	يشير إلى إكمال تسليم تحريك viseme للرد.
ServerEventResponseAudioDelta	تعاد عند تحديث الصوت المولد من النموذج.
ServerEventResponseAudioDone	يتم إرجاعه عند الانتهاء من الصوت المولد من النموذج. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.
ServerEventResponseAudioTimestampDelta	يمثل دلتا طابع صوتي على مستوى الكلمة للرد.
ServerEventResponseAudioTimestampDone	يشير إلى إكمال تسليم الطابع الصوتي للرد.
ServerEventResponseAudioTranscriptDelta	تعاد عند تحديث النسخ المولد من النموذج لمخرجات الصوت.
ServerEventResponseAudioTranscriptDone	يعاد عند الانتهاء من البث الذي تم إنشاؤه بواسطة النموذج من الإخراج الصوتي. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.
ServerEventResponseContentPartAdded	يتم إرجاعه عند إضافة جزء محتوى جديد إلى عنصر رسالة مساعد أثناء توليد الرد.
ServerEventResponseContentPartDone	يتم إرجاعه عندما ينتهي جزء المحتوى من البث في عنصر رسالة مساعد. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.
ServerEventResponseCreated	تعاد عند إنشاء استجابة جديدة. الحدث الأول لإنشاء الاستجابة، حيث تكون الاستجابة في حالة ابتدائية ل `in_progress`.
ServerEventResponseDone	يتم إرجاعه عند انتهاء بث الرد. دائما ما ينبع، بغض النظر عن الحالة النهائية. كائن الاستجابة المدمج في `response.done` الحدث سيشمل جميع عناصر الإخراج في الاستجابة لكنه سيحذف بيانات الصوت الخام.
ServerEventResponseFunctionCallArgumentsDelta	يتم إرجاعها عند تحديث أوجاج استدعاء الدوال المولدة بواسطة النموذج.
ServerEventResponseFunctionCallArgumentsDone	يتم إرجاعه عندما تنتهي أوراقات استدعاء الدوال التي تولدها النماذج من البث. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.
ServerEventResponseMcpCallArgumentsDelta	يمثل تحديث دلتا للحجج الخاصة باستدعاء أداة MCP.
ServerEventResponseMcpCallArgumentsDone	يشير إلى إكمال الحجج الخاصة بنادة أداة MCP.
ServerEventResponseMcpCallCompleted	يشير إلى أن مكالمة MCP قد اكتملت.
ServerEventResponseMcpCallFailed	يشير إلى فشل مكالمة MCP.
ServerEventResponseMcpCallInProgress	يشير إلى تشغيل مكالمة MCP.
ServerEventResponseOutputItemAdded	يتم إرجاعه عند إنشاء عنصر جديد أثناء توليد الاستجابة.
ServerEventResponseOutputItemDone	تعاد عندما ينتهي العنصر من البث. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.
ServerEventResponseTextDelta	يتم إرجاعه عند تحديث قيمة النص لجزء محتوى "نص".
ServerEventResponseTextDone	يتم إرجاعه عندما ينتهي محتوى جزء "نص" من البث. كما يصدر عند مقاطعة الاستجابة أو عدم اكتمالها أو إلغاؤها.
ServerEventSessionAvatarConnecting	يتم إرسالها عندما يكون الخادم في طور إنشاء اتصال وسائط أفاتار ويقدم إجابته في SDP.
ServerEventSessionCreated	يتم إرجاعه عند إنشاء جلسة. يتم إبداعها تلقائيا عند إنشاء اتصال جديد كأول حدث خادم. سيحتوي هذا الحدث على تكوين الجلسة الافتراضي.
ServerEventSessionUpdated	يعاد عند تحديث الجلسة بحدث `session.update` ، إلا إذا كان هناك خطأ.
ServerVad	النموذج الأساسي لاكتشاف الأدوار المعتمد على VAD.
SessionBase	تكوين كائنات جلسة VoiceLive.
SessionContext	معلومات السياق المقدمة لمعالجي الجلسات
StartSessionOptions
StaticInterimResponseConfig	تكوين لتوليد الاستجابة الانتقالية الثابتة. يتم التحديد عشوائيا من النصوص المكونة عند استيفاء أي شرط مشغل.
SystemMessageItem	عنصر رسالة نظام داخل المحادثة.
TokenUsage	إحصائيات الاستخدام العامة للرد.
Tool	التمثيل الأساسي لتعريف أداة voicelive.
ToolChoiceFunctionSelection	تمثيل الصوت المباشر tool_choice اختيار أداة وظيفة مسماة.
ToolChoiceSelection	تمثيل أساسي ل voicelive tool_choice اختيار أداة مسماة.
TurnDetection	اتحاد على المستوى الأعلى لتكوين اكتشاف الأدوار.
TurnOptions
UserMessageItem	عنصر رسالة مستخدم داخل المحادثة.
VideoCrop	يحدد مستطيل قص الفيديو باستخدام إحداثيات علوي-يسار وأسفل يمين.
VideoParams	معلمات دفق الفيديو للأفاتار.
VideoResolution	دقة بث الفيديو بالبكسل.
VoiceLiveClientOptions
VoiceLiveErrorDetails	تم إعادة كائن الخطأ في حالة فشل واجهة برمجة التطبيقات (API).
VoiceLiveSessionHandlers	دوال المعالجة لأحداث جلسة VoiceLive التي تتبع أنماط Azure SDK. جميع المعالجين اختياريين - نفذ فقط الأحداث التي تهمك! كل معالج يتلقى بيانات أحداث قوية النوع ومعلومات سياقية.
VoiceLiveSessionOptions
VoiceLiveSubscription	يمثل اشتراكا نشطا في فعاليات جلسة VoiceLive

النوع أسماء مستعارة

AnimationOutputType	يحدد أنواع بيانات الرسوم المتحركة التي سيتم إخراجها. يمكن استخدام KnownAnimationOutputType بالتبادل مع AnimationOutputType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة blendshapes: نوع إخراج Blendshapes. viseme_id: نوع إخراج Viseme ID.
AudioTimestampType	أنواع الطابع الزمني للإخراج المدعومة في محتوى الاستجابة الصوتية. يمكن استخدام نوع KnownAudioTimestampType بالتبادل مع نوع AudioTimestamp، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة word: الطوابع الزمنية لكل كلمة في الصوت المخرج.
AvatarConfigTypes	أنواع إعدادات الأفاتار يمكن استخدام KnownAvatarConfigTypes بالتبادل مع AvatarConfigTypes، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة فيديو-أفاتار: فيديو أفاتار صورة رمزية: صورة رمزية
AvatarOutputProtocol	بروتوكولات إخراج إعدادات أفاتار يمكن استخدام KnownAvatarOutputProtocol بالتبادل مع AvatarOutputProtocol، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة WebRTC: بروتوكول WebRTC، يخرج تدفقات الصوت/الفيديو عبر WebRTC websocket: بروتوكول WebSocket، يخرج إطارات الفيديو عبر WebSocket
AzureVoiceType	اتحاد جميع أنواع الأصوات المدعومة من Azure. يمكن استخدام KnownAzureVoiceType بالتبادل مع AzureVoiceType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة azure-custom: Azure custom voice. Azure-standard: Azure standard voice. azure-personal: Azure personal voice.
AzureVoiceUnion	اسم مستعار ل AzureVoiceUnion
ClientEventType	أنواع أحداث العميل المستخدمة في بروتوكول VoiceLive. يمكن استخدام KnownClientEventType بالتبادل مع ClientEventType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة session.update input_audio_buffer.إلحاق input_audio_buffer.commit input_audio_buffer.clear input_audio.turn.start input_audio.turn.append input_audio.turn.end input_audio.turn.cancel input_audio.clear conversation.item.create conversation.item.retrieve conversation.item.truncate conversation.item.delete response.create response.cancel session.avatar.connect mcp_approval_response
ClientEventUnion	اسم مستعار ل ClientEventUnion
ContentPartType	نوع المحتوىنوع جزء
ContentPartUnion	اسم مستعار ل ContentPartUnion
ConversationRequestItemUnion	اسم مستعار ل ConversationRequestItemUnion
EouDetectionUnion	اسم مستعار ل EouDetectionUnion
EouThresholdLevel	إعدادات مستوى العتبة لاكتشاف نهاية النطق الدلالي في Azure. يمكن استخدام KnownEouThresholdLevel بالتبادل مع EouThresholdLevel، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة منخفض: مستوى حساسية منخفض. متوسط: مستوى عتبة الحساسية المتوسط. عالية: مستوى عتبة حساسية عالية. الافتراضي: مستوى عتبة الحساسية الافتراضي.
InputAudioFormat	تم دعم أنواع صيغ الصوت المدخلة. يمكن استخدام KnownInputAudioFormat بالتبادل مع InputAudioFormat، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة PCM16: صيغة صوت PCM 16-بت عند معدل أخذ عينات افتراضي (24 كيلوهرتز) g711_ulaw: صيغة صوتية G.711 μ-law (mu-law) بمعدل أخذ عينات 8kHz g711_alaw: صيغة صوت G.711 A-law بمعدل أخذ عينات 8 كيلوهرتز
InterimResponseConfig	اتحاد أنواع تكوين الاستجابة المؤقتة.
InterimResponseConfigBaseUnion	اسم مستعار ل InterimResponseConfigBaseUnion
InterimResponseConfigType	أنواع تكوين الاستجابة المؤقتة. يمكن استخدام KnownInterimResponseConfigType بالتبادل مع InterimResponseConfigType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة static_interim_response: نوع تكوين الاستجابة الانتقالية الثابتة. llm_interim_response: نوع تكوين الاستجابة المؤقتة المعتمد على نموذج اللغة اللغة.
InterimResponseTrigger	محفزات يمكنها تفعيل توليد الاستجابة المؤقتة. يمكن استخدام KnownInterimResponseTrigger بالتبادل مع InterimResponseTrigger، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة التأخير: تفعيل الاستجابة الانتقالية عندما يتجاوز زمن الاستجابة الحد الأدنى. الأداة: تفعيل الاستجابة المؤقتة عند تنفيذ استدعاء أداة.
ItemParamStatus	يشير إلى حالة معالجة عنصر أو معاملة. يمكن استخدام KnownItemParamStatus بالتبادل مع ItemParamStatus، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة تم الاكتمال: لا يزال العنصر أو المعامل قيد المعالجة. غير مكتمل: العنصر أو المعامل لم يكتمل بعد.
ItemType	نوع العنصرنوع
MCPApprovalType	مجموعة أنواع الموافقة المتاحة من MCP. يمكن استخدام نوع KnownMCPApprovalType بالتبادل مع MCPApprovalType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة أبدا: لا يطلب الموافقة أبدا. دائما: الموافقة مطلوبة دائما.
MessageContentPartUnion	اسم مستعار ل MessageContentPartUnion
MessageItemUnion	اسم مستعار ل MessageItemUnion
MessageRole	نوع الرسالة دور
Modality	دعمت الأساليب للجلسة. يمكن استخدام KnownModality بالتبادل مع الموداليتي، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة النص: أسلوب النص. الصوت: نمط الصوت. الرسوم المتحركة: أسلوب الرسوم المتحركة. أفاتار: نمط الأفاتار.
OAIVoice	دعم أسماء الأصوات في OpenAI (سلسلة النص). يمكن استخدام KnownOAIVoice بالتبادل مع OAIVoice، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة ألوي: صوت ألوي. آش: صوت آش. بالاد: صوت بالارد. المرجان: صوت المرجان. صدى: صوت صدى. سيج: صوت حكيم. شيمر: صوت شيمر. المقطع: صوت الآية. مارين: صوت مارين. سيدار: صوت الأرز.
OutputAudioFormat	أنواع صيغ الصوت المخرجة مدعومة. يمكن استخدام KnownOutputAudioFormat بالتبادل مع OutputAudioFormat، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة PCM16: صيغة صوت PCM 16-بت عند معدل أخذ عينات افتراضي (24 كيلوهرتز) pcm16_8000hz: صيغة صوت PCM 16-بت بمعدل أخذ عينات 8kHz pcm16_16000hz: صيغة صوت PCM 16-بت بمعدل أخذ عينات 16 كيلوهرتز g711_ulaw: صيغة صوتية G.711 μ-law (mu-law) بمعدل أخذ عينات 8kHz g711_alaw: صيغة صوت G.711 A-law بمعدل أخذ عينات 8 كيلوهرتز
PersonalVoiceModels	نماذج PersonalVoice يمكن استخدام KnownPersonalVoiceModels بالتبادل مع PersonalVoiceModels، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة DragonLatestNeural: استخدم أحدث طراز من دراجون. PhoenixLatestNeural: استخدم أحدث طراز من فينيكس. PhoenixV2Neural: استخدم نموذج Phoenix V2.
PhotoAvatarBaseModes	أوضاع الأساس لصورة الأفاتار يمكن استخدام أوضاع KnownPhotoAvatarBaseModes بالتبادل مع PhotoAvatarBaseModes، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة فاسا-1: نموذج فاسا-1
ReasoningEffort	يقيد الجهد المبذول في التفكير في نماذج المنطق. تحقق من وثائق النموذج بحثا عن القيم المدعومة لكل نموذج. يمكن أن يؤدي تقليل جهد المنطق إلى استجابات أسرع والرموز المميزة الأقل المستخدمة في التفكير في الاستجابة. يمكن استخدام KnownReasoningEffort بالتبادل مع ReasoningEffort، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة لا أحد: لا يوجد جهد منطقي. الحد الأدنى: جهد التفكير البسيط. منخفض: جهد تفكير منخفض - ردود أسرع مع تفكير أقل. المتوسط: جهد التفكير المتوسط - متوازن بين السرعة وعمق التفكير. عالية: جهد تفكيري عالي - التفكير العميق قد يستغرق وقتا أطول. xhigh: جهد تفكير عالي جدا - أقصى عمق للتفكير.
RequestImageContentPartDetail	يحدد مستوى تفاصيل الصورة. يمكن أن تكون قيمة مستقبلية "تلقائية" أو "منخفضة" أو "مرتفعة" أو غير معروفة. يمكن استخدام KnownRequestImageContentPartDetail بالتبادل مع RequestImageContentPartDetail، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة تلقائي: اختر تلقائيا مستوى التفاصيل المناسب. منخفض: استخدم مستوى تفاصيل أقل لتقليل عرض النطاق الترددي أو التكلفة. عالي: استخدم مستوى تفاصيل أعلى—قد يكون أكثر استهلاكا للموارد.
ResponseItemStatus	يشير إلى حالة معالجة عنصر الاستجابة. يمكن استخدام KnownResponseItemStatus بالتبادل مع ResponseItemStatus، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة in_progress: العنصر قيد التنفيذ. اكتمل: تم معالجة العنصر بالكامل واكتمل. غير مكتمل: تم معالجة العنصر لكنه غير مكتمل.
ResponseItemUnion	اسم مستعار ل ResponseItemUnion
ResponseStatus	حالة الاستجابة النهائية. يمكن استخدام حالة KnownResponseStatus بالتبادل مع حالة الاستجابة، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة اكمال الغاء فشل ناقص in_progress
ResponseStatusDetailsUnion	الاسم المستعار للرد الحالة التفاصيل الاتحاد
ServerEventType	أنواع أحداث الخادم المستخدمة في بروتوكول VoiceLive. يمكن استخدام KnownServerEventType بالتبادل مع نوع ServerEventType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة error session.avatar.connecting جلسة عمل تم إنشاؤها جلسة عمل محدثة conversation.item.input_audio_transcription.completed conversation.item.input_audio_transcription.delta conversation.item.input_audio_transcription.failed conversation.item.created conversation.item.retrieved conversation.item.truncated conversation.item.deleted input_audio_buffer.committed input_audio_buffer.cleared input_audio_buffer.speech_started input_audio_buffer.speech_stopped الاستجابة التي تم إنشاؤها response.done response.output_item.added response.output_item.done response.content_part.added response.content_part.done response.text.delta response.text.done response.audio_transcript.delta response.audio_transcript.done response.audio.delta response.audio.done response.animation_blendshapes.delta response.animation_blendshapes.done response.audio_timestamp.delta response.audio_timestamp.done response.animation_viseme.delta response.animation_viseme.done response.function_call_arguments.delta response.function_call_arguments.done mcp_list_tools.in_progress mcp_list_tools.completed فشل mcp_list_tools response.mcp_call_arguments.delta response.mcp_call_arguments.done response.mcp_call.in_progress response.mcp_call.completed فشل response.mcp_call
ServerEventUnion	اسم مستعار ل ServerEventUnion
SessionTarget	Target لجلسة Voice Live، مع تحديد نموذج أو وكيل. استخدامه `{ model: string }` في جلسات تركز على النماذج حيث يكون الماجستير هو الممثل الرئيسي. يستخدم `{ agent: AgentSessionConfig }` في الجلسات التي تركز على الوكيل حيث يكون الوكيل هو الفاعل الرئيسي. مثال جلسة تركز على النماذج `import { DefaultAzureCredential } from "@azure/identity"; import { VoiceLiveClient } from "@azure/ai-voicelive"; const credential = new DefaultAzureCredential(); const endpoint = "https://your-resource.cognitiveservices.azure.com"; const client = new VoiceLiveClient(endpoint, credential); const session = client.createSession({ model: "gpt-4o-realtime-preview" });` مثال جلسة تركز على الوكيل `import { DefaultAzureCredential } from "@azure/identity"; import { VoiceLiveClient } from "@azure/ai-voicelive"; const credential = new DefaultAzureCredential(); const endpoint = "https://your-resource.cognitiveservices.azure.com"; const client = new VoiceLiveClient(endpoint, credential); const session = client.createSession({ agent: { agentName: "my-agent", projectName: "my-project" }, });`
ToolChoice	مجموعة التمثيلات المتاحة لمعلمة tool_choice في voicelive، تشمل خيارات حرفية للسلاسل مثل 'تلقائي' بالإضافة إلى مراجع منظمة للأدوات المعرفة.
ToolChoiceLiteral	مجموعة خيارات tool_choice على مستوى الوضع والوتر الحرفي المتاحة لنقطة نهاية الصوت الحي. يمكن استخدام KnownToolChoiceLiteral بالتبادل مع ToolChoiceLiteral، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة تلقائي: يحدد أن النموذج يجب أن يحدد بحرية أي أداة أو أدوات، إن وجدت، يستدعيها. لا شيء: يحدد أن النموذج يجب ألا يستدعي أي أدوات على الإطلاق. مطلوب: يحدد أن النموذج يجب أن يستدعي أداة واحدة على الأقل.
ToolChoiceSelectionUnion	اسم مستعار ل ToolChoiceSelectionUnion
ToolType	المميزات المدعومة لأدوات voicelive. حاليا، يتم دعم أدوات "الوظيفة" فقط. يمكن استخدام KnownToolType بالتبادل مع ToolType، حيث يحتوي هذا العدد على القيم المعروفة التي تدعمها الخدمة. القيم المعروفة التي تدعمها الخدمة وظيفة MCP
ToolUnion	الاسم المستعار ل ToolUnion
TurnDetectionType	نوع المنعطف نوع الكشف
TurnDetectionUnion	اسم مستعار ل TurnDetectionUnion
Voice	اتحاد جميع تكوينات الصوت المدعومة.

التعدادات

ConnectionState	تعداد حالات الاتصال لإدارة دورة الحياة
KnownAnimationOutputType	يحدد أنواع بيانات الرسوم المتحركة التي سيتم إخراجها.
KnownAudioTimestampType	أنواع الطابع الزمني للإخراج المدعومة في محتوى الاستجابة الصوتية.
KnownAvatarConfigTypes	أنواع إعدادات الأفاتار
KnownAvatarOutputProtocol	بروتوكولات إخراج إعدادات أفاتار
KnownAzureVoiceType	اتحاد جميع أنواع الأصوات المدعومة من Azure.
KnownClientEventType	أنواع أحداث العميل المستخدمة في بروتوكول VoiceLive.
KnownContentPartType	القيم المعروفة ل ContentPartType التي تقبلها الخدمة.
KnownEouThresholdLevel	إعدادات مستوى العتبة لاكتشاف نهاية النطق الدلالي في Azure.
KnownInputAudioFormat	تم دعم أنواع صيغ الصوت المدخلة.
KnownInterimResponseConfigType	أنواع تكوين الاستجابة المؤقتة.
KnownInterimResponseTrigger	محفزات يمكنها تفعيل توليد الاستجابة المؤقتة.
KnownItemParamStatus	يشير إلى حالة معالجة عنصر أو معاملة.
KnownItemType	القيم المعروفة لنوع العنصر التي تقبلها الخدمة.
KnownMCPApprovalType	مجموعة أنواع الموافقة المتاحة من MCP.
KnownMessageRole	القيم المعروفة ل MessageRole التي تقبلها الخدمة.
KnownModality	دعمت الأساليب للجلسة.
KnownOAIVoice	دعم أسماء الأصوات في OpenAI (سلسلة النص).
KnownOutputAudioFormat	أنواع صيغ الصوت المخرجة مدعومة.
KnownPersonalVoiceModels	نماذج PersonalVoice
KnownPhotoAvatarBaseModes	أوضاع الأساس لصورة الأفاتار
KnownReasoningEffort	يقيد الجهد المبذول في التفكير في نماذج المنطق. تحقق من وثائق النموذج بحثا عن القيم المدعومة لكل نموذج. يمكن أن يؤدي تقليل جهد المنطق إلى استجابات أسرع والرموز المميزة الأقل المستخدمة في التفكير في الاستجابة.
KnownRequestImageContentPartDetail	يحدد مستوى تفاصيل الصورة. يمكن أن تكون قيمة مستقبلية "تلقائية" أو "منخفضة" أو "مرتفعة" أو غير معروفة.
KnownResponseItemStatus	يشير إلى حالة معالجة عنصر الاستجابة.
KnownResponseStatus	حالة الاستجابة النهائية.
KnownServerEventType	أنواع أحداث الخادم المستخدمة في بروتوكول VoiceLive.
KnownToolChoiceLiteral	مجموعة خيارات tool_choice على مستوى الوضع والوتر الحرفي المتاحة لنقطة نهاية الصوت الحي.
KnownToolType	المميزات المدعومة لأدوات voicelive. حاليا، يتم دعم أدوات "الوظيفة" فقط.
KnownTurnDetectionType	القيم المعروفة ل TurnDetectionType التي تقبلها الخدمة.
VoiceLiveErrorCodes	رموز الخطأ لعمليات Voice Live WebSocket

الوظائف

classifyConnectionError(unknown)	تصنيف أخطاء الاتصال
classifyProtocolError(Error, string)	تصنيف أخطاء البروتوكول
isAgentSessionTarget(SessionTarget)	قم بقسم Guard للتحقق مما إذا كان SessionTarget يحدد جلسة وكيل.
isModelSessionTarget(SessionTarget)	Type guard للتحقق مما إذا كان SessionTarget يحدد جلسة نموذجية.

تفاصيل الوظيفة

classifyConnectionError(unknown)

تصنيف أخطاء الاتصال

function classifyConnectionError(error: unknown): VoiceLiveConnectionError

المعلمات

error: unknown

المرتجعات

VoiceLiveConnectionError

classifyProtocolError(Error, string)

تصنيف أخطاء البروتوكول

function classifyProtocolError(error: Error, messageType: string): VoiceLiveProtocolError

المعلمات

error: Error

messageType: string

المرتجعات

VoiceLiveProtocolError

isAgentSessionTarget(SessionTarget)

قم بقسم Guard للتحقق مما إذا كان SessionTarget يحدد جلسة وكيل.

function isAgentSessionTarget(target: SessionTarget): target

المعلمات

target: SessionTarget

هدف الجلسة الذي يجب التحقق منه

المرتجعات

target

صحيح إذا كان الهدف يحدد جلسة وكيل

isModelSessionTarget(SessionTarget)

Type guard للتحقق مما إذا كان SessionTarget يحدد جلسة نموذجية.

function isModelSessionTarget(target: SessionTarget): target

المعلمات

target: SessionTarget

هدف الجلسة الذي يجب التحقق منه

المرتجعات

target

صحيح إذا كان الهدف يحدد جلسة نموذجية

الملاحظات

هل كانت هذه الصفحة مفيدة؟

@azure/ai-voicelive package

الفصول

الواجهات

النوع أسماء مستعارة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

القيم المعروفة التي تدعمها الخدمة

التعدادات

الوظائف

تفاصيل الوظيفة

classifyConnectionError(unknown)

المعلمات

المرتجعات

classifyProtocolError(Error, string)

المعلمات

المرتجعات

isAgentSessionTarget(SessionTarget)

المعلمات

المرتجعات

isModelSessionTarget(SessionTarget)

المعلمات

المرتجعات

الملاحظات