تخصيص الصوت والصوت باستخدام SSML

يمكنك استخدام Speech Synthesis Markup Language (SSML) لتحديد النص إلى صوت الكلام واللغة والاسم والنمط والدور لإخراج الكلام. يمكنك أيضا استخدام أصوات متعددة في مستند SSML واحد، وضبط التركيز ومعدل التحدث والصوت ومستوى الصوت. بالإضافة إلى ذلك، يتميز SSML بالقدرة على إدراج صوت مسجل مسبقا، مثل تأثير صوتي أو ملاحظة موسيقية.

توضح لك المقالة كيفية استخدام عناصر SSML لتحديد الصوت والصوت. لمزيد من المعلومات حول بناء جملة SSML، راجع بنية مستند SSML والأحداث.

استخدام العناصر الصوتية

يجب تحديد عنصر واحد voice على الأقل داخل كل عنصر كلام SSML. يحدد هذا العنصر الصوت المستخدم لتحويل النص إلى كلام.

يمكنك تضمين عناصر متعددة voice في مستند SSML واحد. يمكن لكل voice عنصر تحديد صوت مختلف. يمكنك أيضا استخدام نفس الصوت عدة مرات مع إعدادات مختلفة، مثل عند تغيير مدة الصمت بين الجمل.

يصف الجدول التالي استخدام voice سمات العنصر:

السمة ‏‏الوصف مطلوب أو اختياري
name الصوت المستخدم لإخراج النص إلى الكلام. للحصول على قائمة كاملة بالأصوات المدعومة التي تم إنشاؤها مسبقا، راجع دعم اللغة. المطلوب
effect معالج التأثير الصوتي المستخدم لتحسين جودة إخراج الكلام المركب لسيناريوهات محددة على الأجهزة.

بالنسبة لبعض السيناريوهات في بيئات الإنتاج، قد تتدهور التجربة السمعية بسبب تشويه التشغيل على أجهزة معينة. على سبيل المثال، قد يبدو الكلام المركب من سماعة السيارة مملا ومكتوما بسبب عوامل بيئية مثل استجابة السماعة وارتكاس الغرفة وضوضاء الخلفية. قد يتعين على الراكب رفع مستوى الصوت لسماعه بشكل أكثر وضوحا. لتجنب العمليات اليدوية في مثل هذا السيناريو، يمكن لمعالج التأثير الصوتي جعل الصوت أكثر وضوحا عن طريق تعويض تشويه التشغيل.

القيم التالية مدعومة:
  • eq_car – تحسين التجربة السمعية عند توفير كلام عالي الدقة في السيارات والحافلات وغيرها من السيارات المغلقة.
  • eq_telecomhp8k – تحسين التجربة السمعية لتضييق نطاق الكلام في سيناريوهات الاتصالات أو الهاتف. يجب استخدام معدل أخذ العينات 8 كيلوهرتز. إذا لم يكن معدل العينة 8 كيلوهرتز، فلن يتم تحسين الجودة السمعية لخطاب الإخراج.

إذا كانت القيمة مفقودة أو غير صالحة، يتم تجاهل هذه السمة ولا يتم تطبيق أي تأثير.
اختياري

أمثلة صوتية

للحصول على معلومات حول القيم المدعومة لسمات voice العنصر، راجع استخدام العناصر الصوتية.

مثال صوتي واحد

يستخدم هذا المثال الصوت en-US-AvaMultilingualNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

مثال على أصوات متعددة

speak ضمن العنصر، يمكنك تحديد أصوات متعددة لإخراج النص إلى الكلام. يمكن أن تكون هذه الأصوات بلغات مختلفة. لكل صوت، يجب أن يكون النص ملتفاً في عنصر voice.

يتناوب هذا المثال بين en-US-AvaMultilingualNeural الأصوات و en-US-AndrewMultilingualNeural . يمكن للأصوات العصبية متعددة اللغات التحدث بلغات مختلفة استنادا إلى نص الإدخال.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

مثال مخصص للصوت العصبي

لاستخدام صوتك العصبي المخصص، حدد اسم النموذج كاسم صوتي في SSML.

يستخدم هذا المثال صوت مخصص يسمى my-custom-voice.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

مثال تأثير الصوت

يمكنك استخدام السمة effect لتحسين التجربة السمعية لسيناريوهات مثل السيارات والاتصالات. يستخدم مثال SSML التالي السمة effect مع التكوين في سيناريوهات السيارة.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

استخدام أنماط وأدوار التحدث

بشكل افتراضي، تتمتع الأصوات العصبية بأسلوب التحدث المحايد. يمكنك ضبط نمط الكلام ودرجة النمط والدور على مستوى الجملة.

إشعار

تدعم خدمة Speech الأنماط ودرجة النمط والأدوار لمجموعة فرعية من الأصوات العصبية كما هو موضح في أنماط الصوت ووثائق الأدوار . لتحديد الأنماط والأدوار المدعومة لكل صوت، يمكنك أيضا استخدام واجهة برمجة تطبيقات أصوات القائمة وتطبيق ويب إنشاء محتوى الصوت.

يصف الجدول التالي استخدام mstts:express-as سمات العنصر:

السمة ‏‏الوصف مطلوب أو اختياري
style نمط التحدث الخاص بالصوت. يمكنك التعبير عن العواطف مثل البهجة والتعاطف والهدوء. يمكنك أيضاً تحسين الصوت ليلائم السيناريوهات المختلفة مثل خدمة العملاء، ونشرة الأخبار، والمساعد الصوتي. إذا كانت قيمة النمط مفقودة أو غير صالحة، يتم تجاهل العنصر بأكمله mstts:express-as وتستخدم الخدمة الكلام المحايد الافتراضي. للحصول على أنماط الصوت العصبية المخصصة، راجع مثال نمط الصوت العصبي المخصص. المطلوب
styledegree شدة أسلوب التحدث. يمكنك تحديد نمط أقوى أو أكثر ليونة لجعل الكلام أكثر تعبيرا أو منخفضا. نطاق القيم المقبولة هو: 0.01 إلى 2 شامل. القيمة الافتراضية هي 1، ما يعني كثافة النمط المعرفة مسبقا. الحد الأدنى للوحدة هو 0.01، ما يؤدي إلى ميل طفيف للنمط الهدف. ينتج عن 2 قيمة مضاعفة كثافة النمط الافتراضية. إذا كانت درجة النمط مفقودة أو غير معتمدة لصوتك، يتم تجاهل هذه السمة. اختياري
role لعب الأدوار المتحدثة. يمكن أن يقلد الصوت عمرا وجنسا مختلفين، ولكن اسم الصوت لا يتغير. على سبيل المثال، يمكن للصوت الذكوري رفع درجة الصوت وتغيير الرجم لتقليد صوت أنثى، ولكن لا يتغير اسم الصوت. إذا كان الدور مفقودا أو غير مدعوم لصوتك، يتم تجاهل هذه السمة. اختياري

يصف الجدول التالي كل سمة مدعومة style :

نمط ‏‏الوصف
style="advertisement_upbeat" يعبر عن نبرة صوت حماسية وعالية الطاقة تروج لمنتج أو خدمة.
style="affectionate" يعبر عن نبرة صوت حنونة وهادئة، مع ارتفاع حدة الصوت والطاقة. المتحدث يجذب انتباه المستمع. شخصية المتحدث محبوبة بطبيعتها.
style="angry" يعبر عن نبرة صوت غاضبة ومنزعجة.
style="assistant" يعبر عن نبرة صوت مطمئنة وهادئة للمساعدين الرقميين.
style="calm" يعبر عن سلوك هادئ ومتزن ومتماسك أثناء الكلام. كل من نغمة الصوت وحدته ووظيفته موحدة أكثر مقارنة بالأنواع الأخرى من الكلام.
style="chat" يعبر عن نبرة صوت هادئة وطبيعية.
style="cheerful" يعبر عن نبرة صوت إيجابية وسعيدة.
style="customerservice" يعبر عن نبرة صوت ودود ومعاوِن لدعم العملاء.
style="depressed" يعبر عن نبرة يئس وكآبة مع انخفاض حدة الصوت والطاقة.
style="disgruntled" يعبر عن نبرة ازدراء وشكوى. التعبير عن هذه العاطفة بالكلام يظهر الاستياء والاحتقار.
style="documentary-narration" تسرد الأفلام الوثائقية بأسلوب سلس وشيق وغني بالمعلومات مناسب لدبلجة الأفلام الوثائقية وتعليقات الخبراء والمحتوى المماثل.
style="embarrassed" يعبر عن نبرة صوت متردد ومتشكك كما هو الحال عندما يشعر المتحدث بعدم الارتياح.
style="empathetic" يعبر عن شعور بالاهتمام والتفاهم.
style="envious" يعبر عن شعور بالإعجاب مثل ذلك الذي تشعر به عندما يعجبك شيء ما لدى شخص آخر.
style="excited" يعبر عن نبرة صوت مليء بالتفاؤل والأمل. يبدو أن شيئا رائعا يحدث والمتحدث سعيد بذلك.
style="fearful" يعبر عن شعور بالخوف والقلق، مع ارتفاع حدة الصوت والطاقة الصوتية وزيادة سرعة كلام. المتحدث في حالة من التوتر وعدم الارتياح.
style="friendly" يعبر عن نبرة صوت لطيف وهادئ ومشجِّع. يبدو الصوت صادقاً وحنوناً.
style="gentle" يعبر عن نبرة صوت رقيق ومهذب وسار، مع انخفاض حدة الصوت والطاقة الصوتية.
style="hopeful" يعبر عن نبرة صوت هادئ ومتلهف. يبدو الصوت وكأن المتحدث في انتظار حدث شيء جيد.
style="lyrical" يعبر عن المشاعر بطريقة عاطفية وحنونة.
style="narration-professional" يعبر عن نبرة صوت احترافي وموضوعي مثل ذلك المستخدم لقراءة محتوى ما.
style="narration-relaxed" يعبر عن نغمة مهدئة ولحنة لقراءة المحتوى.
style="newscast" يعبر عن نبرة صوت رسمي واحترافي لنقل الأخبار.
style="newscast-casual" يعبر عن نبرة صوت متغيرة وغير متكلفة لسرد الأخبار العامة.
style="newscast-formal" يعبر عن نبرة صوت رسمي وواثق وحازم لنقل الأخبار.
style="poetry-reading" يعبر عن نبرة صوت عاطفية وإيقاعية مثل تلك المستخدمة لقراءة قصيدة شعر.
style="sad" يعبر عن نبرة صوت حزينة.
style="serious" يعبر عن طبقة صوت حازمة وآمرة. غالباً ما يبدو صوت المتحدث قاسياً ومتشدد مع إيقاع ثابت.
style="shouting" يعبر عن نغمة تبدو كما لو أن الصوت بعيد أو في موقع آخر ويبذل جهدا لكي يسمع بوضوح.
style="sports_commentary" يعبر عن نغمة مريحة ومهتمة لبث حدث رياضي.
style="sports_commentary_excited" يعبر عن نبرة صوت حماسية ونشيطة ومفعمة بالحيوية لبث لحظات مهمة في حدث رياضي.
style="whispering" يعبر عن نغمة ناعمة تحاول جعل صوت هادئ ولطيف.
style="terrified" يعبر عن نغمة خائفة، مع سرعة أسرع وصوت أكثر هزة. يبدو أن المتحدث في حالة قلق وهلع.
style="unfriendly" يعبر عن نبرة صوت لا مبال وغير مكترث.

يحتوي الجدول التالي على أوصاف لكل سمة معتمدة role :

الدور ‏‏الوصف
role="Girl" الصوت يقلد فتاة
role="Boy" الصوت يقلد ولدا
role="YoungAdultFemale" الصوت يقلد أنثى شابة بالغة.
role="YoungAdultMale" الصوت يقلد ذكرا شابا بالغا.
role="OlderAdultFemale" الصوت يقلد أنثى كبيرة السن.
role="OlderAdultMale" الصوت يقلد ذكرا بالغا أكبر سنا.
role="SeniorFemale" الصوت يقلد أنثى كبيرة.
role="SeniorMale" الصوت يقلد ذكرا كبيرا.

أمثلة على mstts express-as

للحصول على معلومات حول القيم المعتمدة لسمات mstts:express-as العنصر، راجع استخدام أنماط وأدوار التحدث.

مثال على النمط والدرجة

يمكنك استخدام العنصر mstts:express-as للتعبير عن المشاعر مثل الابتهاج والتعاطف والهدوء. يمكنك أيضاً تحسين الصوت ليلائم السيناريوهات المختلفة مثل خدمة العملاء، ونشرة الأخبار، والمساعد الصوتي.

يستخدم <mstts:express-as> مثال SSML التالي العنصر بدرجة sad نمط من 2.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

مثال على الدور

غير ضبط أنماط الكلام ودرجة النمط، يمكنك أيضا ضبط المعلمة role بحيث يحاكي الصوت أعماراً وأجناساً مختلفة. على سبيل المثال، يمكن للصوت الذكوري رفع درجة الصوت وتغيير الرجم لتقليد صوت أنثى، ولكن لا يتغير اسم الصوت.

توضح القصاصة البرمجية لـ SSML هذه كيفية استخدام السمة role لتغيير تمثيل الأدوار لـ zh-CN-XiaomoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

مثال على نمط الصوت العصبي المخصص

يمكنك تدريب صوتك العصبي المخصص للتحدث مع بعض الأنماط المعينة مسبقا مثل cheerfulو sadو whispering. يمكنك أيضا تدريب صوت عصبي مخصص للتحدث بأسلوب مخصص كما تحدده بيانات التدريب الخاصة بك. لاستخدام نمط الصوت العصبي المخصص في SSML، حدد اسم النمط الذي أدخلته مسبقا في Speech Studio.

يستخدم هذا المثال صوت مخصص يسمى my-custom-voice. يتحدث الصوت المخصص بنمط cheerful معين مسبقا ودرجة النمط من 2، ثم بنمط مخصص يسمى my-custom-style ودرجة النمط من 0.01.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

معرف ملف تعريف المتحدث

يمكنك استخدام mstts:ttsembedding العنصر لتحديد الخاصية speakerProfileId لصوت شخصي. الصوت الشخصي هو صوت عصبي مخصص يتم تدريبه على صوتك أو صوت العميل. لمزيد من المعلومات، راجع إنشاء صوت شخصي.

يستخدم <mstts:ttsembedding> مثال SSML التالي العنصر مع اسم صوت ومعرف ملف تعريف السماعة.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

ضبط لغات الكلام

بشكل افتراضي، يمكن للأصوات متعددة اللغات الكشف التلقائي عن لغة نص الإدخال والتحدث بلغة الإعدادات المحلية الافتراضية لنص الإدخال دون استخدام SSML. اختياريا، يمكنك استخدام <lang xml:lang> العنصر لضبط لغة التحدث لهذه الأصوات لتعيين اللهجة المفضلة مثل en-GB الإنجليزية البريطانية. يمكنك ضبط لغة التحدث على مستوى الجملة ومستوى الكلمة. للحصول على معلومات حول اللغات المدعومة للصوت متعدد اللغات، راجع الأصوات متعددة اللغات باستخدام عنصر lang لجدول يعرض <lang> تعريفات بناء الجملة والسمات.

يصف الجدول التالي استخدام <lang xml:lang> سمات العنصر:

السمة ‏‏الوصف مطلوب أو اختياري
xml:lang اللغة التي تريد أن يتحدثها الصوت العصبي. مطلوب لضبط لغة الكلام للصوت العصبي. إذا كنت تستخدم lang xml:lang، فيجب توفير الإعدادات المحلية.

إشعار

العنصر <lang xml:lang> لا يتوافق مع العنصرين prosody وbreak. لا يمكنك ضبط التوقف المؤقت ووظيفة الصوت مثلما تفعل مع حدة الصوت أو المحيط النغمي أو سرعة الكلام أو مستوى الصوت لهذا العنصر.

أصوات متعددة اللغات مع عنصر lang

استخدم قسم الأصوات متعددة اللغات لتحديد لغات التحدث التي تدعمها خدمة الكلام لكل صوت عصبي، كما هو موضح في جدول المثال التالي. إذا كان الصوت لا يتحدث لغة نص الإدخال، فلن تقوم خدمة الكلام إخراج الصوت المركب.

الصوت رقم اللغة المكتشف تلقائيا لغة تم الكشف عنها تلقائيا (إعدادات محلية) كافة الأرقام المحلية جميع اللغات (المحلية) المدعومة من SSML
en-US-AndrewMultilingualNeural1 (ذكر)
en-US-AvaMultilingualNeural1 (أنثى)
en-US-BrianMultilingualNeural1 (ذكر)
en-US-EmmaMultilingualNeural1 (أنثى)
77 الأفريكانية (af-ZA)، الألبانية (sq-AL)، الأمهرية (am-ET)، العربية (ar-EG)، الأرمنية (hy-AM)، الأذربيجانية (az-AZ)، البهاسا الإندونيسية (id-ID)، البنغالية (bn-BD)، الباسكية (eu-ES)، البنغالية ()، البوسنية (bs-BAbn-IN)، البلغارية (bg-BG)، البورمية ()، الكاتالونية (my-MMca-ES)، الصينية الكانتونية (zh-HK)، الصينية الماندارين (zh-CN)، الصينية التايوانية (zh-TW)، الكرواتية (hr-HR)، التشيكية (cs-CZ)، الدنماركية (da-DK)، الهولندية (nl-NL)، الإنجليزية (en-US)، الإستونية (et-EE)، الفلبينية (fil-PH)، الفنلندية (fi-FI)، الفرنسية (fr-FR)، الجاليقية (gl-ES)، الجورجية (ka-GE)، الألمانية (de-DE)، اليونانية (el-GR)، العبرية (he-IL)، الهندية (hi-IN)، المجرية (hu-HU)، الأيسلندية (is-IS)، الأيرلندية (ga-IE)، الإيطالية (it-IT)، اليابانية (ja-JP)، الباوية (jv-ID)، الكانادا (kn-IN)، الكازاخستانية (kk-KZ)، الخميرية (km-KH)، الكورية (ko-KR)، لاو (lo-LA)، اللاتفية (lv-LV)، الليتوانية (lt-LT)، المقدونية (mk-MK)، الماليزية (ms-MY)، المالايالامية (ml-IN)، المالطية (mt-MT)، المنغولية (mn-MN)، النيبالية (ne-NP)، النرويجية بوكمال (nb-NO)، الباشتو (ps-AF)، الفارسية (fa-IR)، البولندية (pl-PL)، البرتغالية (pt-BR)، الرومانية (ro-RO)، الروسية (ru-RU)، الصربية (sr-RS)، السنهالية (si-LK)، السلوفاكية (sk-SK)، السلوفاكية (sl-SI)، الصومالية (so-SO)، الإسبانية (es-ES)، الصاندية (su-ID)، السواحيلية ()، السويدية (sw-KEsv-SE)، التاميلية (ta-IN)، التيلوجو ()، التايلاندية (th-THte-IN)، التركية (tr-TR)، الأوكرانية (uk-UA)، الأردية (ur-PK)، الأوزبكية (uz-UZ)، الفيتنامية (vi-VN)، الويلزية (cy-GB)، الزولو (zu-ZA) 91 الأفريكانية (جنوب أفريقيا) (af-ZA)، الألبانية (ألبانيا) (sq-AL)، الأمهرية (إثيوبيا) (am-ET)، العربية (مصر) (ar-EG)، العربية (المملكة العربية السعودية) (ar-SA)، الأرمن (أرمينيا) (hy-AM)، الأذربيجانية (أذربيجان) (az-AZ)، الباسك (الباسك) (eu-ES)، البنغالية (الهند) (bn-IN)، البوسنية (البوسنة والهرسك) (bs-BA)، البلغارية (بلغاريا) (bg-BG)، البورمية (ميانمار) (my-MM)، الكاتالونية (إسبانيا) (ca-ES)، الصينية (الكانتونية، التقليدية) (zh-HK)، الصينية (الماندارين، المبسطة) (zh-CN)، الصينية (الماندارين التايوانية) ( zh-TW)، الكرواتية (كرواتيا) (hr-HR)، التشيكية (التشيكية) (cs-CZ)، الدنماركية (الدنمارك) (da-DK)، الهولندية (بلجيكا) (nl-BE)، الهولندية (هولندا) (nl-NL)، الإنجليزية (أستراليا) (en-AU)، الإنجليزية (كندا) (en-CA)، الإنجليزية (هونغ كونغ SAR) (en-HK)، الإنجليزية (الهند) (en-IN)، الإنجليزية (أيرلندا) (en-IE)، الإنجليزية (المملكة المتحدة) (en-GB)، الإنجليزية (الولايات المتحدة) (en-US)، الإستونية (إستونيا) (et-EE)، الفلبينية (الفلبين) (fil-PH)، الفنلندية (فنلندا) (fi-FI)، الفرنسية (بلجيكا) (fr-BE)، الفرنسية (كندا) (fr-CA)، الفرنسية (فرنسا) (fr-FR)، الفرنسية (سويسرا) (fr-CH)، الجاليقية (الجاليقية) (gl-ES)، الجورجية (جورجيا) (ka-GE)، الألمانية (النمسا) (de-AT)، الألمانية (ألمانيا) (de-DE)، الألمانية (سويسرا) (de-CH)، اليونانية (اليونان) (el-GR)، العبرية (إسرائيل) (he-IL)، الهندية (الهند) (hi-IN)، المجرية (المجر) (hu-HU)، الأيسلندية (أيسلندا) (is-IS)، الإندونيسية (إندونيسيا) (id-ID)، الأيرلندية (أيرلندا) (ga-IE)، الإيطالية (إيطاليا) (it-IT)، اليابانية (اليابان) (ja-JP)، Javanese (إندونيسيا) (jv-ID)، كانادا (الهند) ( kn-IN)، الكازاخستانية (كازاخستان) (kk-KZ)، الخميرية (كمبوديا) (km-KH)، الكورية (كوريا) (ko-KR)، لاو (لاوس) (lo-LA)، لاتفيا (لاتفيا) (lv-LV)، الليتوانية (ليتوانيا) (lt-LT)، المقدونية (مقدونيا الشمالية) (mk-MK)، الماليزية (ماليزيا) (ms-MY)، المالايالام (الهند) (ml-IN)، المالطية (مالطا) (mt-MT)، المنغولية (منغوليا) (mn-MN)، النيبالية (نيبال) (ne-NP)، النرويجية (بوكمال، النرويج) (nb-NO)، الباشتو (أفغانستان) (ps-AF)، الفارسية (إيران) (fa-IR)، البولندية (بولندا) (pl-PL)، البرتغالية (البرازيل) (pt-BR)، البرتغالية (البرتغال) (pt-PT)، الرومانية (رومانيا) (ro-RO)، الروسية (روسيا) (ru-RU)، الصربية (صربيا) (sr-RS)، السنهالية (سري لانكا) (si-LK)، السلوفاكية (سلوفاكيا) (sk-SK)، السلوفينية (سلوفينيا) (sl-SI)، الصومالية (الصومال) (so-SO)، الإسبانية (المكسيك) (es-MX)، الأسبانية (سلوفاكيا) إسبانيا) (es-ES)، السندانية (إندونيسيا) (su-ID)، السواحيلية (كينيا) (sw-KE)، السويدية (السويد) (sv-SE)، التاميلية (الهند) (ta-IN)، التيلوجو (الهند) (te-IN)، التايلاندية (تايلاند) (th-TH)، التركية (توركي) (tr-TR)، الأوكرانية (أوكرانيا) ( uk-UA) ، الأوردية (باكستان) (ur-PK)، الأوزبكية (أوزبكستان) (uz-UZ)، الفيتنامية (فيتنام) (vi-VN)، الويلزية (المملكة المتحدة) (cy-GB)، الزولو (جنوب أفريقيا) (zu-ZA)

1 هذه أصوات عصبية متعددة اللغات في Azure الذكاء الاصطناعي Speech. يمكن لجميع الأصوات متعددة اللغات التحدث باللغة في الإعدادات المحلية الافتراضية لنص الإدخال دون استخدام SSML. ومع ذلك، لا يزال بإمكانك استخدام <lang xml:lang> العنصر لضبط التمييز المتحدث لكل لغة لتعيين التمييز المفضل مثل التمييز البريطاني (en-GB) للغة الإنجليزية. تتم الإشارة إلى الإعدادات المحلية الأساسية لكل صوت بواسطة البادئة في اسمها، مثل الصوت en-US-AndrewMultilingualNeural، واللغة الأساسية الخاصة به هي en-US.

إشعار

لا تدعم الأصوات متعددة اللغات عناصر SSML معينة بشكل كامل، مثل breakو emphasissilenceو وsub.

أمثلة على Lang

للحصول على معلومات حول القيم المدعومة لسمات lang العنصر، راجع ضبط لغة التحدث.

يجب تحديد en-US باعتباره اللغة الافتراضية في العنصر speak، سواء تم تعديل اللغة في مكان آخر أم لا. في هذا المثال، اللغة الأساسية ل en-US-AvaMultilingualNeural هي en-US.

توضح قصاصة SSML هذه كيفية استخدام <lang xml:lang> التحدث de-DE مع en-US-AvaMultilingualNeural الصوت العصبي.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

speak ضمن العنصر، يمكنك تحديد لغات متعددة بما في ذلك en-US إخراج النص إلى الكلام. لكل لغة معدّلة، يجب أن يتطابق النص مع اللغة وأن يكون ملتفاً في عنصر voice. توضح القصاصة البرمجية لـ SSML هذه كيفية استخدام <lang xml:lang> لتغيير لغات الكلام إلى es-MX وen-US وfr-FR.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

ضبط وظيفة الصوت

يمكنك استخدام prosody العنصر لتحديد التغييرات على درجة الصوت والتكبير والنطاق والمعدل ومستوى الصوت لإخراج النص إلى الكلام. يمكن أن يحتوي العنصر prosody على النص والعناصر التالية: audio وbreak وp وphoneme وprosody وsay-as وsub وs.

بما أن قيم السمات النغمية يمكن أن تختلف على نطاق واسع، فإن أداة التعرف على الكلام تفسر القيم المعينة على أنها اقتراح لما يجب أن تكون عليه القيم العرضية الفعلية للصوت المحدد. النص إلى كلام يحد من القيم غير المعتمدة أو يستبدلها. تشمل الأمثلة على القيم غير المدعمة، حدة الصوت 1 ميجاهرتز أو مستوى الصوت 120.

يصف الجدول التالي استخدام prosody سمات العنصر:

السمة ‏‏الوصف مطلوب أو اختياري
contour يمثل المحيط النغمي التغييرات في حدة الصوت. تُمثَل هذه التغييرات في صورة صفيف من الأهداف في مواضع زمنية محددة في إخراج الكلام. تحدد مجموعات أزواج المعلمات كل هدف. على سبيل المثال:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

تحدد القيمة الأولى في كل مجموعة من المعلمات موضع تغيير حدة الصوت كنسبة مئوية من مدة النص. تحدد القيمة الثانية مقدار زيادة أو خفض حدة الصوت باستخدام قيمة نسبية أو قيمة تعداد لحدة الصوت (راجع pitch).
اختياري
pitch الإشارة إلى حدة الصوت الأساسية للنص. يمكن تطبيق التغييرات في حدة الصوت على مستوى الجملة. يجب أن تكون تغييرات العرض التقديمي في حدود 0.5 إلى 1.5 مرة من الصوت الأصلي. يمكنك التعبير عن حدة الصوت على النحو التالي:
  • قيمة مطلقة: يُعبر عنها في صورة عدد متبوع بـ "Hz" (هرتز). على سبيل المثال، <prosody pitch="600Hz">some text</prosody>
  • قيمة نسبية:
    • كرقم نسبي: يتم التعبير عنه كرقم يسبقه "+" أو "-" ويتبعه "Hz" أو "st" الذي يحدد مقدارًا لتغيير درجة الصوت. على سبيل المثال: <prosody pitch="+80Hz">some text</prosody> أو <prosody pitch="-2st">some text</prosody>. يشير "st" إلى أن وحدة التغيير هي نصف نغمة (نصف خطوة) على المقياس الدياتوني القياسي.
    • كنسبة مئوية: يتم التعبير عنه كرقم يسبقه "+" (اختياريًا) أو "-" متبوعًا بـ "٪"، مما يشير إلى التغيير النسبي. على سبيل المثال: <prosody pitch="50%">some text</prosody> أو <prosody pitch="-50%">some text</prosody>.
  • قيمة ثابتة:
    • منخفضة للغاية
    • منخفضة
    • متوسطة
    • عالٍ
    • عالية للغاية
    • افتراضي
اختياري
range قيمة تمثل نطاق حدة الصوت للنص. يمكنك التعبير عن range باستخدام نفس القيم المطلقة أو القيم النسبية أو قيم التعداد المستخدمة لوصف pitch. اختياري
rate الإشارة إلى سرعة الكلام للنص. يمكن تطبيق سرعة الكلام على مستوى الكلمة أو الجملة. يجب أن تكون تغييرات المعدل ضمن 0.5 أوقات 2 الصوت الأصلي. يمكنك التعبير عن rate على النحو التالي:
  • قيمة نسبية:
    • كرقم نسبي: يتم التعبير عنه كرقم يعمل كمضاعف للإعداد الافتراضي. على سبيل المثال، لا ينتج عن 1 قيمة أي تغيير في المعدل الأصلي. ينتج عن 0.5 قيمة خفض المعدل الأصلي إلى النصف. ينتج عن 2 قيمة ضعف المعدل الأصلي.
    • كنسبة مئوية: يتم التعبير عنه كرقم يسبقه "+" (اختياريًا) أو "-" متبوعًا بـ "٪"، مما يشير إلى التغيير النسبي. على سبيل المثال: <prosody rate="50%">some text</prosody> أو <prosody rate="-50%">some text</prosody>.
  • قيمة ثابتة:
    • بطيء للغاية
    • بطيء
    • متوسطة
    • fast
    • سريع للغاية
    • افتراضي
اختياري
volume الإشارة إلى مستوى صوت الكلام المنطوق. يمكن تطبيق التغييرات في مستوى الصوت على مستوى الجملة. يمكنك التعبير عن مستوى الصوت على النحو التالي:
  • قيمة مطلقة: يتم التعبير عنها كعدد في نطاق 0.0 إلى 100.0، من الأكثر هدوءا إلى الأعلى، مثل 75. القيمة الافتراضية هي 100.0.
  • قيمة نسبية:
    • كرقم نسبي: يتم التعبير عنه كرقم مسبوق بعلامة "+" أو "-" الذي يحدد مقدارًا لتغيير الحجم. الأمثلة هي +10 أو -5.5.
    • كنسبة مئوية: يتم التعبير عنه كرقم يسبقه "+" (اختياريًا) أو "-" متبوعًا بـ "٪"، مما يشير إلى التغيير النسبي. على سبيل المثال: <prosody volume="50%">some text</prosody> أو <prosody volume="+3%">some text</prosody>.
  • قيمة ثابتة:
    • صامت
    • خافت للغاية
    • soft
    • متوسطة
    • عالي
    • عالي للغاية
    • افتراضي
اختياري

أمثلة Prosody

للحصول على معلومات حول القيم المدعومة لسمات prosody العنصر، راجع ضبط prosody.

تغيير مثال معدل التحدث

يوضح مقتطف SSML هذا كيفية استخدام السمة rate لتغيير معدل التحدث إلى 30٪ أكبر من المعدل الافتراضي.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

تغيير مثال وحدة التخزين

يوضح مقتطف SSML هذا كيفية استخدام السمة volume لتغيير وحدة التخزين إلى 20٪ أكبر من وحدة التخزين الافتراضية.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

تغيير مثال العرض التقديمي

يوضح مقتطف SSML هذا كيفية استخدام السمة pitch بحيث يتحدث الصوت في درجة عالية.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

مثال تغيير مخطط العرض التقديمي

يوضح مقتطف SSML هذا كيفية استخدام السمة contour لتغيير المخطط.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

ضبط التوكيد

يمكنك استخدام العنصر الاختياري emphasis لإضافة أو إزالة الإجهاد على مستوى الكلمات للنص. يمكن أن يحتوي هذا العنصر على النص والعناصر التالية: audio وbreak وemphasis وlang وphoneme وprosody وsay-as وsub وvoice.

إشعار

يتوفر ضبط التوكيد على مستوى الكلمات فقط لهذه الأصوات العصبية: en-US-GuyNeuralو en-US-DavisNeuralوen-US-JaneNeural.

بالنسبة للكلمات ذات درجة الصوت المنخفضة والمدة القصيرة، قد لا يتم رفع العرض بدرجة كافية ليتم ملاحظته.

يصف emphasis الجدول التالي سمات العنصر:

السمة ‏‏الوصف مطلوب أو اختياري
level الإشارة إلى قوة التوكيد الذي سيتم تطبيقه:
  • reduced
  • none
  • moderate
  • strong
.
عندما لا تكون سمة level محددة، يكون المستوى الافتراضي هو moderate. للحصول على تفاصيل حول كل سمة، راجع عنصر التوكيد.
اختياري

أمثلة التوكيد

للحصول على معلومات حول القيم المدعومة لسمات emphasis العنصر، راجع ضبط التوكيد.

يوضح مقتطف SSML هذا كيف يمكنك استخدام emphasis العنصر لإضافة تركيز متوسط المستوى لكلمة "اجتماعات".

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

إضافة صوت مسجَّل

audioالعنصر اختياري. يمكنك استخدامه لإدراج صوت مسجل مسبقاً في مستند SSML. يمكن أن يحتوي نص العنصر على audio نص عادي أو علامات SSML المنطوقة إذا كان الملف الصوتي غير متوفر أو غير قابل للتشعب. يمكن أن يحتوي العنصر audio على نص والعناصر التالية: audio وbreak وp وs وphoneme وprosody وsay-as وsub.

يجب أن يفي أي صوت مضمن في مستند SSML بالمتطلبات التالية:

  • يجب أن يكون الملف الصوتي ملفات *.mp3 أو *.wav أو *.opus أو *.ogg أو *.flac أو *.wma .
  • لا يمكن أن يتجاوز الوقت الكلي لجميع ملفات النصوص والملفات الصوتية المدمج في استجابة واحدة 600 ثانية.
  • يجب ألا يحتوي الصوت على أي معلومات خاصة بالعميل أو أي معلومات حساسة أخرى.

إشعار

العنصر audio غير مدعوم من قبل Long Audio API. بالنسبة إلى النص طويل النموذج إلى كلام، استخدم واجهة برمجة تطبيقات تجميع الدفعات (معاينة) بدلا من ذلك.

يصف الجدول التالي استخدام audio سمات العنصر:

السمة ‏‏الوصف مطلوب أو اختياري
src موقع URI للملف الصوتي. يجب استضافة الصوت على نقطة نهاية HTTPS يمكن الوصول إليها عبر الإنترنت. HTTPS مطلوب. يجب أن يقدم المجال الذي يستضيف الملف شهادة TLS/SSL صالحة وموثوقة. يجب وضع الملف الصوتي في Blob Storage في نفس منطقة Azure مثل النص إلى نقطة نهاية الكلام لتقليل زمن الانتقال. المطلوب

أمثلة صوتية

للحصول على معلومات حول القيم المعتمدة لسمات audio العنصر، راجع إضافة صوت مسجل.

يوضح مقتطف SSML هذا كيفية استخدام src السمة لإدراج صوت من ملفين .wav.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

ضبط مدة الصوت

mstts:audioduration استخدم العنصر لتعيين مدة صوت الإخراج. استخدم هذا العنصر للمساعدة في مزامنة توقيت إكمال إخراج الصوت. يمكن تقليل مدة الصوت أو زيادتها بين 0.5 معدل الصوت الأصلي ومراته 2 . الصوت الأصلي هو الصوت دون أي إعدادات سعر أخرى. يتم إبطاء معدل التحدث أو رفعه وفقا لذلك استنادا إلى القيمة المحددة.

ينطبق إعداد مدة الصوت على كل نص الإدخال داخل عنصر إحاطته voice . لإعادة تعيين إعداد مدة الصوت أو تغييره مرة أخرى، يجب استخدام عنصر جديد voice بنفس الصوت أو بصوت مختلف.

يصف الجدول التالي استخدام mstts:audioduration سمات العنصر:

السمة ‏‏الوصف مطلوب أو اختياري
value المدة المطلوبة لصوت الإخراج إما في ثوان، مثل 2s، أو مللي ثانية، مثل 2000ms.

يجب أن تكون هذه القيمة ضمن 0.5 أوقات 2 الصوت الأصلي دون أي إعدادات سعر أخرى. على سبيل المثال، إذا كانت المدة المطلوبة للصوت هي 30s، فيجب أن يتراوح الصوت الأصلي بين 15 و60 ثانية. إذا قمت بتعيين قيمة خارج هذه الحدود، يتم تعيين المدة وفقا للحد الأدنى أو الأقصى للمضاعف المعني.

نظرا إلى مدة صوت الإخراج المطلوبة، تقوم خدمة الكلام بضبط معدل التحدث وفقا لذلك. استخدم واجهة برمجة تطبيقات القائمة الصوتية وتحقق من السمة WordsPerMinute لمعرفة معدل التحدث للصوت العصبي الذي تستخدمه. يمكنك تقسيم عدد الكلمات في نص الإدخال على قيمة السمة WordsPerMinute للحصول على مدة صوت الإخراج الأصلية التقريبية. يبدو صوت الإخراج طبيعيا عند تعيين مدة الصوت الأقرب إلى المدة المقدرة.
المطلوب

أمثلة على مدة صوت mstts

للحصول على معلومات حول القيم المعتمدة لسمات mstts:audioduration العنصر، راجع ضبط مدة الصوت.

في هذا المثال، يبلغ الصوت الأصلي حوالي 15 ثانية. mstts:audioduration يتم استخدام العنصر لتعيين مدة الصوت إلى 20 ثانية أو 20s.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

إضافة صوت في الخلفية

يمكنك استخدام mstts:backgroundaudio العنصر لإضافة صوت الخلفية إلى مستندات SSML أو خلط ملف صوتي مع نص إلى كلام. باستخدام mstts:backgroundaudio، يمكنك تكرار ملف صوتي في الخلفية، وتلاشى في بداية النص إلى كلام، وتتلاشى في نهاية النص إلى كلام.

إذا كان الصوت في الخلفية المتوفر أقصر من النص إلى كلام أو تلاشي للخارج، فإنه يتكرر. إذا كان أطول من النص إلى كلام، فإنه يتوقف عند الانتهاء من التلاشي.

يُسمح بملف صوتي واحد فقط في الخلفية لكل مستند SSML. يمكنك دمج علامات audio داخل العنصر voice لإضافة المزيد من الملفات الصوتية إلى مستند SSML.

إشعار

mstts:backgroundaudio يجب وضع العنصر أمام جميع voice العناصر. إذا تم تحديده، يجب أن يكون أول تابع للعنصر speak .

العنصر mstts:backgroundaudio غير مدعوم من قبل Long Audio API. بالنسبة إلى النص طويل النموذج إلى كلام، استخدم واجهة برمجة تطبيقات تجميع الدفعات (معاينة) بدلا من ذلك.

يصف الجدول التالي استخدام mstts:backgroundaudio سمات العنصر:

السمة ‏‏الوصف مطلوب أو اختياري
src موقع URI لملف الصوت في الخلفية. المطلوب
volume مستوى صوت ملف الصوت في الخلفية. القيم المقبولة: 0 إلى 100 شاملة. القيمة الافتراضية هي 1. اختياري
fadein مدة تلاشي الصوت في الخلفية بالمللي ثانية. القيمة الافتراضية هي 0، وهي تكافئ عدم الزيادة التدريجية للصوت. القيم المقبولة: 0 إلى 10000 شاملة. اختياري
fadeout مدة تلاشي الصوت في الخلفية بالمللي ثانية. القيمة الافتراضية هي 0، وهي ما يعادل عدم التلاشي. القيم المقبولة: 0 إلى 10000 شاملة. اختياري

أمثلة mstss backgroundaudio

للحصول على معلومات حول القيم المعتمدة لسمات mstts:backgroundaudi العنصر، راجع إضافة صوت الخلفية.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document will be spoken over the background audio.
    </voice>
</speak>

الخطوات التالية