مشاركة عبر


تخصيص الصوت والصوت باستخدام SSML

يمكنك استخدام Speech Synthesis Markup Language (SSML) لتحديد النص إلى صوت الكلام واللغة والاسم والنمط والدور لإخراج الكلام. يمكنك أيضا استخدام أصوات متعددة في مستند SSML واحد، وضبط التركيز ومعدل التحدث والصوت ومستوى الصوت. بالإضافة إلى ذلك، يتميز SSML بالقدرة على إدراج صوت مسجل مسبقا، مثل تأثير صوتي أو ملاحظة موسيقية.

توضح لك المقالة كيفية استخدام عناصر SSML لتحديد الصوت والصوت. لمزيد من المعلومات حول بناء جملة SSML، راجع بنية مستند SSML والأحداث.

استخدام العناصر الصوتية

يجب تحديد عنصر واحد voice على الأقل داخل كل عنصر كلام SSML. يحدد هذا العنصر الصوت المستخدم لتحويل النص إلى كلام.

يمكنك تضمين عناصر متعددة voice في مستند SSML واحد. يمكن لكل voice عنصر تحديد صوت مختلف. يمكنك أيضا استخدام نفس الصوت عدة مرات مع إعدادات مختلفة، مثل عند تغيير مدة الصمت بين الجمل.

يصف الجدول التالي استخدام voice سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
name الصوت المستخدم لإخراج النص إلى الكلام. للحصول على قائمة كاملة بالأصوات القياسية المدعومة، راجع دعم اللغة. مطلوب
effect معالج التأثير الصوتي المستخدم لتحسين جودة إخراج الكلام المركب لسيناريوهات محددة على الأجهزة.

بالنسبة لبعض السيناريوهات في بيئات الإنتاج، قد تتدهور التجربة السمعية بسبب تشويه التشغيل على أجهزة معينة. على سبيل المثال، قد يبدو الكلام المركب من سماعة السيارة مملا ومكتوما بسبب عوامل بيئية مثل استجابة السماعة وارتكاس الغرفة وضوضاء الخلفية. قد يتعين على الراكب رفع مستوى الصوت لسماعه بشكل أكثر وضوحا. لتجنب العمليات اليدوية في مثل هذا السيناريو، يمكن لمعالج التأثير الصوتي جعل الصوت أكثر وضوحا عن طريق تعويض تشويه التشغيل.

يتم دعم القيم التالية:
  • eq_car – تحسين التجربة السمعية عند توفير كلام عالي الدقة في السيارات والحافلات وغيرها من السيارات المغلقة.
  • eq_telecomhp8k – تحسين التجربة السمعية لتضييق نطاق الكلام في سيناريوهات الاتصالات أو الهاتف. يجب استخدام معدل أخذ العينات 8 كيلوهرتز. إذا لم يكن معدل العينة 8 كيلوهرتز، فلن يتم تحسين الجودة السمعية لخطاب الإخراج.

إذا كانت القيمة مفقودة أو غير صالحة، يتم تجاهل هذه السمة ولا يتم تطبيق أي تأثير.
اختياري

أمثلة صوتية

للحصول على معلومات حول القيم المدعومة لسمات voice العنصر، راجع استخدام العناصر الصوتية.

مثال صوتي واحد

يستخدم هذا المثال الصوت en-US-AvaMultilingualNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        This is the text that is spoken.
    </voice>
</speak>

مثال على أصوات متعددة

speak ضمن العنصر، يمكنك تحديد أصوات متعددة لإخراج النص إلى الكلام. يمكن أن تكون هذه الأصوات بلغات مختلفة. لكل صوت، يجب التفاف النص في عنصر voice .

يتناوب هذا المثال بين en-US-AvaMultilingualNeural الأصوات و en-US-AndrewMultilingualNeural . يمكن للأصوات العصبية متعددة اللغات التحدث بلغات مختلفة استنادا إلى نص الإدخال.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Good morning!
    </voice>
    <voice name="en-US-AndrewMultilingualNeural">
        Good morning to you too Ava!
    </voice>
</speak>

مثال صوتي مخصص

لاستخدام صوتك المخصص، حدد اسم النموذج كاسم صوتي في SSML.

يستخدم هذا المثال صوت مخصص يسمى my-custom-voice.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="my-custom-voice">
        This is the text that is spoken.
    </voice>
</speak>

مثال تأثير الصوت

يمكنك استخدام السمة effect لتحسين التجربة السمعية لسيناريوهات مثل السيارات والاتصالات. يستخدم مثال SSML التالي السمة effect مع التكوين في سيناريوهات السيارة.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural" effect="eq_car">
        This is the text that is spoken.
    </voice>
</speak>

مثال صوتي متعدد المتحدثين

تمكن الأصوات متعددة المتحدثين المحادثات الطبيعية والديناميكية مع عدة متحدثين متميزين. يعزز هذا الابتكار واقعية الحوارات المركب من خلال الحفاظ على التدفق السياقي والاتساق العاطفي وأنماط الكلام الطبيعية.

استخدم هذه الإمكانية لإنشاء تبادلات كلامية أو محادثة جذابة على غرار وسائط بودكاست مع انتقالات سلسة بين السماعات. على عكس النماذج أحادية الحديث، التي تقوم بتجميع كل منعطف في عزلة، تحافظ الأصوات متعددة المتحدثين على الاتساق عبر الحوار، ما يضمن تجربة استماع أكثر مصداقية وغامرة.

بالنسبة إلى en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural، ضمن <mstts:dialog> العنصر، يمكنك تحديد كل دور لإخراج النص إلى كلام، مع التنسيق أدناه للتناوب بين السماعة ava ولكل andrew دور.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural'>
        <mstts:dialog>
            <mstts:turn speaker="ava">Hello, Andrew! How's your day going?</mstts:turn>
            <mstts:turn speaker="andrew">Hey Ava! It's been great, just exploring some AI advancements in communication.</mstts:turn>
            <mstts:turn speaker="ava">That sounds interesting! What kind of projects are you working on?</mstts:turn>
            <mstts:turn speaker="andrew">Well, we've been experimenting with text-to-speech applications, including turning emails into podcasts.</mstts:turn>
            <mstts:turn speaker="ava">Wow, that could really improve content accessibility! Are you looking for collaborators?</mstts:turn>
            <mstts:turn speaker="andrew">Absolutely! We're open to testing new ideas and seeing how AI can enhance communication.</mstts:turn>
        </mstts:dialog>
    </voice>
</speak>

للحصول على الأصوات المدعومة، راجع وثائق دعم اللغة .

استخدام أنماط وأدوار التحدث

بشكل افتراضي، تتمتع الأصوات العصبية بأسلوب التحدث المحايد. يمكنك ضبط نمط التحدث ودرجة النمط والدور على مستوى الجملة.

ملاحظة

تدعم خدمة Speech الأنماط ودرجة النمط والأدوار لمجموعة فرعية من الأصوات العصبية كما هو موضح في أنماط الصوت ووثائق الأدوار . لتحديد الأنماط والأدوار المدعومة لكل صوت، يمكنك أيضا استخدام واجهة برمجة تطبيقات أصوات القائمة وتطبيق ويب إنشاء محتوى الصوت .

يصف الجدول التالي استخدام mstts:express-as سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
style نمط التحدث الخاص بالصوت. يمكنك التعبير عن العواطف مثل البهجة والتعاطف والهدوء. يمكنك أيضا تحسين الصوت لسيناريوهات مختلفة مثل خدمة العملاء، ونشرة الأخبار، والمساعد الصوتي. إذا كانت قيمة النمط مفقودة أو غير صالحة، يتم تجاهل العنصر بأكمله mstts:express-as وتستخدم الخدمة الكلام المحايد الافتراضي. للاطلاع على أنماط الصوت المخصصة، راجع مثال نمط الصوت المخصص. مطلوب
styledegree شدة أسلوب التحدث. يمكنك تحديد نمط أقوى أو أكثر ليونة لجعل الكلام أكثر تعبيرا أو منخفضا. نطاق القيم المقبولة هو: 0.01 إلى 2 شامل. القيمة الافتراضية هي 1، ما يعني كثافة النمط المعرفة مسبقا. الحد الأدنى للوحدة هو 0.01، ما يؤدي إلى ميل طفيف للنمط الهدف. ينتج عن 2 قيمة مضاعفة كثافة النمط الافتراضية. إذا كانت درجة النمط مفقودة أو غير معتمدة لصوتك، يتم تجاهل هذه السمة. اختياري
role لعب الأدوار المتحدثة. يمكن أن يقلد الصوت عمرا وجنسا مختلفين، ولكن اسم الصوت لا يتغير. على سبيل المثال، يمكن للصوت الذكوري رفع درجة الصوت وتغيير الرجم لتقليد صوت أنثى، ولكن لا يتغير اسم الصوت. إذا كان الدور مفقودا أو غير مدعوم لصوتك، يتم تجاهل هذه السمة. اختياري

يصف الجدول التالي كل سمة مدعومة style :

نمط الوصف
style="advertisement_upbeat" يعبر عن نغمة متحمسة وعالية الطاقة لترويج منتج أو خدمة.
style="affectionate" يعبر عن نغمة دافئة وحنونة، مع درجة أعلى وطاقة صوتية. المتحدث في حالة جذب انتباه المستمع. غالبا ما تكون شخصية المتحدث في الطبيعة.
style="angry" يعبر عن نغمة غاضبة ومزعجة.
style="assistant" يعبر عن نغمة دافئة ومريحة للمساعدين الرقميين.
style="calm" يعبر عن موقف بارد، مجمع، ومؤلف عند التحدث. تعد النغمة والنبرة والمحترفين أكثر اتساقا مقارنة بالأنواع الأخرى من الكلام.
style="chat" يعبر عن نغمة غير رسمية ومريحة.
style="cheerful" يعبر عن نغمة إيجابية وسعيدة.
style="customerservice" يعبر عن نغمة ودية ومفيدة لدعم العملاء.
style="depressed" يعبر عن نغمة دنيوية ودنيئة مع درجة حرارة أقل وطاقة أقل.
style="disgruntled" يعبر عن نبرة غير لائقة وتشتكي. الكلام عن هذه المشاعر يعرض الاستياء والازدراء.
style="documentary-narration" تسرد الأفلام الوثائقية بأسلوب مريح ومهتم وغني بالمعلومات مناسب للوثائقيات وتعليقات الخبراء والمحتوى المماثل.
style="embarrassed" يعبر عن نغمة غير مؤكدة ومترددة عندما يشعر المتحدث بعدم الارتياح.
style="empathetic" يعبر عن شعور الرعاية والتفاهم.
style="envious" يعبر عن نغمة من الإعجاب عندما ترغب في شيء ما لدى شخص آخر.
style="excited" يعبر عن نغمة متفائلة وناعمة الأمل. يبدو أن شيئا رائعا يحدث والمتحدث سعيد بذلك.
style="fearful" يعبر عن نغمة خائفة وعصبية، مع درجة أعلى، وطاقة صوتية أعلى، ومعدل أسرع. والمتحدث في حالة من التوتر وعدم الارتياح.
style="friendly" يعبر عن نغمة لطيفة ودعوة ودافئة. يبدو صادقا ومهتما.
style="gentle" يعبر عن نغمة خفيفة ومهذبة وممتعة، مع درجة حرارة أقل وطاقة صوتية.
style="hopeful" يعبر عن نغمة دافئة وتوق. يبدو أنه من المتوقع أن يحدث شيء جيد للمتحدث.
style="lyrical" يعبر عن المشاعر بطريقة لحني وعاطفية.
style="narration-professional" يعبر عن نغمة مهنية وموضوعية لقراءة المحتوى.
style="narration-relaxed" يعبر عن نغمة مهدئة ولحنة لقراءة المحتوى.
style="newscast" يعبر عن نغمة رسمية واحترافية لسرد الأخبار.
style="newscast-casual" يعبر عن نغمة متعددة الاستخدامات وغير رسمية لتسليم الأخبار العامة.
style="newscast-formal" يعبر عن نغمة رسمية وثقة ومخولة لتسليم الأخبار.
style="poetry-reading" يعبر عن نغمة عاطفية والإيقاعية أثناء قراءة قصيدة.
style="sad" يعبر عن نبرة حزينة.
style="serious" يعبر عن نغمة صارمة والأوامر. غالبا ما يبدو المتحدث أكثر صلابة وأقل استرخاء مع إيقاع ثابت.
style="shouting" يعبر عن نغمة تبدو كما لو أن الصوت بعيد أو في موقع آخر ويبذل جهدا لكي يسمع بوضوح.
style="sports_commentary" يعبر عن نغمة مريحة ومهتمة لبث حدث رياضي.
style="sports_commentary_excited" يعبر عن نبرة مكثفة ونشطة لبث لحظات مثيرة في حدث رياضي.
style="whispering" يعبر عن نغمة ناعمة تحاول جعل صوت هادئ ولطيف.
style="terrified" يعبر عن نغمة خائفة، مع سرعة أسرع وصوت أكثر هزة. يبدو أن السماعة في حالة غير محمومة ومحمومة.
style="unfriendly" يعبر عن نغمة باردة وغير مبالية.

يحتوي الجدول التالي على أوصاف لكل سمة معتمدة role :

الدور الوصف
role="Girl" الصوت يقلد فتاة
role="Boy" الصوت يقلد ولدا
role="YoungAdultFemale" الصوت يقلد أنثى شابة بالغة.
role="YoungAdultMale" الصوت يقلد ذكرا شابا بالغا.
role="OlderAdultFemale" الصوت يقلد أنثى كبيرة السن.
role="OlderAdultMale" الصوت يقلد ذكرا بالغا أكبر سنا.
role="SeniorFemale" الصوت يقلد أنثى كبيرة.
role="SeniorMale" الصوت يقلد ذكرا كبيرا.

أمثلة على mstts express-as

للحصول على معلومات حول القيم المعتمدة لسمات mstts:express-as العنصر، راجع استخدام أنماط وأدوار التحدث.

مثال على النمط والدرجة

يمكنك استخدام mstts:express-as العنصر للتعبير عن العواطف مثل البهجة والتعاطف والهدوء. يمكنك أيضا تحسين الصوت لسيناريوهات مختلفة مثل خدمة العملاء، ونشرة الأخبار، والمساعد الصوتي.

يستخدم <mstts:express-as> مثال SSML التالي العنصر بدرجة sad نمط من 2.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        <mstts:express-as style="sad" styledegree="2">
            快走吧,路上一定要注意安全,早去早回。
        </mstts:express-as>
    </voice>
</speak>

مثال على الدور

بصرف النظر عن ضبط أنماط التحدث ودرجة النمط، يمكنك أيضا ضبط المعلمة role بحيث يقلد الصوت عمرا وجنسا مختلفا. على سبيل المثال، يمكن للصوت الذكوري رفع درجة الصوت وتغيير الرجم لتقليد صوت أنثى، ولكن لا يتغير اسم الصوت.

يوضح مقتطف SSML هذا كيفية استخدام السمة role لتغيير تشغيل الدور ل zh-CN-XiaomoNeural.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
    <voice name="zh-CN-XiaomoNeural">
        女儿看见父亲走了进来,问道:
        <mstts:express-as role="YoungAdultFemale" style="calm">
            “您来的挺快的,怎么过来的?”
        </mstts:express-as>
        父亲放下手提包,说:
        <mstts:express-as role="OlderAdultMale" style="calm">
            “刚打车过来的,路上还挺顺畅。”
        </mstts:express-as>
    </voice>
</speak>

مثال على نمط الصوت المخصص

يمكنك تدريب صوتك المخصص للتحدث مع بعض الأنماط المعينة مسبقا مثل cheerfulو sadو whispering. يمكنك أيضا ضبط صوت احترافي للتحدث بأسلوب مخصص كما تحدده بيانات التدريب الخاصة بك. لاستخدام نمط الصوت المخصص في SSML، حدد اسم النمط الذي أدخلته مسبقا في Speech Studio.

يستخدم هذا المثال صوت مخصص يسمى my-custom-voice. يتحدث الصوت المخصص بنمط cheerful معين مسبقا ودرجة النمط من 2، ثم بنمط مخصص يسمى my-custom-style ودرجة النمط من 0.01.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="my-custom-voice">
        <mstts:express-as style="cheerful" styledegree="2">
            That'd be just amazing!
        </mstts:express-as>
        <mstts:express-as style="my-custom-style" styledegree="0.01">
            What's next?
        </mstts:express-as>
    </voice>
</speak>

معرف ملف تعريف المتحدث

يمكنك استخدام mstts:ttsembedding العنصر لتحديد الخاصية speakerProfileIdلصوت شخصي. الصوت الشخصي هو صوت مخصص مدرب على صوتك أو صوت العميل. لمزيد من المعلومات، راجع إنشاء صوت شخصي.

يستخدم <mstts:ttsembedding> مثال SSML التالي العنصر مع اسم صوت ومعرف ملف تعريف السماعة.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'> 
    <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
    I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.  
    </mstts:ttsembedding> 
    </voice> 
</speak> 

ضبط لغات التحدث

بشكل افتراضي، يمكن للأصوات متعددة اللغات الكشف التلقائي عن لغة نص الإدخال والتحدث بلغة الإعدادات المحلية الافتراضية لنص الإدخال دون استخدام SSML. اختياريا، يمكنك استخدام <lang xml:lang> العنصر لضبط لغة التحدث لهذه الأصوات لتعيين اللهجة المفضلة مثل en-GB الإنجليزية البريطانية. يمكنك ضبط لغة التحدث على مستوى الجملة ومستوى الكلمة. للحصول على معلومات حول اللغات المدعومة للصوت متعدد اللغات، راجع الأصوات متعددة اللغات باستخدام عنصر lang لجدول يعرض <lang> تعريفات بناء الجملة والسمات.

يصف الجدول التالي استخدام <lang xml:lang> سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
xml:lang اللغة التي تريد أن يتحدثها الصوت العصبي. مطلوب لضبط لغة التحدث للصوت العصبي. إذا كنت تستخدم lang xml:lang، يجب توفير إعدادات محلية.

ملاحظة

<lang xml:lang> العنصر غير متوافق مع عنصري prosody وbreak. لا يمكنك ضبط الإيقاف المؤقت والمحترفين مثل درجة الصوت أو الكنتوري أو المعدل أو مستوى الصوت في هذا العنصر.

لا تدعم <lang xml:lang> الأصوات غير متعددة اللغات العنصر حسب التصميم.

أصوات متعددة اللغات مع عنصر lang

استخدم قسم الأصوات متعددة اللغات لتحديد لغات التحدث التي تدعمها خدمة الكلام لكل صوت عصبي، كما هو موضح في جدول المثال التالي. إذا كان الصوت لا يتحدث لغة نص الإدخال، فلن تقوم خدمة الكلام إخراج الصوت المركب.

الصوت رقم اللغة المكتشف تلقائيا لغة تم الكشف عنها تلقائيا (إعدادات محلية) كافة الأرقام المحلية جميع اللغات (المحلية) المدعومة من SSML
en-US-AndrewMultilingualNeural 1 (ذكر)
en-US-AvaMultilingualNeural 1 (أنثى)
en-US-BrianMultilingualNeural 1 (ذكر)
en-US-EmmaMultilingualNeural 1 (أنثى)
77 الأفريكانية (af-ZA)، الألبانية (sq-AL)، الأمهرية (am-ET)، العربية (ar-EG)، الأرمنية (hy-AM)، الأذربيجانية (az-AZ)، البهاسا الإندونيسية (id-ID)، البنغالية (bn-BD)، الباسكية (eu-ES)، البنغالية ()، البوسنية (bn-INbs-BA)، البلغارية (bg-BG)، البورمية ()، الكاتالونية (my-MMca-ES)، الصينية الكانتونية (zh-HK)، الصينية الماندارين (zh-CN)، الصينية التايوانية (zh-TW)، الكرواتية (hr-HR)، التشيكية (cs-CZ)، الدنماركية (da-DK)، الهولندية (nl-NL)، الإنجليزية (en-US)، الإستونية (et-EE)، الفلبينية (fil-PH)، الفنلندية (fi-FI)، الفرنسية (fr-FR)، الجاليقية (gl-ES)، الجورجية (ka-GE)، الألمانية (de-DE)، اليونانية (el-GR)، العبرية (he-IL)، الهندية (hi-IN)، المجرية (hu-HU)، الأيسلندية (is-IS)، الأيرلندية (ga-IE)، الإيطالية (it-IT)، اليابانية (ja-JP)، الباوية (jv-ID)، الكانادا (kn-IN)، الكازاخستانية (kk-KZ)، الخميرية (km-KH)، الكورية (ko-KR)، لاو (lo-LA)، اللاتفية (lv-LV)، الليتوانية (lt-LT)، المقدونية (mk-MK)، الماليزية (ms-MY)، المالايالامية (ml-IN)، المالطية (mt-MT)، المنغولية (mn-MN)، النيبالية (ne-NP)، النرويجية بوكمال (nb-NO)، الباشتو (ps-AF)، الفارسية (fa-IR)، البولندية (pl-PL)، البرتغالية (pt-BR)، الرومانية (ro-RO)، الروسية (ru-RU)، الصربية (sr-RS)، السنهالية (si-LK)، السلوفاكية (sk-SK)، السلوفاكية (sl-SI)، الصومالية (so-SO)، الإسبانية (es-ES)، الصاندية (su-ID)، السواحيلية ()، السويدية (sw-KEsv-SE)، التاميلية (ta-IN)، التيلوجو ()، التايلاندية (te-INth-TH)، التركية (tr-TR)، الأوكرانية (uk-UA)، الأردية (ur-PK)، الأوزبكية (uz-UZ)، الفيتنامية (vi-VN)، الويلزية (cy-GB)، الزولو (zu-ZA) 91 الأفريكانية (جنوب أفريقيا) (af-ZA)، الألبانية (ألبانيا) (sq-AL)، الأمهرية (إثيوبيا) (am-ET)، العربية (مصر) (ar-EG)، العربية (المملكة العربية السعودية) (ar-SA)، الأرمن (أرمينيا) (hy-AM)، الأذربيجانية (أذربيجان) (az-AZ)، الباسك (الباسك) (eu-ES)، البنغالية (الهند) (bn-IN)، البوسنية (البوسنة والهرسك) (bs-BA)، البلغارية (بلغاريا) (bg-BG)، البورمية (ميانمار) (my-MM)، الكاتالونية (إسبانيا) (ca-ES)، الصينية (الكانتونية، التقليدية) (zh-HK)، الصينية (الماندارين، المبسطة) (zh-CN)، الصينية (الماندارين التايوانية) ( zh-TW)، الكرواتية (كرواتيا) (hr-HR)، التشيكية (التشيكية) (cs-CZ)، الدنماركية (الدنمارك) (da-DK)، الهولندية (بلجيكا) (nl-BE)، الهولندية (هولندا) (nl-NL)، الإنجليزية (أستراليا) (en-AU)، الإنجليزية (كندا) (en-CA)، الإنجليزية (هونغ كونغ SAR) (en-HK)، الإنجليزية (الهند) (en-IN)، الإنجليزية (أيرلندا) (en-IE)، الإنجليزية (المملكة المتحدة) (en-GB)، الإنجليزية (الولايات المتحدة) (en-US)، الإستونية (إستونيا) (et-EE)، الفلبينية (الفلبين) (fil-PH)، الفنلندية (فنلندا) (fi-FI)، الفرنسية (بلجيكا) (fr-BE)، الفرنسية (كندا) (fr-CA)، الفرنسية (فرنسا) (fr-FR)، الفرنسية (سويسرا) (fr-CH)، الجاليقية (الجاليقية) (gl-ES)، الجورجية (جورجيا) (ka-GE)، الألمانية (النمسا) (de-AT)، الألمانية (ألمانيا) (de-DE)، الألمانية (سويسرا) (de-CH)، اليونانية (اليونان) (el-GR)، العبرية (إسرائيل) (he-IL)، الهندية (الهند) (hi-IN)، المجرية (المجر) (hu-HU)، الأيسلندية (أيسلندا) (is-IS)، الإندونيسية (إندونيسيا) (id-ID)، الأيرلندية (أيرلندا) (ga-IE)، الإيطالية (إيطاليا) (it-IT)، اليابانية (اليابان) (ja-JP)، Javanese (إندونيسيا) (jv-ID)، كانادا (الهند) ( kn-IN)، الكازاخستانية (كازاخستان) (kk-KZ)، الخميرية (كمبوديا) (km-KH)، الكورية (كوريا) (ko-KR)، لاو (لاوس) (lo-LA)، لاتفيا (لاتفيا) (lv-LV)، الليتوانية (ليتوانيا) (lt-LT)، المقدونية (مقدونيا الشمالية) (mk-MK)، الماليزية (ماليزيا) (ms-MY)، المالايالام (الهند) (ml-IN)، المالطية (مالطا) (mt-MT)، المنغولية (منغوليا) (mn-MN)، النيبالية (نيبال) (ne-NP)، النرويجية (بوكمال، النرويج) (nb-NO)، الباشتو (أفغانستان) (ps-AF)، الفارسية (إيران) (fa-IR)، البولندية (بولندا) (pl-PL)، البرتغالية (البرازيل) (pt-BR)، البرتغالية (البرتغال) (pt-PT)، الرومانية (رومانيا) (ro-RO)، الروسية (روسيا) (ru-RU)، الصربية (السيريلية، صربيا) (sr-RS)، السنهالية (سري لانكا) (si-LK)، السلوفاكية (سلوفاكيا) (sk-SK)، السلوفينية (سلوفينيا) (sl-SI)، الصومالية (الصومال) (so-SO)، الإسبانية (المكسيك) (es-MX)، الإسبانية (إسبانيا) (es-ES)، السندانية (إندونيسيا) (su-ID)، السواحيلية (كينيا) (sw-KE)، السويدية (السويد) (sv-SE)، التاميلية (الهند) (ta-IN)، التيلوج (الهند) (te-IN)، التايلاندية (تايلاند) (th-TH)، التركية (توركي) (tr-TR))، الأوكرانية (أوكرانيا) (uk-UA)، الأوردية (باكستان) (ur-PK)، الأوزبكية (أوزبكستان) (uz-UZ)، الفيتنامية (فيتنام) (vi-VN)، الويلزية (المملكة المتحدة) (cy-GB)، الزولو (جنوب أفريقيا) (zu-ZA)

1 هذه أصوات عصبية متعددة اللغات في Azure الذكاء الاصطناعي Speech. يمكن لجميع الأصوات متعددة اللغات التحدث باللغة في الإعدادات المحلية الافتراضية لنص الإدخال دون استخدام SSML. ومع ذلك، لا يزال بإمكانك استخدام <lang xml:lang> العنصر لضبط التمييز المتحدث لكل لغة لتعيين التمييز المفضل مثل التمييز البريطاني (en-GB) للغة الإنجليزية. تشير البادئة في كل اسم صوتي إلى الإعدادات المحلية الأساسية الخاصة بها؛ على سبيل المثال، تكون اللغة الأساسية ل en-US-AndrewMultilingualNeural هي en-US.

ملاحظة

لا تدعم الأصوات متعددة اللغات عناصر SSML معينة بشكل كامل، مثل breakو emphasissilenceو وsub.

أمثلة على Lang

للحصول على معلومات حول القيم المدعومة لسمات lang العنصر، راجع ضبط لغة التحدث.

يجب تحديد en-US كلغة افتراضية speak داخل العنصر، سواء تم ضبط اللغة في مكان آخر أم لا. في هذا المثال، اللغة الأساسية ل en-US-AvaMultilingualNeural هي en-US.

توضح قصاصة SSML هذه كيفية استخدام <lang xml:lang> التحدث de-DE مع en-US-AvaMultilingualNeural الصوت العصبي.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="de-DE">
            Wir freuen uns auf die Zusammenarbeit mit Ihnen!
        </lang>
    </voice>
</speak>

speak ضمن العنصر، يمكنك تحديد لغات متعددة بما في ذلك en-US إخراج النص إلى الكلام. لكل لغة معدلة، يجب أن يتطابق النص مع اللغة وأن يكون ملتفا في عنصر voice . يوضح مقتطف SSML هذا كيفية استخدام <lang xml:lang> لتغيير لغات التحدث إلى es-MXو en-USو fr-FR.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <lang xml:lang="es-MX">
            ¡Esperamos trabajar con usted!
        </lang>
        <lang xml:lang="en-US">
           We look forward to working with you!
        </lang>
        <lang xml:lang="fr-FR">
            Nous avons hâte de travailler avec vous!
        </lang>
    </voice>
</speak>

ضبط prosody

يمكنك استخدام prosody العنصر لتحديد التغييرات على درجة الصوت والتكبير والنطاق والمعدل ومستوى الصوت لإخراج النص إلى الكلام. prosody يمكن أن يحتوي العنصر على نص والعناصر التالية: audioو breakpو phonemeو. prosodysay-assubs

نظرا لأن قيم السمات prosodic يمكن أن تختلف عبر نطاق واسع، فإن أداة التعرف على الكلام تفسر القيم المعينة كاقتراح لما يجب أن تكون عليه القيم العرضية الفعلية للصوت المحدد. النص إلى كلام يحد من القيم غير المعتمدة أو يستبدلها. أمثلة على القيم غير المدعومة هي درجة 1 ميغاهرتز أو حجم 120.

يصف الجدول التالي استخدام prosody سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
contour يمثل Contour التغييرات في درجة الصوت. يتم تمثيل هذه التغييرات كصفيف من الأهداف في مواضع زمنية محددة في إخراج الكلام. تحدد مجموعات أزواج المعلمات كل هدف. على سبيل المثال:

<prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)">

تحدد القيمة الأولى في كل مجموعة من المعلمات موقع تغيير درجة الصوت كنسبة مئوية من مدة النص. تحدد القيمة الثانية المبلغ المطلوب رفعه أو خفضه باستخدام قيمة نسبية أو قيمة تعداد لقيمة العرض الترويجي (راجع pitch). لا يعمل مخطط العرض التقديمي على كلمات مفردة وعبارات قصيرة. يوصى بضبط مخطط العرض التقديمي على جمل كاملة أو عبارات طويلة.
اختياري
pitch الإشارة إلى حدة الصوت الأساسية للنص. يمكن تطبيق تغييرات العرض التقديمي على مستوى الجملة. يجب أن تكون تغييرات درجة الصوت في غضون 0.5 إلى 1.5 مرة من الصوت الأصلي. يمكنك التعبير عن العرض التقديمي على النحو التالي:
  • قيمة مطلقة: يتم التعبير عنها كعدد متبوعا ب "Hz" (Hertz). على سبيل المثال، <prosody pitch="600Hz">some text</prosody>.
  • قيمة نسبية:
    • كعدد نسبي: يتم التعبير عنه كرقم يسبقه "+" أو "-" متبوعا ب "Hz" أو "st" يحدد مبلغا لتغيير درجة الصوت. على سبيل المثال: <prosody pitch="+80Hz">some text</prosody> أو <prosody pitch="-2st">some text</prosody>. يشير "st" إلى أن وحدة التغيير نصف نغمة، وهي نصف نغمة (نصف خطوة) على مقياس الدياتوني القياسي.
    • كنسبة مئوية: يتم التعبير عنه كعدد يسبقه "+" (اختياريا) أو "-" متبوعا ب "%"، مما يشير إلى التغيير النسبي. على سبيل المثال: <prosody pitch="50%">some text</prosody> أو <prosody pitch="-50%">some text</prosody>.
  • قيمة ثابتة:
    • x-low (ما يعادل 0.55,-45%)
    • low (ما يعادل 0.8، -20%)
    • medium (ما يعادل 1، القيمة الافتراضية)
    • high (ما يعادل 1.2، +20%)
    • x-high (ما يعادل 1.45، +45%)
اختياري
range قيمة تمثل نطاق العرض التقديمي للنص. يمكنك التعبير range باستخدام نفس القيم المطلقة أو القيم النسبية أو قيم التعداد المستخدمة لوصف pitch. اختياري
rate الإشارة إلى سرعة الكلام للنص. يمكن تطبيق معدل التحدث على مستوى الكلمة أو الجملة. يجب أن تكون تغييرات المعدل ضمن 0.5 أوقات 2 الصوت الأصلي. يمكنك التعبير عن rate ما يلي:
  • قيمة نسبية:
    • كعدد نسبي: يتم التعبير عنه كرقم يعمل كمضاعف للعدد الافتراضي. على سبيل المثال، لا ينتج عن 1 قيمة أي تغيير في المعدل الأصلي. ينتج عن 0.5 قيمة خفض المعدل الأصلي إلى النصف. ينتج عن 2 قيمة ضعف المعدل الأصلي.
    • كنسبة مئوية: يتم التعبير عنه كعدد يسبقه "+" (اختياريا) أو "-" متبوعا ب "%"، مما يشير إلى التغيير النسبي. على سبيل المثال: <prosody rate="50%">some text</prosody> أو <prosody rate="-50%">some text</prosody>.
  • قيمة ثابتة:
    • x-slow (ما يعادل 0.5، -50%)
    • slow (ما يعادل 0.64، -46%)
    • medium (ما يعادل 1، القيمة الافتراضية)
    • fast (ما يعادل 1.55، +55%)
    • x-fast (ما يعادل 2, +100%)
اختياري
volume الإشارة إلى مستوى صوت الكلام المنطوق. يمكن تطبيق تغييرات مستوى الصوت على مستوى الجملة. يمكنك التعبير عن وحدة التخزين على النحو التالي:
  • قيمة مطلقة: يتم التعبير عنها كعدد في نطاق 0.0 إلى 100.0، من الأكثر هدوءا إلى الأعلى، مثل 75. القيمة الافتراضية هي 100.0.
  • قيمة نسبية:
    • كرقم نسبي: يتم التعبير عنه كرقم يسبقه "+" أو "-" يحدد مبلغا لتغيير وحدة التخزين. الأمثلة هي +10 أو -5.5.
    • كنسبة مئوية: يتم التعبير عنه كعدد يسبقه "+" (اختياريا) أو "-" متبوعا ب "%"، مما يشير إلى التغيير النسبي. على سبيل المثال: <prosody volume="50%">some text</prosody> أو <prosody volume="+3%">some text</prosody>.
  • قيمة ثابتة:
    • silent (ما يعادل 0)
    • x-soft (ما يعادل 0.2)
    • soft (ما يعادل 0.4)
    • medium (ما يعادل 0.6)
    • loud (ما يعادل 0.8)
    • x-loud (ما يعادل 1، القيمة الافتراضية)
اختياري

أمثلة Prosody

للحصول على معلومات حول القيم المدعومة لسمات prosody العنصر، راجع ضبط prosody.

تغيير مثال معدل التحدث

يوضح مقتطف SSML هذا كيفية استخدام السمة rate لتغيير معدل التحدث إلى 30% أكبر من المعدل الافتراضي.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody rate="+30.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

تغيير مثال وحدة التخزين

يوضح مقتطف SSML هذا كيفية استخدام السمة volume لتغيير وحدة التخزين إلى 20% أكبر من وحدة التخزين الافتراضية.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody volume="+20.00%">
            Enjoy using text to speech.
        </prosody>
    </voice>
</speak>

تغيير مثال العرض التقديمي

يوضح مقتطف SSML هذا كيفية استخدام السمة pitch بحيث يتحدث الصوت في درجة عالية.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
    </voice>
</speak>

مثال تغيير مخطط العرض التقديمي

يوضح مقتطف SSML هذا كيفية استخدام السمة contour لتغيير المخطط.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <prosody contour="(60%,-60%) (100%,+80%)" >
            Were you the only person in the room?
        </prosody>
    </voice>
</speak>

ضبط التوكيد

يمكنك استخدام العنصر الاختياري emphasis لإضافة أو إزالة الإجهاد على مستوى الكلمات للنص. يمكن أن يحتوي هذا العنصر فقط على نص والعناصر التالية: audioو breakو emphasislangوphonemeprosodysay-assub.voice

ملاحظة

يتوفر ضبط التوكيد على مستوى الكلمة فقط لهذه الأصوات العصبية: en-US-GuyNeuralو en-US-DavisNeuralو.en-US-JaneNeural

بالنسبة للكلمات ذات درجة الصوت المنخفضة والمدة القصيرة، قد لا يتم رفع العرض بدرجة كافية ليتم ملاحظته.

يصف emphasis الجدول التالي سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
level يشير إلى قوة التوكيد الذي سيتم تطبيقه:
  • reduced
  • none
  • moderate
  • strong

عندما لا يتم تحديد السمة level ، يكون المستوى الافتراضي هو moderate. للحصول على تفاصيل حول كل سمة، راجع عنصر التوكيد.
اختياري

أمثلة التوكيد

للحصول على معلومات حول القيم المدعومة لسمات emphasis العنصر، راجع ضبط التوكيد.

يوضح مقتطف SSML هذا كيف يمكنك استخدام emphasis العنصر لإضافة تركيز متوسط المستوى لكلمة "اجتماعات".

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice name="en-US-AndrewMultilingualNeural">
    I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
    </voice>
</speak>

إضافة صوت مسجل

audioالعنصر اختياري. يمكنك استخدامه لإدراج صوت مسجل مسبقا في مستند SSML. يمكن أن يحتوي نص العنصر على audio نص عادي أو علامات SSML المنطوقة إذا كان الملف الصوتي غير متوفر أو غير قابل للتشعب. audio يمكن أن يحتوي العنصر أيضا على نص والعناصر التالية: audioو breakو psو. phonemeprosodysay-assub

يجب أن يفي أي صوت مضمن في مستند SSML بهذه المتطلبات:

  • يجب أن يكون الملف الصوتي صالحا *.mp3أو *.wav أو *.opus أو *.ogg أو *.flac أو *.wma .
  • لا يمكن أن يتجاوز إجمالي الوقت المدمج لجميع الملفات النصية والصوتية في استجابة واحدة 600 ثانية.
  • يجب ألا يحتوي الصوت على أي معلومات حساسة خاصة بالعميل أو أي معلومات حساسة أخرى.

ملاحظة

audio العنصر غير مدعوم من قبل Long Audio API. بالنسبة إلى النص طويل النموذج إلى كلام، استخدم واجهة برمجة تطبيقات تجميع الدفعات بدلا من ذلك.

يصف الجدول التالي استخدام audio سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
src موقع URI للملف الصوتي. يجب استضافة الصوت على نقطة نهاية HTTPS يمكن الوصول إليها عبر الإنترنت. HTTPS مطلوب. يجب أن يقدم المجال الذي يستضيف الملف شهادة TLS/SSL صالحة وموثوقة. يجب وضع الملف الصوتي في Blob Storage في نفس منطقة Azure مثل النص إلى نقطة نهاية الكلام لتقليل زمن الانتقال. مطلوب

أمثلة صوتية

للحصول على معلومات حول القيم المعتمدة لسمات audio العنصر، راجع إضافة صوت مسجل.

يوضح مقتطف SSML هذا كيفية استخدام src السمة لإدراج صوت من ملفين .wav.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
        <p>
            <audio src="https://contoso.com/opinionprompt.wav"/>
            Thanks for offering your opinion. Please begin speaking after the beep.
            <audio src="https://contoso.com/beep.wav">
                Could not play the beep, please voice your opinion now.
            </audio>
        </p>
    </voice>
</speak>

ضبط مدة الصوت

mstts:audioduration استخدم العنصر لتعيين مدة صوت الإخراج. استخدم هذا العنصر للمساعدة في مزامنة توقيت إكمال إخراج الصوت. يمكن تقليل مدة الصوت أو زيادتها بين 0.5 معدل الصوت الأصلي ومراته 2 . الصوت الأصلي هو الصوت دون أي إعدادات سعر أخرى. يتم إبطاء معدل التحدث أو رفعه وفقا لذلك استنادا إلى القيمة المحددة.

ينطبق إعداد مدة الصوت على كل نص الإدخال داخل عنصر إحاطته voice . لإعادة تعيين إعداد مدة الصوت أو تغييره مرة أخرى، يجب استخدام عنصر جديد voice بنفس الصوت أو بصوت مختلف.

يصف الجدول التالي استخدام mstts:audioduration سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
value المدة المطلوبة لصوت الإخراج إما في ثوان، مثل 2s، أو مللي ثانية، مثل 2000ms.

الحد الأقصى لقيمة مدة صوت الإخراج هو 300 ثانية. يجب أن تكون هذه القيمة ضمن 0.5 أوقات 2 الصوت الأصلي دون أي إعدادات سعر أخرى. على سبيل المثال، إذا كانت المدة المطلوبة للصوت هي 30s، فيجب أن يتراوح الصوت الأصلي بين 15 و60 ثانية. إذا قمت بتعيين قيمة خارج هذه الحدود، يتم تعيين المدة وفقا للحد الأدنى أو الأقصى للمضاعف المعني. بالنسبة لصوت الإخراج الذي يزيد عن 300 ثانية، قم أولا بإنشاء الصوت الأصلي دون أي إعدادات سعر أخرى، ثم حساب المعدل للضبط باستخدام معدل prosody لتحقيق المدة المطلوبة.
مطلوب

أمثلة على مدة صوت mstts

للحصول على معلومات حول القيم المعتمدة لسمات mstts:audioduration العنصر، راجع ضبط مدة الصوت.

في هذا المثال، يبلغ الصوت الأصلي حوالي 15 ثانية. mstts:audioduration يتم استخدام العنصر لتعيين مدة الصوت إلى 20 ثانية أو 20s.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>

إضافة صوت الخلفية

يمكنك استخدام mstts:backgroundaudio العنصر لإضافة صوت الخلفية إلى مستندات SSML أو خلط ملف صوتي مع نص إلى كلام. باستخدام mstts:backgroundaudio، يمكنك تكرار ملف صوتي في الخلفية، وتلاشى في بداية النص إلى كلام، وتتلاشى في نهاية النص إلى كلام.

إذا كان الصوت في الخلفية المتوفر أقصر من النص إلى كلام أو تلاشي للخارج، فإنه يتكرر. إذا كان أطول من النص إلى كلام، فإنه يتوقف عند الانتهاء من التلاشي.

يسمح بملف صوت خلفية واحد فقط لكل مستند SSML. يمكنك دمج audio العلامات داخل voice العنصر لإضافة المزيد من الصوت إلى مستند SSML.

ملاحظة

mstts:backgroundaudio يجب وضع العنصر أمام جميع voice العناصر. إذا تم تحديده، يجب أن يكون أول تابع للعنصر speak .

mstts:backgroundaudio العنصر غير مدعوم من قبل Long Audio API. بالنسبة إلى النص طويل النموذج إلى كلام، استخدم واجهة برمجة تطبيقات تجميع الدفعات (معاينة) بدلا من ذلك.

يصف الجدول التالي استخدام mstts:backgroundaudio سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
src موقع URI لملف الصوت في الخلفية. مطلوب
volume مستوى صوت ملف الصوت في الخلفية. القيم المقبولة: 0 إلى 100 شاملة. القيمة الافتراضية هي 1. اختياري
fadein مدة تلاشي الصوت في الخلفية بالمللي ثانية. القيمة الافتراضية هي 0، وهي تكافئ عدم الزيادة التدريجية للصوت. القيم المقبولة: 0 إلى 10000 شاملة. اختياري
fadeout مدة تلاشي الصوت في الخلفية بالمللي ثانية. القيمة الافتراضية هي 0، وهي ما يعادل عدم التلاشي. القيم المقبولة: 0 إلى 10000 شاملة. اختياري

أمثلة mstss backgroundaudio

للحصول على معلومات حول القيم المعتمدة لسمات mstts:backgroundaudi العنصر، راجع إضافة صوت الخلفية.

<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
    <mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
    <voice name="en-US-AvaMultilingualNeural">
        The text provided in this document are spoken over the background audio.
    </voice>
</speak>

عنصر Viseme

viseme هو الوصف المرئي لهاتف بلغة منطوقة. وهو يحدد موضع الوجه والفم بينما يتحدث الشخص. يمكنك استخدام العنصر في mstts:viseme SSML لطلب إخراج viseme. لمزيد من المعلومات، راجع الحصول على موضع الوجه باستخدام viseme.

يتم تطبيق إعداد viseme على كل نص الإدخال داخل عنصر الضم الخاص به voice . لإعادة تعيين إعداد viseme أو تغييره مرة أخرى، يجب استخدام عنصر جديد voice بنفس الصوت أو بصوت مختلف.

viseme يتم وصف استخدام سمات العنصر في الجدول التالي.

السمة الوصف مطلوبة أو اختيارية
type نوع إخراج viseme.
  • redlips_front – مزامنة الشفة مع معرف viseme وإخراج إزاحة الصوت
  • FacialExpression – مزج إخراج الأشكال
مطلوب

ملاحظة

حاليا، redlips_front يدعم فقط الأصوات العصبية في en-US لغة، ويدعم FacialExpression الأصوات العصبية في en-US و zh-CN المحلية.

أمثلة Viseme

تم وصف القيم المدعومة لسمات viseme العنصر مسبقا.

يوضح مقتطف SSML هذا كيفية طلب مزج الأشكال مع الكلام المركب.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
  <voice name="en-US-AvaNeural">
    <mstts:viseme type="FacialExpression"/>
    Rainbow has seven colors: Red, orange, yellow, green, blue, indigo, and violet.
  </voice>
</speak>

عنصر تحويل الصوت

تحويل الصوت (معاينة) هو عملية تحويل الخصائص الصوتية لصوت معين إلى سماعة صوت مستهدفة. بعد تحويل الصوت، يحتفظ الصوت الناتج بالمحتوى اللغوي للصوت المصدر والمحترفين بينما يبدو الصوت مثل السماعة الهدف. لمزيد من المعلومات، راجع تحويل الصوت.

استخدم العلامة <mstts:voiceconversion> عبر Speech Synthesis Markup Language (SSML) لتحديد عنوان URL الصوتي المصدر والصوت الهدف للتحويل. للحصول على قائمة كاملة بالأصوات المستهدفة المدعومة، راجع الأصوات المدعومة لتحويل الصوت.

يصف الجدول التالي استخدام mstts:voiceconversion سمات العنصر:

السمة الوصف مطلوبة أو اختيارية
url عنوان URL لملف الصوت المصدر الذي يوفر محتوى لغويا ومحترفا للكلام المركب.

url يجب أن يكون الوصول إليه متاحا عبر HTTPS URL. على سبيل المثال، https://example.com/source.wav

يجب أن يكون صوت الإدخال أقل من 100 ميغابايت.
مطلوب

فيما يلي كيفية عمل تحويل الصوت:

  • الصوت المصدر هو ملف صوتي مسجل مسبقا يحتوي على الكلمات المنطوقة والمحترفين.
    • محتوى النص: يتبع الكلام النهائي المركب الكلمات المنطوقة في الصوت المصدر.
    • Prosody والإيقاع: يحافظ الكلام على التوقيت والتجميع من المصدر.
  • <voice> تحدد العلامة الصوت الهدف المستخدم لصوت الإخراج. للحصول على معلومات حول الأصوات المستهدفة المدعومة، راجع الأصوات المدعومة لتحويل الصوت.
  • يحافظ صوت الإخراج على تيمبر (نغمة وجودة الصوت) للصوت الهدف، ولكنه يتبع النص ونمط التحدث للصوت المصدر.

ملاحظة

يتم تجاهل جميع عناصر SSML المتعلقة بالتجسيد والنطق مثل <prosody> أو <mstts:express-as> .

إدخال النص اختياري ويتم تجاهل أي نص مضمن في SSML أثناء العرض.

أمثلة على تحويل الصوت mstss

يوضح المثال التالي كيفية استخدام <mstts:voiceconversion> لتجميع الكلام باستخدام صوت عصبي مستهدف أثناء مطابقة كل من المحتوى والمحترفين لصوت مصدر معين:

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
    <voice xml:lang="en-US" xml:gender="Female" name="en-US-AvaMultilingualNeural">
        <mstts:voiceconversion url="https://your.blob.core.windows.net/sourceaudio.wav"/>
    </voice>
</speak>

الخطوات التالية