استخدام الصوت الشخصي في تطبيقك
يمكنك استخدام معرف ملف تعريف المتحدث لصوتك الشخصي لتجميع الكلام بأي من 91 لغة مدعومة عبر أكثر من 100 لغة. علامة اللغة غير مطلوبة. يستخدم الصوت الشخصي الكشف التلقائي عن اللغة على مستوى الجملة.
دمج الصوت الشخصي في تطبيقك
تحتاج إلى استخدام لغة ترميز تركيب الكلام (SSML) لاستخدام الصوت الشخصي في تطبيقك. SSML هي لغة ترميز مستندة إلى XML توفر طريقة قياسية لتمييز النص لإنشاء الكلام الاصطناعي. تستخدم علامات SSML للتحكم في النطق ومستوى الصوت والنبرة والمعدل والسمات الأخرى لإخراج تركيب الكلام.
speakerProfileId
يتم استخدام الخاصية في SSML لتحديد معرف ملف تعريف المتحدث للصوت الشخصي.يتم تحديد اسم الصوت في الخاصية
name
في SSML. بالنسبة للصوت الشخصي، يجب أن يكون اسم الصوت أحد الأسماء الصوتية المعتمدة للنموذج الأساسي. للحصول على قائمة بالأسماء الصوتية للنموذج الأساسي المدعوم، استخدم BaseModels_List تشغيل واجهة برمجة التطبيقات الصوتية المخصصة.إشعار
سيتم تحديث الأسماء الصوتية المسماة ب
Latest
، مثلDragonLatestNeural
أوPhoenixLatestNeural
، من وقت لآخر؛ قد يختلف أدائها مع تحديثات التحسينات المستمرة. إذا كنت ترغب في استخدام إصدار ثابت، فحدد إصدارا مسمى برقم إصدار، مثلPhoenixV2Neural
.DragonLatestNeural
هو نموذج أساسي مع تشابه فائق في استنساخ الصوت مقارنة بPhoenixLatestNeural
.PhoenixLatestNeural
هو نموذج أساسي مع نطق أكثر دقة وزمن انتقال أقل منDragonLatestNeural
.بالنسبة للصوت الشخصي، يمكنك استخدام
<lang xml:lang>
العنصر لضبط لغة التحدث. كما هو الحال مع الأصوات متعددة اللغات. تعرف على كيفية استخدام عنصر lang للتحدث بلغات مختلفة.
فيما يلي مثال على SSML في طلب تحويل النص إلى كلام باسم الصوت ومعرف ملف تعريف المتحدث. يوضح النموذج أيضا كيفية تبديل اللغات من en-US
إلى zh-HK
استخدام <lang xml:lang>
العنصر.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
يمكنك استخدام SSML عبر Speech SDK أو REST API.
- تركيب الكلام في الوقت الحقيقي: استخدم Speech SDK أو REST API لتحويل النص إلى كلام.
- عند استخدام Speech SDK، لا تقم بتعيين معرف نقطة النهاية، تماما مثل صوت ما قبل البناء.
- عند استخدام واجهة برمجة تطبيقات REST، يرجى استخدام نقطة نهاية الأصوات العصبية التي تم إنشاؤها مسبقا.
الوثائق المرجعية
الخطوات التالية
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ