تدريب نموذج الصوت الاحترافي الخاص بك

في هذه المقالة، ستتعرف على كيفية تدريب صوت عصبي مخصص من خلال مدخل Speech Studio.

هام

يتوفر التدريب الصوتي العصبي المخصص حاليا فقط في بعض المناطق. بعد تدريب نموذج الصوت في منطقة مدعومة، يمكنك نسخه إلى مورد Speech في منطقة أخرى حسب الحاجة. لمزيد من المعلومات، راجع الحواشي السفلية في جدول خدمة الكلام.

تختلف مدة التدريب حسب كمية البيانات التي تستخدمها. يستغرق الأمر حوالي 40 ساعة حسابية في المتوسط لتدريب صوت عصبي مخصص. يمكن لمستخدمي الاشتراك القياسي (S0) تدريب أربعة أصوات في وقت واحد. إذا وصلت إلى الحد الأقصى، فانتظر حتى ينتهي واحد على الأقل من نماذجك الصوتية من التدريب، ثم حاول مرة أخرى.

إشعار

على الرغم من أن إجمالي عدد الساعات المطلوبة لكل طريقة تدريب يختلف، فإن سعر الوحدة نفسه ينطبق على كل منها. لمزيد من المعلومات، راجع تفاصيل تسعير التدريب العصبي المخصص.

اختيار أسلوب تدريب

بعد التحقق من صحة ملفات البيانات الخاصة بك، استخدمها لإنشاء نموذج الصوت العصبي المخصص الخاص بك. عند إنشاء صوت عصبي مخصص، يمكنك اختيار تدريبه باستخدام إحدى الطرق التالية:

  • العصبية: إنشاء صوت بنفس لغة بيانات التدريب الخاصة بك.

  • العصبية - عبر اللغات: إنشاء صوت يتحدث لغة مختلفة عن بيانات التدريب الخاصة بك. على سبيل المثال، باستخدام zh-CN بيانات التدريب، يمكنك إنشاء صوت يتحدث en-US.

    يجب أن تكون لغة بيانات التدريب واللغة المستهدفة إحدى اللغات المدعومة للتدريب الصوتي عبر اللغات. لا تحتاج إلى إعداد بيانات التدريب باللغة الهدف، ولكن يجب أن يكون البرنامج النصي للاختبار باللغة الهدف.

  • العصبية - متعددة الأنماط: إنشاء صوت عصبي مخصص يتحدث بأنماط وعواطف متعددة، دون إضافة بيانات تدريب جديدة. تعد أصوات الأنماط المتعددة مفيدة لأحرف ألعاب الفيديو روبوتات المحادثة والكتب الصوتية وقارئات المحتوى والمزيد.

    لإنشاء صوت متعدد الأنماط، تحتاج إلى إعداد مجموعة من بيانات التدريب العامة، على الأقل 300 كلمة. حدد نمطا واحدا أو أكثر من أنماط التحدث المستهدفة المحددة مسبقا. يمكنك أيضا إنشاء أنماط مخصصة متعددة من خلال توفير نماذج أنماط، من 100 تعبير على الأقل لكل نمط، كبيانات تدريب إضافية لنفس الصوت. تختلف أنماط الإعداد المسبق المدعومة وفقا للغات مختلفة. اطلع على أنماط الإعداد المسبق المتوفرة عبر لغات مختلفة.

يجب أن تكون لغة بيانات التدريب إحدى اللغات المدعومة للصوت العصبي المخصص أو التدريب عبر اللغات أو الأنماط المتعددة.

تدريب نموذج الصوت العصبي المخصص

لإنشاء صوت عصبي مخصص في Speech Studio، اتبع الخطوات التالية لأحد الطرق التالية:

  1. سجّل الدخول إلـى Speech Studio.

  2. حدد صوت<>مخصص اسم>>المشروع تدريب نموذج>تدريب نموذج جديد.

  3. حدد العصبية كطريقة تدريب للنموذج الخاص بك ثم حدد التالي. لاستخدام أسلوب تدريب مختلف، راجع العصبية - اللغات التبادلية أو العصبية - نمط متعدد.

    لقطة شاشة توضح كيفية تحديد التدريب العصبي.

  4. حدد إصدارا من وصفة التدريب للنموذج الخاص بك. يتم تحديد أحدث إصدار افتراضيًا. يمكن أن تختلف الميزات المدعومة ووقت التدريب حسب الإصدار. عادة، نوصي بأحدث إصدار. في بعض الحالات، يمكنك اختيار إصدار سابق لتقليل وقت التدريب. راجع التدريب ثنائي اللغة لمزيد من المعلومات حول التدريب ثنائي اللغة والاختلافات بين اللغات.

    إشعار

    سيتم إيقاف إصدارات V2.2021.07النموذج و V6.2022.11V4.2021.10V5.2022.05و و V9.2023.10 بحلول 1 أكتوبر 2024. لن تتأثر النماذج الصوتية التي تم إنشاؤها بالفعل على هذه الإصدارات المتوقفة.

  5. حدد البيانات التي تريد استخدامها للتدريب. تتم إزالة الأسماء الصوتية المكررة من التدريب. تأكد من أن البيانات التي تحددها لا تحتوي على نفس أسماء الصوت عبر ملفات .zip متعددة.

    يمكنك تحديد مجموعات البيانات التي تمت معالجتها بنجاح فقط للتدريب. إذا كنت لا ترى مجموعة التدريب الخاصة بك في القائمة، فتحقق من حالة معالجة البيانات.

  6. حدد ملف المتحدث مع بيان المواهب الصوتية الذي يتوافق مع المتحدث في بيانات التدريب الخاصة بك.

  7. حدد التالي.

  8. ينشئ كل تدريب 100 عينة من ملفات الصوت تلقائيا لمساعدتك في اختبار النموذج باستخدام برنامج نصي افتراضي.

    اختياريا، يمكنك أيضا تحديد إضافة البرنامج النصي للاختبار الخاص بي وتوفير برنامجك النصي للاختبار الخاص بك مع ما يصل إلى 100 تعبير لاختبار النموذج دون أي تكلفة إضافية. تعد الملفات الصوتية التي تم إنشاؤها مزيجا من البرامج النصية للاختبار التلقائي والبرامج النصية المخصصة للاختبار. لمزيد من المعلومات، راجع متطلبات البرنامج النصي للاختبار.

  9. أدخل اسما لمساعدتك في تحديد النموذج. اختر الاسم بعناية. يتم استخدام اسم النموذج كاسم صوتي في طلب تركيب الكلام بواسطة إدخال SDK وSSML. يُسمح فقط باستخدام الأحرف والأرقام وعدد قليل من علامات الترقيم. استخدم أسماء مختلفة لنماذج صوتية عصبية مختلفة.

  10. اختياريا، أدخل الوصف لمساعدتك في تحديد النموذج. الاستخدام الشائع للوصف هو تسجيل أسماء البيانات التي استخدمتها لإنشاء النموذج.

  11. حدد التالي.

  12. راجع الإعدادات وحدد المربع لقبول شروط الاستخدام.

  13. حدد إرسال لبدء تدريب النموذج.

تدريب ثنائي اللغة

إذا حددت نوع التدريب العصبي ، يمكنك تدريب صوت على التحدث بلغات متعددة. zh-CN تدعم اللغتان و zh-TW التدريب ثنائي اللغة للصوت للتحدث باللغتين الصينية والإنجليزية. اعتمادا جزئيا على بيانات التدريب الخاصة بك، يمكن للصوت المركب التحدث باللغة الإنجليزية بلكنة إنجليزية أصلية أو الإنجليزية بنفس لهجة بيانات التدريب.

إشعار

لتمكين صوت في zh-CN الإعدادات المحلية من التحدث باللغة الإنجليزية بنفس تشكيلة بيانات العينة، يجب أن تختار Chinese (Mandarin, Simplified), English bilingual عند إنشاء مشروع أو تحديد zh-CN (English bilingual) الإعدادات المحلية لبيانات مجموعة التدريب عبر واجهة برمجة تطبيقات REST.

يوضح الجدول التالي الاختلافات بين المجموعتين:

إعدادات Speech Studio المحلية إعدادات REST API المحلية دعم ثنائي اللغة
Chinese (Mandarin, Simplified) zh-CN إذا كانت بيانات العينة الخاصة بك تتضمن اللغة الإنجليزية، فإن الصوت المركب يتحدث الإنجليزية بلكنة أصلية إنجليزية، بدلا من نفس لهجة بيانات العينة، بغض النظر عن كمية البيانات الإنجليزية.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) إذا كنت تريد أن يتحدث الصوت المركب اللغة الإنجليزية بنفس تشكيلة بيانات العينة، نوصي بتضمين أكثر من 10٪ من البيانات الإنجليزية في مجموعة التدريب الخاصة بك. وإلا، فقد لا تكون لهجة اللغة الإنجليزية مثالية.
Chinese (Taiwanese Mandarin, Traditional) zh-TW إذا كنت ترغب في تدريب صوت مركب قادر على التحدث باللغة الإنجليزية بنفس تشكيلة بيانات العينة الخاصة بك، فتأكد من توفير أكثر من 10٪ من البيانات الإنجليزية في مجموعة التدريب الخاصة بك. وإلا، تعيينه افتراضيا إلى لهجة أصلية إنجليزية. يتم حساب حد 10٪ استنادا إلى البيانات المقبولة بعد التحميل الناجح، وليس البيانات قبل التحميل. إذا تم رفض بعض البيانات الإنجليزية التي تم تحميلها بسبب عيوب ولا تفي بالحد 10٪، يتم تعيين الصوت المركب افتراضيا إلى لهجة أصلية إنجليزية.

أنماط الإعداد المسبق المتوفرة عبر لغات مختلفة

يلخص الجدول التالي أنماط الإعداد المسبق المختلفة وفقا للغات مختلفة.

نمط التحدث اللغة (اللغة المحلية)
غاضب الإنجليزية (الولايات المتحدة) (en-US)
اليابانية (اليابان) (ja-JP) 1
الصينية (الماندارين، المبسطة) (zh-CN) 1
هادئ الصينية (الماندارين، المبسطة) (zh-CN) 1
ثَرْثَرَ الصينية (الماندارين، المبسطة) (zh-CN) 1
البهجه الإنجليزية (الولايات المتحدة) (en-US)
اليابانية (اليابان) (ja-JP) 1
الصينية (الماندارين، المبسطة) (zh-CN) 1
الساخطين الصينية (الماندارين، المبسطة) (zh-CN) 1
متحمس الإنجليزية (الولايات المتحدة) (en-US)
خائف الصينية (الماندارين، المبسطة) (zh-CN) 1
ودي الإنجليزية (الولايات المتحدة) (en-US)
الامل الإنجليزية (الولايات المتحدة) (en-US)
حزين الإنجليزية (الولايات المتحدة) (en-US)
اليابانية (اليابان) (ja-JP) 1
الصينية (الماندارين، المبسطة) (zh-CN) 1
هاتف الإنجليزية (الولايات المتحدة) (en-US)
جاد الصينية (الماندارين، المبسطة) (zh-CN) 1
الرعب الإنجليزية (الولايات المتحدة) (en-US)
وديه الإنجليزية (الولايات المتحدة) (en-US)
يهمس الإنجليزية (الولايات المتحدة) (en-US)

1 يتوفر نمط الصوت العصبي في المعاينة العامة. تتوفر الأنماط في المعاينة العامة فقط في مناطق الخدمة هذه: شرق الولايات المتحدة وغرب أوروبا وجنوب شرق آسيا.


يعرض جدول Train model إدخالاً جديدًا يتوافق مع هذا النموذج الذي تم إنشاؤه حديثًا. تعكس الحالة عملية تحويل بياناتك إلى نموذج صوتي، كما هو موضح في هذا الجدول:

الولاية المعنى
يعالج يتم إنشاء نموذجك الصوتي.
نجح تم إنشاء نموذجك الصوتي ويمكن توزيع.
فشل فشل نموذجك الصوتي في التدريب. قد يكون سبب الفشل، على سبيل المثال، مشاكل البيانات غير المرئية أو مشاكل الشبكة.
تم الإلغاء تم إلغاء تدريب النموذج الصوتي الخاص بك.

أثناء معالجة حالة النموذج، يمكنك تحديد إلغاء التدريب لإلغاء نموذجك الصوتي. لن تتحمل تكلفة هذا التدريب الملغي.

لقطة شاشة توضح كيفية إلغاء التدريب لنموذج.

بعد الانتهاء من تدريب النموذج بنجاح، يمكنك مراجعة تفاصيل النموذج واختبار نموذج الصوت الخاص بك.

يمكنك استخدام أداة إنشاء محتوى الصوت في Speech Studio لإنشاء صوت وضبط صوتك المنشور. إذا كان ذلك ممكنا على صوتك، يمكنك تحديد أحد الأنماط المتعددة.

إعادة تسمية نموذجك

  1. إذا كنت ترغب في إعادة تسمية النموذج الذي أنشأته، فحدد استنساخ نموذج لإنشاء نسخة من النموذج باسم جديد في المشروع الحالي.

    لقطة شاشة لتحديد زر استنساخ النموذج.

  2. أدخل الاسم الجديد في نافذة Clone voice model ، ثم حدد Submit. تتم إضافة النص العصبي تلقائيا كلاحقة إلى اسم النموذج الجديد.

    لقطة شاشة لاستنساخ نموذج باسم جديد.

اختبار نموذجك الصوتي

بعد إنشاء نموذج الصوت بنجاح، يمكنك استخدام نموذج ملفات الصوت التي تم إنشاؤها لاختباره قبل نشره.

تعتمد جودة الصوت على العديد من العوامل، مثل:

  • حجم بيانات التدريب.
  • جودة التسجيل.
  • دقة ملف النص المنطوق.
  • مدى تطابق الصوت المسجل في بيانات التدريب مع شخصية الصوت المصمم لحالة الاستخدام المقصودة.

حدد DefaultTests ضمن Testing للاستماع إلى ملفات الصوت النموذجية. تتضمن نماذج الاختبار الافتراضية 100 عينة من ملفات الصوت التي تم إنشاؤها تلقائيا أثناء التدريب لمساعدتك في اختبار النموذج. بالإضافة إلى هذه الملفات الصوتية ال 100 المقدمة بشكل افتراضي، تتم أيضا إضافة تعبيرات البرنامج النصي للاختبار الخاص بك إلى مجموعة DefaultTests . هذه الإضافة هي على الأكثر 100 كلمة. لن يتم تحصيل رسوم منك مقابل الاختبار باستخدام DefaultTests.

لقطة شاشة لاختيار DefaultTests ضمن Testing.

إذا كنت تريد تحميل برنامجك النصي للاختبار لإجراء مزيد من الاختبارات على نموذجك، فحدد Add test scripts لتحميل البرنامج النصي للاختبار الخاص بك.

لقطة شاشة لإضافة نصوص اختبار النموذج.

قبل تحميل البرنامج النصي للاختبار، تحقق من متطلبات البرنامج النصي للاختبار. يتم تحصيل رسوم منك مقابل الاختبار الإضافي باستخدام تركيب الدفعة استنادا إلى عدد الأحرف القابلة للفوترة. راجع أسعار Azure الذكاء الاصطناعي Speech.

ضمن Add test scripts، حدد Browse for a file لتحديد البرنامج النصي الخاص بك، ثم حدد Add لتحميله.

لقطة شاشة لتحميل البرنامج النصي للاختبار.

متطلبات البرنامج النصي للاختبار

يجب أن يكون البرنامج النصي للاختبار ملف .txt أقل من 1 ميغابايت. تتضمن تنسيقات الترميز المدعومة ANSI/ ASCII أو UTF-8 أو UTF-8-BOM أو UTF-16-LE أو UTF-16-BE.

على عكس ملفات كتابة التدريب، يجب أن يستبعد البرنامج النصي الاختبار معرف التعبير، وهو اسم الملف لكل تعبير. خلاف ذلك، يتم نطق هذه المعرفات.

فيما يلي مثال لمجموعة من التعبيرات في ملف .txt واحد:

This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.

ينتج عن كل فقرة من الكلمات المنطوقة صوت منفصل. إذا كنت تريد دمج كل الجمل في صوت واحد، اجعلها فقرة فردية.

إشعار

تعد الملفات الصوتية التي تم إنشاؤها مزيجا من البرامج النصية للاختبار التلقائي والبرامج النصية المخصصة للاختبار.

تحديث إصدار المحرك لنموذجك الصوتي

يتم تحديث نص Azure إلى محركات الكلام من وقت لآخر لالتقاط أحدث نموذج لغة يحدد نطق اللغة. بعد تدريب صوتك، يمكنك تطبيق صوتك على نموذج اللغة الجديد عن طريق التحديث إلى أحدث إصدار من المحرك.

  1. عندما يتوفر محرك جديد، ستتم مطالبتك بتحديث نموذج الصوت العصبي الخاص بك.

    لقطة شاشة لعرض رسالة تحديث المحرك.

  2. انتقل إلى صفحة تفاصيل النموذج واتبع الإرشادات التي تظهر على الشاشة لتثبيت أحدث محرك.

    لقطة شاشة لمتابعة الإرشادات التي تظهر على الشاشة لتثبيت المحرك الجديد.

    بدلا من ذلك، حدد تثبيت أحدث محرك لاحقا لتحديث الطراز الخاص بك إلى أحدث إصدار من المحرك.

    لقطة شاشة لتحديد تثبيت أحدث زر محرك لتحديث المحرك.

    لا يتم تحصيل رسوم منك مقابل تحديث المحرك. لا تزال الإصدارات السابقة محفوظة.

  3. يمكنك التحقق من جميع إصدارات المحرك للنموذج من قائمة إصدار المحرك، أو إزالة إصدار إذا لم تعد بحاجة إليه.

    لقطة شاشة لعرض القائمة المنسدلة لإصدار المحرك.

    يتم تعيين الإصدار المحدث تلقائيًا كإصدار افتراضي. ولكن يمكنك تغيير الإصدار الافتراضي عن طريق تحديد إصدار من القائمة المنسدلة وتحديد تعيين كافتراضي.

    لقطة شاشة توضح كيفية تعيين إصدار كافتراضي.

إذا كنت ترغب في اختبار كل إصدار محرك من طراز الصوت الخاص بك، يمكنك تحديد إصدار من القائمة، ثم تحديد DefaultTests ضمن Testing للاستماع إلى نموذج ملفات الصوت. إذا كنت ترغب في تحميل البرامج النصية للاختبار الخاصة بك لاختبار إصدار المحرك الحالي، فتأكد أولا من تعيين الإصدار كافتراضي، ثم اتبع الخطوات الواردة في اختبار نموذج الصوت الخاص بك.

يؤدي تحديث المحرك إلى إنشاء إصدار جديد من النموذج دون أي تكلفة إضافية. بعد تحديث إصدار المحرك لنموذج الصوت الخاص بك، تحتاج إلى نشر الإصدار الجديد لإنشاء نقطة نهاية جديدة. يمكنك فقط توزيع الإصدار الافتراضي.

لقطة شاشة توضح كيفية إعادة نشر إصدار جديد من نموذج الصوت الخاص بك.

بعد إنشاء نقطة نهاية جديدة، تحتاج إلى نقل نسبة استخدام الشبكة إلى نقطة النهاية الجديدة في منتجك.

لمعرفة المزيد حول قدرات وحدود هذه الميزة، وأفضل الممارسات لتحسين جودة النموذج الخاص بك، راجع خصائص وقيود استخدام الصوت العصبي المخصص.

انسخ النموذج الصوتي الخاص بك إلى مشروع آخر

يمكنك نسخ النموذج الصوتي الخاص بك إلى مشروع آخر لنفس المنطقة أو منطقة أخرى. على سبيل المثال، يمكنك نسخ النموذج الصوتي العصبي تدرب في منطقة واحدة، إلى مشروع لمنطقة أخرى.

إشعار

يتوفر التدريب الصوتي العصبي المخصص حاليا فقط في بعض المناطق. يمكنك نسخ نموذج صوت عصبي من تلك المناطق إلى مناطق أخرى. لمزيد من المعلومات، راجع المناطق المخصصة للصوت العصبي.

لنسخ النموذج الصوتي العصبي المخصص إلى مشروع آخر:

  1. في علامة التبويب Train model، حدد نموذج صوت تريد نسخه، ثم حدد Copy to project.

    لقطة شاشة لخيار النسخ إلى المشروع.

  2. حدد الاشتراك والمنطقة ومورد الكلام والمشروع حيث تريد نسخ النموذج. أن يكون لديك مورد الكلام ومشروع في المنطقة المستهدفة، وإلا فأنت بحاجة إلى إنشائها أولاً.

    لقطة شاشة لمربع حوار نموذج صوت النسخ.

  3. حدد Submit لنسخ النموذج.

  4. حدد عرض النموذج ضمن رسالة الإعلام للنسخ الناجح.

انتقل إلى المشروع حيث قمت بنسخ النموذج لنشر نسخة النموذج.

الخطوات التالية

في هذه المقالة، ستتعلم كيفية تدريب صوت عصبي مخصص من خلال واجهة برمجة تطبيقات الصوت المخصصة.

هام

يتوفر التدريب الصوتي العصبي المخصص حاليا فقط في بعض المناطق. بعد تدريب نموذج الصوت في منطقة مدعومة، يمكنك نسخه إلى مورد Speech في منطقة أخرى حسب الحاجة. لمزيد من المعلومات، راجع الحواشي السفلية في جدول خدمة الكلام.

تختلف مدة التدريب حسب كمية البيانات التي تستخدمها. يستغرق الأمر حوالي 40 ساعة حسابية في المتوسط لتدريب صوت عصبي مخصص. يمكن لمستخدمي الاشتراك القياسي (S0) تدريب أربعة أصوات في وقت واحد. إذا وصلت إلى الحد الأقصى، فانتظر حتى ينتهي واحد على الأقل من نماذجك الصوتية من التدريب، ثم حاول مرة أخرى.

إشعار

على الرغم من أن إجمالي عدد الساعات المطلوبة لكل طريقة تدريب يختلف، فإن سعر الوحدة نفسه ينطبق على كل منها. لمزيد من المعلومات، راجع تفاصيل تسعير التدريب العصبي المخصص.

اختيار أسلوب تدريب

بعد التحقق من صحة ملفات البيانات الخاصة بك، استخدمها لإنشاء نموذج الصوت العصبي المخصص الخاص بك. عند إنشاء صوت عصبي مخصص، يمكنك اختيار تدريبه باستخدام إحدى الطرق التالية:

  • العصبية: إنشاء صوت بنفس لغة بيانات التدريب الخاصة بك.

  • العصبية - عبر اللغات: إنشاء صوت يتحدث لغة مختلفة عن بيانات التدريب الخاصة بك. على سبيل المثال، باستخدام fr-FR بيانات التدريب، يمكنك إنشاء صوت يتحدث en-US.

    يجب أن تكون لغة بيانات التدريب واللغة المستهدفة إحدى اللغات المدعومة للتدريب الصوتي عبر اللغات. لا تحتاج إلى إعداد بيانات التدريب باللغة الهدف، ولكن يجب أن يكون البرنامج النصي للاختبار باللغة الهدف.

  • العصبية - متعددة الأنماط: إنشاء صوت عصبي مخصص يتحدث بأنماط وعواطف متعددة، دون إضافة بيانات تدريب جديدة. تعد أصوات الأنماط المتعددة مفيدة لأحرف ألعاب الفيديو روبوتات المحادثة والكتب الصوتية وقارئات المحتوى والمزيد.

    لإنشاء صوت متعدد الأنماط، تحتاج إلى إعداد مجموعة من بيانات التدريب العامة، على الأقل 300 كلمة. حدد نمطا واحدا أو أكثر من أنماط التحدث المستهدفة المحددة مسبقا. يمكنك أيضا إنشاء أنماط مخصصة متعددة من خلال توفير نماذج أنماط، من 100 تعبير على الأقل لكل نمط، كبيانات تدريب إضافية لنفس الصوت. تختلف أنماط الإعداد المسبق المدعومة وفقا للغات مختلفة. اطلع على أنماط الإعداد المسبق المتوفرة عبر لغات مختلفة.

يجب أن تكون لغة بيانات التدريب إحدى اللغات المدعومة للصوت العصبي المخصص أو التدريب عبر اللغات أو الأنماط المتعددة.

إنشاء نموذج صوتي

لإنشاء صوت عصبي، استخدم Models_Create تشغيل واجهة برمجة التطبيقات الصوتية المخصصة. إنشاء نص الطلب وفقًا للإرشادات التالية:

  • عيّن الخاصية projectId المطلوبة. راجع إنشاء مشروع.
  • عيّن الخاصية consentId المطلوبة. راجع إضافة موافقة المواهب الصوتية.
  • عيّن الخاصية trainingSetId المطلوبة. راجع إنشاء مجموعة تدريب.
  • قم بتعيين خاصية الوصفة kind المطلوبة إلى Default للتدريب الصوتي العصبي. يشير نوع الوصفة إلى أسلوب التدريب ولا يمكن تغييره لاحقا. لاستخدام أسلوب تدريب مختلف، راجع العصبية - اللغات التبادلية أو العصبية - نمط متعدد. راجع التدريب ثنائي اللغة لمزيد من المعلومات حول التدريب ثنائي اللغة والاختلافات بين اللغات.
  • عيّن الخاصية voiceName المطلوبة. يجب أن ينتهي اسم الصوت ب "عصبي" ولا يمكن تغييره لاحقا. اختر الاسم بعناية. يتم استخدام اسم الصوت في طلب تركيب الكلام بواسطة إدخال SDK وSSML. يُسمح فقط باستخدام الأحرف والأرقام وعدد قليل من علامات الترقيم. استخدم أسماء مختلفة لنماذج صوتية عصبية مختلفة.
  • اختياريا، قم بتعيين الخاصية description للوصف الصوتي. يمكن تغيير الوصف الصوتي لاحقا.

قم بإجراء طلب HTTP PUT باستخدام URI كما هو موضح في المثال Models_Create التالي.

  • استبدل YourResourceKey بمفتاح مورد الكلام.
  • استبدل YourResourceRegion بمنطقة مورد Speech.
  • استبدل JessicaModelId بمعرف نموذج من اختيارك. سيتم استخدام المعرف الحساس لحالة الأحرف في URI الخاص بالنموذج ولا يمكن تغييره لاحقا.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview"

يجب أن تتلقى نص الاستجابة بالتنسيق التالي:

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

تدريب ثنائي اللغة

إذا حددت نوع التدريب العصبي ، يمكنك تدريب صوت على التحدث بلغات متعددة. zh-CN تدعم اللغتان و zh-TW التدريب ثنائي اللغة للصوت للتحدث باللغتين الصينية والإنجليزية. اعتمادا جزئيا على بيانات التدريب الخاصة بك، يمكن للصوت المركب التحدث باللغة الإنجليزية بلكنة إنجليزية أصلية أو الإنجليزية بنفس لهجة بيانات التدريب.

إشعار

لتمكين صوت في zh-CN الإعدادات المحلية من التحدث باللغة الإنجليزية بنفس تشكيلة بيانات العينة، يجب أن تختار Chinese (Mandarin, Simplified), English bilingual عند إنشاء مشروع أو تحديد zh-CN (English bilingual) الإعدادات المحلية لبيانات مجموعة التدريب عبر واجهة برمجة تطبيقات REST.

يوضح الجدول التالي الاختلافات بين المجموعتين:

إعدادات Speech Studio المحلية إعدادات REST API المحلية دعم ثنائي اللغة
Chinese (Mandarin, Simplified) zh-CN إذا كانت بيانات العينة الخاصة بك تتضمن اللغة الإنجليزية، فإن الصوت المركب يتحدث الإنجليزية بلكنة أصلية إنجليزية، بدلا من نفس لهجة بيانات العينة، بغض النظر عن كمية البيانات الإنجليزية.
Chinese (Mandarin, Simplified), English bilingual zh-CN (English bilingual) إذا كنت تريد أن يتحدث الصوت المركب اللغة الإنجليزية بنفس تشكيلة بيانات العينة، نوصي بتضمين أكثر من 10٪ من البيانات الإنجليزية في مجموعة التدريب الخاصة بك. وإلا، فقد لا تكون لهجة اللغة الإنجليزية مثالية.
Chinese (Taiwanese Mandarin, Traditional) zh-TW إذا كنت ترغب في تدريب صوت مركب قادر على التحدث باللغة الإنجليزية بنفس تشكيلة بيانات العينة الخاصة بك، فتأكد من توفير أكثر من 10٪ من البيانات الإنجليزية في مجموعة التدريب الخاصة بك. وإلا، تعيينه افتراضيا إلى لهجة أصلية إنجليزية. يتم حساب حد 10٪ استنادا إلى البيانات المقبولة بعد التحميل الناجح، وليس البيانات قبل التحميل. إذا تم رفض بعض البيانات الإنجليزية التي تم تحميلها بسبب عيوب ولا تفي بالحد 10٪، يتم تعيين الصوت المركب افتراضيا إلى لهجة أصلية إنجليزية.

أنماط الإعداد المسبق المتوفرة عبر لغات مختلفة

يلخص الجدول التالي أنماط الإعداد المسبق المختلفة وفقا للغات مختلفة.

نمط التحدث اللغة (اللغة المحلية)
غاضب الإنجليزية (الولايات المتحدة) (en-US)
اليابانية (اليابان) (ja-JP) 1
الصينية (الماندارين، المبسطة) (zh-CN) 1
هادئ الصينية (الماندارين، المبسطة) (zh-CN) 1
ثَرْثَرَ الصينية (الماندارين، المبسطة) (zh-CN) 1
البهجه الإنجليزية (الولايات المتحدة) (en-US)
اليابانية (اليابان) (ja-JP) 1
الصينية (الماندارين، المبسطة) (zh-CN) 1
الساخطين الصينية (الماندارين، المبسطة) (zh-CN) 1
متحمس الإنجليزية (الولايات المتحدة) (en-US)
خائف الصينية (الماندارين، المبسطة) (zh-CN) 1
ودي الإنجليزية (الولايات المتحدة) (en-US)
الامل الإنجليزية (الولايات المتحدة) (en-US)
حزين الإنجليزية (الولايات المتحدة) (en-US)
اليابانية (اليابان) (ja-JP) 1
الصينية (الماندارين، المبسطة) (zh-CN) 1
هاتف الإنجليزية (الولايات المتحدة) (en-US)
جاد الصينية (الماندارين، المبسطة) (zh-CN) 1
الرعب الإنجليزية (الولايات المتحدة) (en-US)
وديه الإنجليزية (الولايات المتحدة) (en-US)
يهمس الإنجليزية (الولايات المتحدة) (en-US)

1 يتوفر نمط الصوت العصبي في المعاينة العامة. تتوفر الأنماط في المعاينة العامة فقط في مناطق الخدمة هذه: شرق الولايات المتحدة وغرب أوروبا وجنوب شرق آسيا.


احصل على حالة التدريب

للحصول على حالة التدريب لنموذج صوتي، استخدم Models_Get تشغيل واجهة برمجة التطبيقات الصوتية المخصصة. أنشئ عنوان URI للطلب وفقا للإرشادات التالية:

قم بإجراء طلب HTTP GET باستخدام URI كما هو موضح في المثال Models_Get التالي.

  • استبدل YourResourceKey بمفتاح مورد الكلام.
  • استبدل YourResourceRegion بمنطقة مورد Speech.
  • استبدل JessicaModelId إذا قمت بتحديد معرف نموذج مختلف في الخطوة السابقة.
curl -v -X GET "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/models/JessicaModelId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

يجب أن تتلقى نص استجابة بالتنسيق التالي.

إشعار

تعتمد الوصفة kind والخصائص الأخرى على كيفية تدريب الصوت. في هذا المثال، نوع الوصفة هو Default للتدريب الصوتي العصبي.

{
  "id": "JessicaModelId",
  "voiceName": "JessicaNeural",
  "description": "Jessica voice",
  "recipe": {
    "kind": "Default",
    "version": "V7.2023.03"
  },
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "trainingSetId": "JessicaTrainingSetId",
  "locale": "en-US",
  "engineVersion": "2023.07.04.0",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

قد تحتاج إلى الانتظار لعدة دقائق قبل اكتمال التدريب. في النهاية ستتغير الحالة إلى أو SucceededFailed.

الخطوات التالية