بيانات التدريب للصوت العصبي المخصص

مقالة
01/21/2024

عندما تكون مستعدا لإنشاء نص مخصص لصوت الكلام للتطبيق الخاص بك، فإن الخطوة الأولى هي جمع التسجيلات الصوتية والبرامج النصية المقترنة لبدء تدريب نموذج الصوت. خدمة Speech تستخدم هذه البيانات لإنشاء صوت فريد تم ضبطه لمطابقة الصوت في التسجيلات. بعد تدريب الصوت، يمكنك البدء في تركيب الكلام في تطبيقاتك.

تلميح

لإنشاء صوت لاستخدام الإنتاج، نوصي باستخدام استوديو تسجيل احترافي وموهبة صوتية. لمزيد من المعلومات، راجع تسجيل عينات الصوت لإنشاء صوت عصبي مخصص.

أنواع بيانات التدريب

مجموعة بيانات التدريب الصوتي تتضمن تسجيلات صوتية وملف نصي مع كتابة الحديث المقترنة. كل ملف صوتي يجب أن يحتوي على تعبير واحد (جملة واحدة أو منعطف واحد لنظام حوار)، وأن يكون أقل من 15 ثانية.

في بعض الحالات، قد لا تكون مجموعة البيانات الصحيحة جاهزة. يمكنك اختبار التدريب الصوتي العصبي المخصص مع الملفات الصوتية المتاحة، قصيرة أو طويلة، مع أو بدون نصوص.

يسرد هذا الجدول أنواع البيانات وكيفية استخدام كل منها لإنشاء نموذج صوت مخصص لتحويل النص إلى كلام.

نوع البيانات	‏‏الوصف	وقت الاستخدام	المعالجة الإضافية مطلوبة
الألفاظ الفردية + النسخة المتطابقة	مجموعة (.zip) من الملفات الصوتية (wav.) ككلمات فردية. طول كل ملف صوتي يجب أن يكون 15 ثانية أو أقل، مقترنًا بنسخة منسقة (.txt).	تسجيلات احترافية مع نصوص مطابقة	جاهز للتدريب.
صوت طويل + نسخة	مجموعة (.zip) من ملفات صوتية طويلة وغير مصرحة (wav أو .mp3، أطول من 20 ثانية، وكحد أقصى 1000 ملف صوتي)، مقترنة بمجموعة (.zip) من النصوص التي تحتوي على جميع الكلمات المنطوقة.	لديك ملفات صوتية ونصوص مطابقة، ولكن لا يتم تقسيمها إلى تعبيرات.	التجزئة (باستخدام كتابة الحديث الدفعية). تحويل تنسيق الصوت كلما لزم الأمر.
الصوت فقط (معاينة)	مجموعة (.zip) من الملفات الصوتية (wav.أو .mp3 كحد أقصى 1000 ملف صوتي) دون نسخة.	لديك ملفات صوتية متوفرة فقط، دون نسخ.	التجزئة + إنشاء النسخة (باستخدام كتابة الحديث الدفعية). تحويل تنسيق الصوت كلما لزم الأمر.

الملفات يجب تجميعها حسب النوع في مجموعة بيانات وتحميلها كملف مضغوط. كل مجموعة بيانات يمكن أن تحتوي على نوع بيانات واحد فقط.

إشعار

الحد الأقصى لعدد مجموعات البيانات المسموح باستيرادها لكل اشتراك هو 500 ملف .zip لمستخدمي الاشتراك القياسي (S0).

الألفاظ الفردية + النسخة المتطابقة

يمكنك إعداد تسجيلات التعبيرات الفردية والنسخة المطابقة بطريقتين. إما كتابة برنامج نصي وقراءته بواسطة موهبة صوتية أو استخدام الصوت المتاح للجمهور ونسخه إلى نص. إذا قمت بهذا الأخير، حرر عدم التطابق من الملفات الصوتية، مثل "um" وأصوات الحشو الأخرى أو التلعثمات أو الكلمات المغمورة أو النطق الخاطئ.

لإنتاج نموذج صوت جيد، أنشئ التسجيلات في غرفة هادئة باستخدام ميكروفون عالي الجودة. إن الحجم المتسق، ومعدل التحدث، ومستوى الكلام، والأسلوب التعبيري للكلام ضرورية.

للحصول على أمثلة تنسيق البيانات، راجع عينة مجموعة التدريب على GitHub. تتضمن عينة مجموعة التدريب نموذج البرنامج النصي والصوت المقترن.

البيانات الصوتية للألفاظ الفردية + النسخة المتطابقة

كل ملف صوتي يجب أن يحتوي على تعبير واحد (جملة واحدة لمنعطف واحد لنظام حوار)، وأقل من 15 ثانية. جميع الملفات يجب أن تكون بنفس اللغة المنطوقة. لا يتم دعم أصوات النص إلى الكلام المخصصة متعددة اللغات، باستثناء اللغات ثنائية اللغة الصينية الإنجليزية. كل ملف صوتي يجب أن يكون له اسم ملف فريد مع ملحق اسم الملف .wav.

اتبع هذه الإرشادات عند إعداد الصوت.

الخاصية	القيمة
تنسيق الملف	RIFF (.wav)، مجمع في ملف .zip
اسم الملف	أحرف اسم الملف المعتمدة من قبل نظام التشغيل Windows، مع ملحق .wav. الأحرف `\ / : * ? " < > \\|` غير مسموح بها. لا يمكن أن يبدأ أو ينتهي بمسافة، ولا يمكن أن يبدأ بنقطة. لا يسمح بأسماء ملفات مكررة.
معدل خذ العينات	عند إنشاء صوت عصبي مخصص، يلزم وجود 24000 هرتز.
تنسيق العينة	PCM، 16 بت على الأقل
طول الصوت	أقصر من 15 ثانية
تنسيق الأرشيف	.zip
الحد الأقصى لحجم الأرشيف	2048 ميغابايت

إشعار

معدل أخذ العينات الافتراضي للصوت العصبي المخصص هو 24000 هرتز. سيتم رفض الملفات الصوتية ذات معدل أخذ العينات الأقل من 16,000 هرتز. إذا كان ملف .zip يحتوي على ملفات .wav بمعدلات عينة مختلفة، فسيتم استيراد تلك التي تساوي أو تزيد عن 16000 هرتز. عينات ملفاتك الصوتية ذات معدل أخذ العينات أعلى من 16,000 هرتز وأقل من 24,000 هرتز إلى 24,000 هرتز لتدريب صوت عصبي سيتم رفعها. يوصى باستخدام معدل عينة يبلغ 24000 هرتز لبيانات التدريب الخاصة بك.

بيانات النسخ للألفاظ الفردية + النسخ المطابق

ملف كتابة الحديث هو ملف نص عادي. استخدم هذه الإرشادات لإعداد كتابة الحديث المكتوبة.

الخاصية	القيمة
تنسيق الملف	نص عادي (.txt)
تنسيق الترميز	ANSI أو ASCII أو UTF-8 أو UTF-8-BOM أو UTF-16-LE أو UTF-16-BE. بالنسبة إلى ترميز zh-CN، لا يتم دعم ترميز ANSI وASCII.
عدد التعبيرات لكل سطر	واحد - يجب أن يحتوي كل سطر من ملف كتابة الحديث على اسم أحد الملفات الصوتية، متبوعًا بكتابة الحديث المطابقة. يجب استخدام علامة تبويب (\t) لفصل اسم الملف وكتابته.
حجم الملف الأقصى	2048 ميغابايت

فيما يلي مثال على كيفية تنظيم النصوص النطقية بالألفاظ في ملف .txt واحد:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

من المهم أن تكون النسخ المكتوبة دقيقة بنسبة 100٪ من الصوت المقابل. الأخطاء في النصوص تقدم فقدان الجودة أثناء التدريب.

صوت طويل + نسخة مكتوبة (معاينة)

إشعار

بالنسبة للصوت الطويل + النسخة المكتوبة (معاينة) ، يتم دعم هذه اللغات فقط: الصينية (الماندارين، المبسطة)، الإنجليزية (الهند)، الإنجليزية (المملكة المتحدة)، الإنجليزية (الولايات المتحدة)، الفرنسية (فرنسا)، الألمانية (ألمانيا)، الإيطالية (إيطاليا)، اليابانية (اليابان)، البرتغالية (البرازيل)، والإسبانية (المكسيك).

في بعض الحالات، قد لا تكون قد قمت بتقسيم الصوت المتوفر. يمكن أن يساعدك Speech Studio في تقسيم الملفات الصوتية الطويلة وإنشاء نسخ. تستخدم خدمة تجزئة الصوت الطويل ميزة واجهة برمجة تطبيقات النسخ الدفعي للكلام إلى النص.

أثناء معالجة التجزئة، يتم أيضا إرسال الملفات الصوتية والنسخ المكتوبة إلى خدمة الكلام المخصصة لتحسين نموذج التعرف حتى يمكن تحسين الدقة لبياناتك. لا يتم الاحتفاظ بأي بيانات أثناء هذه العملية. بعد الانتهاء من التجزئة، لن يتم سوى تخزين الألفاظ المجزأة ونسخ التعيين الخاصة بها للتنزيل والتدريب.

إشعار

سيتم فرض رسوم على هذه الخدمة مقابل استخدام اشتراك النص في الكلام. يتم دعم خدمة تجزئة الصوت الطويل فقط مع موارد الكلام القياسية (S0).

البيانات الصوتية للصوت الطويل + النسخة المكتوبة

اتبع هذه الإرشادات عند إعداد الصوت للتجزئة.

الخاصية	القيمة
تنسيق الملف	RIFF (.wav) أو .mp3، مجمعة في ملف .zip
اسم الملف	أحرف اسم الملف المعتمدة من قبل نظام التشغيل Windows، مع ملحق .wav. الأحرف `\ / : * ? " < > \\|` غير مسموح بها. لا يمكن أن يبدأ أو ينتهي بمسافة، ولا يمكن أن يبدأ بنقطة. لا يسمح بأسماء ملفات مكررة.
معدل خذ العينات	عند إنشاء صوت عصبي مخصص، يلزم وجود 24000 هرتز.
تنسيق العينة	RIFF(.wav): PCM، 16 بت على الأقل. mp3: معدل البت 256 كيلوبايت ps على الأقل.
طول الصوت	أطول من 20 ثانية
تنسيق الأرشيف	.zip
الحد الأقصى لحجم الأرشيف	2048 ميغابايت، على الأكثر 1000 ملف صوتي مضمن

إشعار

معدل أخذ العينات الافتراضي للصوت العصبي المخصص هو 24000 هرتز. سيتم رفض الملفات الصوتية ذات معدل أخذ العينات الأقل من 16,000 هرتز. عينات ملفاتك الصوتية ذات معدل أخذ العينات أعلى من 16,000 هرتز وأقل من 24,000 هرتز إلى 24,000 هرتز لتدريب صوت عصبي سيتم رفعها. يوصى باستخدام معدل عينة يبلغ 24000 هرتز لبيانات التدريب الخاصة بك.

جميع الملفات الصوتية يجب تجميعها في ملف مضغوط. لا بأس من وضع ملفات .wav وملفات .mp3 في نفس الملف المضغوط. على سبيل المثال، يمكنك تحميل ملف صوتي لمدة 45 ثانية باسم "kingstory.wav" وملف صوتي طويل 200 ثانية باسم "queenstory.mp3" في نفس الملف المضغوط. جميع ملفات .mp3 سيتم تحويلها إلى تنسيق .wav بعد المعالجة.

بيانات النسخ ل Long audio + transcript

يجب إعداد النسخ المكتوبة للمواصفات المذكورة في هذا الجدول. يجب مطابقة كل ملف صوتي مع نسخة.

الخاصية	القيمة
تنسيق الملف	نص عادي (.txt)، مجمع في .zip
اسم الملف	استخدام نفس اسم ملف الصوت المطابق
تنسيق الترميز	ANSI أو ASCII أو UTF-8 أو UTF-8-BOM أو UTF-16-LE أو UTF-16-BE. بالنسبة إلى ترميز zh-CN، لا يتم دعم ترميز ANSI وASCII.
عدد التعبيرات لكل سطر	غير محدود
حجم الملف الأقصى	2048 ميغابايت

جميع ملفات النسخ المكتوبة في نوع البيانات هذا يجب تجميعها في ملف مضغوط. على سبيل المثال، يمكنك تحميل ملف صوتي لمدة 45 ثانية باسم "kingstory.wav" وملف صوتي طويل لمدة 200 ثانية يسمى "queenstory.mp3" في نفس الملف المضغوط. تحتاج إلى تحميل ملف مضغوط آخر يحتوي على النسختين المطابقتين - أحدهما يسمى "kingstory.txt" والآخر يسمى "queenstory.txt". ضمن كل ملف نص عادي، يمكنك توفير النسخ الصحيح الكامل للصوت المطابق.

بعد تحميل مجموعة البيانات بنجاح، سنساعدك على تقسيم الملف الصوتي إلى تعبيرات استنادا إلى النسخة المكتوبة المقدمة. يمكنك التحقق من الألفاظ المقسمة والنسخ المتطابقة عن طريق تنزيل مجموعة البيانات. يتم تعيين المعرفات الفريدة إلى الألفاظ المجزأة تلقائيا. من المهم أن تتأكد من أن النسخ المكتوبة التي تقدمها دقيقة بنسبة 100٪. يمكن أن تقلل الأخطاء في النصوص من الدقة أثناء تجزئة الصوت وتطرح المزيد من فقدان الجودة في مرحلة التدريب التي تأتي لاحقا.

الصوت فقط (معاينة)

إشعار

بالنسبة للصوت فقط (معاينة)، يتم دعم هذه اللغات فقط: الصينية (الماندارين، المبسطة)، الإنجليزية (الهند)، الإنجليزية (المملكة المتحدة)، الإنجليزية (الولايات المتحدة)، الفرنسية (فرنسا)، الألمانية (ألمانيا)، الإيطالية (إيطاليا)، اليابانية (اليابان)، البرتغالية (البرازيل)، والإسبانية (المكسيك).

إذا لم يكن لديك كتابة حديث لتسجيلات الصوت، فاستخدم الخيار الصوت فقط لتحميل بياناتك. يمكن أن يساعدك نظامنا في تقسيم ملفاتك الصوتية ونسخها. ضع في اعتبارك، يتم فرض رسوم على هذه الخدمة مقابل استخدام اشتراك النص.

اتبع هذه الإرشادات عند إعداد الصوت.

إشعار

ستستفيد خدمة تجزئة الصوت الطويل من ميزة النسخ الدفعي للكلام إلى النص، والتي تدعم مستخدمي الاشتراك القياسي (S0) فقط.

الخاصية	القيمة
تنسيق الملف	RIFF (.wav) أو .mp3، مجمعة في ملف .zip
اسم الملف	أحرف اسم الملف المعتمدة من قبل نظام التشغيل Windows، مع ملحق .wav. الأحرف `\ / : * ? " < > \\|` غير مسموح بها. لا يمكن أن يبدأ أو ينتهي بمسافة، ولا يمكن أن يبدأ بنقطة. لا يسمح بأسماء ملفات مكررة.
معدل خذ العينات	عند إنشاء صوت عصبي مخصص، يلزم وجود 24000 هرتز.
تنسيق العينة	RIFF(.wav): PCM، 16 بت على الأقل mp3: معدل البت 256 كيلوبايت ps على الأقل.
طول الصوت	غير محدود
تنسيق الأرشيف	.zip
الحد الأقصى لحجم الأرشيف	2048 ميغابايت، على الأكثر 1000 ملف صوتي مضمن

إشعار

معدل أخذ العينات الافتراضي للصوت العصبي المخصص هو 24000 هرتز. عينات ملفاتك الصوتية ذات معدل أخذ العينات أعلى من 16,000 هرتز وأقل من 24,000 هرتز إلى 24,000 هرتز لتدريب صوت عصبي سيتم رفعها. يوصى باستخدام معدل عينة يبلغ 24000 هرتز لبيانات التدريب الخاصة بك.

جميع الملفات الصوتية يجب تجميعها في ملف مضغوط. بمجرد تحميل مجموعة البيانات الخاصة بك بنجاح، تساعدك خدمة Speech على تقسيم الملف الصوتي إلى تعبيرات استنادا إلى خدمة النسخ الدفعي للكلام. يتم تعيين المعرفات الفريدة إلى الألفاظ المجزأة تلقائيا. يتم إنشاء النسخ المتطابقة من خلال التعرف على الكلام. جميع ملفات .mp3 سيتم تحويلها إلى تنسيق .wav بعد المعالجة. يمكنك التحقق من الألفاظ المقسمة والنسخ المتطابقة عن طريق تنزيل مجموعة البيانات.

مشاركة عبر

بيانات التدريب للصوت العصبي المخصص

أنواع بيانات التدريب

الألفاظ الفردية + النسخة المتطابقة

البيانات الصوتية للألفاظ الفردية + النسخة المتطابقة

بيانات النسخ للألفاظ الفردية + النسخ المطابق

صوت طويل + نسخة مكتوبة (معاينة)

البيانات الصوتية للصوت الطويل + النسخة المكتوبة

بيانات النسخ ل Long audio + transcript

الصوت فقط (معاينة)

الخطوات التالية

الملاحظات

الملاحظات

الموارد الإضافية