تسجيل عينات صوتية للصوت العصبي المخصص

توفر لك هذه المقالة إرشادات حول إعداد عينات صوتية عالية الجودة لإنشاء نموذج صوت احترافي باستخدام مشروع الصوت العصبي المخصص Pro.

إن إنشاء صوت عصبي مخصص عالي الجودة للإنتاج من الصفر ليس عملًا سهلاً. المكون المركزي للصوت العصبي المُخصص هو مجموعة كبيرة من العينات الصوتية للكلام البشري. مـن الضروري أن تكون هذه التسجيلات الصوتية ذات جودة عالية. اختر موهبة صوتية لديها خبرة في صنع هذه الأنواع من التسجيلات، وسجّلها بالاستعانة بمهندس تسجيل يستخدم معدات احترافية.

قبل أن تتمكن من إجراء هذه التسجيلات، على الرغم من ذلك، تحتاج إلى برنامج نصي: يتم التحدث بالكلمات بواسطة موهبتك الصوتية لإنشاء عينات الصوت.

تنتقل العديد من التفاصيل الصغيرة ولكن المُهمة إلى إنشاء تسجيل صوتي احترافي. هذا الدليل هو مخطط لعملية مـن شأنها أن تساعدك على الحصول على نتائج جيدة ومتسقة.

تلميحات لإعداد البيانات لصوت عالي الجودة

يعتمد الصوت العصبي المخصص الطبيعي للغاية على عدة عوامل، مثل جودة وحجم بيانات التدريب الخاصة بك.

تعد جودة بيانات التدريب الخاصة بك عاملا أساسيا. على سبيل المثال، في نفس مجموعة التدريب، يعد الحجم المتسق ومعدل التحدث وأسلوب التحدث وأسلوب التحدث أمرا ضروريا لإنشاء صوت عصبي مخصص عالي الجودة. يجب أيضا تجنب الضوضاء الخلفية في التسجيل والتأكد من تطابق البرنامج النصي والتسجيل. لضمان جودة بياناتك، تحتاج إلى اتباع معاييرتحديد البرنامج النصي ومتطلبات التسجيل.

فيما يتعلق بحجم بيانات التدريب، يمكنك في معظم الحالات بناء صوت عصبي مخصص معقول مع 500 تعبير. وفقا لاختباراتنا، فإن إضافة المزيد من بيانات التدريب في معظم اللغات لا يحسن بالضرورة طبيعية الصوت نفسه (تم اختباره باستخدام درجة MOS)، ومع ذلك، مع المزيد من بيانات التدريب التي تغطي المزيد من مثيلات الكلمات، لديك إمكانية أعلى لتقليل نسبة الأجزاء غير المرضية من الكلام للصوت، مثل الخلل. لسماع ما تبدو عليه الأجزاء غير المرضية من الكلام، راجع أمثلة GitHub.

في بعض الحالات، قد تحتاج إلى شخصية صوتية ذات خصائص فريدة. على سبيل المثال، تحتاج شخصية الرسوم المتحركة إلى صوت بنمط نطق خاص، أو صوت ديناميكي في التجسيد. بالنسبة لمثل هذه الحالات، نوصي بإعداد ما لا يقل عن 1000 تعبير (ويفضل أن يكون 2000)، وتسجيلها في استوديو تسجيل احترافي. لمعرفة المزيد حول كيفية تحسين جودة نموذج الصوت، راجع الخصائص والقيود لاستخدام الصوت العصبي المخصص.

أدوار التسجيل الصَوتي

هناك أربعة أدوار أساسية فـي مشروع تسجيل صوتي عصبي مخصص:

الدور الغرض
الموهبة الصوتية يشكل صوت هذا الشخص أساس الصوت العصبي المخصص.
مُهندس تسجيل الإشراف على الجوانب الفنية للتسجيل وتشغيل مُعدات التسجيل.
المُدير يعد النص ويُدرب أداء المواهب الصوتية.
المحرر يضع اللمسات الأخيرة على ملفات الصوت ويعدها للتحميل إلى Speech Studio

يمكن للفرد ملء أكثر من دور واحد. يفترض هذا الدليل أنك تقوم بملء دور المدير وتوظيف كل من موهبة الصوت ومهندس التسجيل. إذا كنت تريد إجراء التسجيلات بنفسك، فإن هذه المقالة تتضمن بعض المعلومات حول دور مُهندس التسجيل. لا يلزم دور المحرر إلا بعد جلسة التسجيل. في هذه الأثناء، يمكن للمدير أو مهندس التسجيل ملء هذا الدور.

اختيار مَوهبتك الصوتية

إن الممثلين ذوي الخبرة في voiceover أو عمل الشخصية الصوتية أو الإعلان أو قراءة الأخبار يجعلون المواهب الصوتية جيدة. اختر موهبة الصوت التي يُعجبك صوتها الطبيعي. من الممكن إنشاء أصوات "شخصية" فريدة، ولكن من الصعب على معظم المواهب أداءها باستمرار، ويمكن أن يسبب الجهد إجهادا صوتيا. العامل الوحيد الأكثر أهمية لاختيار المواهب الصوتية هو الأداء ثابت المستوى. يجب أن تبدو جميع التسجيلات الخاصة بك لنفس النمط الصوتي كما لو كانت مصنوعة فـي نفس اليوم في نفس الغرفة. يُمكنك تحقيق ذلك بالشكل المثالي من خلال ممارسات التسجيل الجيدة والهندسة.

يتعين أن تكون موهبتك الصوتية قادرة على التحدث بمعدل ثابت ومستوى صوت وحدة صوت ونغمة بإملاء واضح. كما أنهم بحاجة إلى أن يكونوا قادرين على التحكم في تباين العرض التقديمي والتأثير العاطفي وآداب الكلام. يمكن أن يكون تسجيل العينات الصوتية أكثر إثارة للاهتمام من الأنواع الأخرى من العمل الصوتي، لذلك يمكن لمعظم المواهب الصوتية التسجيل لمدة ساعتين أو ثلاث ساعات فقط في اليوم. حدد جلسات العمل بثلاث أو أربع أيام في الأسبوع، مـع يوم عطلة بينهما إن أمكن.

اعمل مع موهبتك الصوتية لتطوير شخصية تحدد الصوت العام والنبرة العاطفية للصوت العصبي المخصص، مع التأكد من تحديد ما يبدو عليه مصطلح "محايد" لتلك الشخصية. يمكنك تحديد أنماط التحدث للشخصية الخاصة بك واطلب من موهبة الصوت قراءة البرنامج النصي بطريقة يتردد صداها مع الأنماط التي تريدها.

على سبيل المثال، فإن الشخصية التي تحمل شخصية متفائلة بشكل طبيعي تحمل ملاحظة تفاؤل حتى عندما تتحدث بشكل محايد. ومـع ذلك، يجب أن تكون سمة الشخصية هذه دقيقة ومتسقة. استمع إلى القراءات بواسطة الأصوات الموجودة للحصول على فكرة عما تهدف إليه.

تلميح

عادة، سوف تحتاج إلى امتلاك التسجيلات الصوتية التي تجريها. يَجب أن تكون موهبتك الصوتية قابلة لتعاقد العمل مقابل التوظيف للمشروع.

إنشاء برنامج نصي

نقطة البداية لأي جلسة تسجيل صوتي عصبي مخصصة هي النص، الذي يحتوي على الألفاظ التي سوف يتم التحدث بها من قبل موهبتك الصوتية. يشمل مصطلح «الألفاظ» الجمل الكاملة والعبارات الأقصَر. يتطلب إنشاء صوت عصبي مُخصص ما لا يقل عن 300 كلمة لفظ مسجل كبيانات تدريب.

يمكن أن تأتي الألفاظ في النص الخاص بك من أي مكان: الخيال، وغير الخيال، ونسخ الخطب، وتقارير الأخبار، وأي شيء آخر متاح فـي شكل مطبوع. للاطّلاع على مناقشة موجزة للقضايا القانونية المحتملة، راجع قسم «القانونية». يُمكنك أيضا كتابة النص الخاص بك.

لا تحتاج أقوالك إلى أن تأتي من نفس المصدر، أو من نفس نوع المصدر، أو أن يكون لها أي علاقة بعضها ببعض. ومع ذلك، إذا كنت سوف تستخدم عبارات معينة (على سبيل المثال، «قد قمت بتسجيل الدخول بنجاح») في تطبيق الكلام الخاص بك، فتأكد من تضمينها في النص الخاص بك. فهو يعطي صوتك العصبي المخصص فرصة أفضل لنطق تلك العبارات بشكل جيد.

نوصي بأن تتضمن النصوص للتسجيل كلاً من الجمل العامة والجمل الخاصة بالمجال. على سبيل المثال، إذا كنت تخطط لتسجيل 2000 جملة، فقد تكون 1000 جملة منها عبارة عن جمل عامة، ويُمكن أن تكون الـ 1000 جملة الأخرى من المجال المُستهدف أو حالة استخدام التطبيق الخاص بك.

نحن نقدم نماذج من النصوص في مجالات «عام» و»دردشة» و»خدمة العملاء» لكل لغة لمساعدتك فـي إعداد النصوص للتسجيل. يُمكنك استخدام هذه النصوص المشتركة من Microsoft لتسجيلاتك مُباشرة أو استخدامها كمرجع لإنشاء النصوص الخاصة بك.

معايير تَحديد النص

فيما يلي بعض الإرشادات العامة التي يمكنك اتباعها لإنشاء مجموعة جيدة (عينات صوتية مسجلة) للتدريب الصوتي العصبي المُخصص.

  • موازنة النص الخاص بك لتغطية أنواع الجمل المُختلفة في مجالك بما في ذلك العبارات والأسئلة والتعجب والجمل الطويلة والجمل القصيرة.

    يجب أن تحتوي كل جملة على أربع كلمات إلى 30 كلمة، ويجب عدم تضمين أي جمل مكررة في البرنامج النصي الخاص بك.
    لمعرفة كيفية موازنة أنواع الجمل المُختلفة، راجع الجدول التالي:

    أنواع الجُمل التغطية
    جُمل العبارة يجب أن تكون جُمل العبارة 70-80% من البرنامج النصي.
    جُمل الأسئلة يجب أن تكون جُمل الأسئلة حوالي 10%-20% من النص للمجال، بما في ذلك 5%-10% من الارتفاع و5%-10% مـن النغمات المتساقطة.
    جُمل التعجب يجب أن تكون جُمل التعجب حوالي 10%-20% مـن النص الخاص بك.
    كلمة/عبارة قَصيرة يجب أن تكون النصوص للكلمات/العبارة القصيرة حوالي 10% من إجمالي الألفاظ، مع 5 إلى 7 كلمات لكل حالة.

    إشعار

    يجب فصل الكلمات/العبارات القصيرة بفواصل. فهي تساعد في تذكير موهبتك الصوتية بالتوقف لفترة قصيرة عند قراءتها.

    وتشمل أفضل المُمارسات ما يلي:

    • تغطية متوازنة لأجزاء الكلام، مثل الأفعال والأسماء والصفات وما إلى ذلك.
    • تغطية مُتوازنة للنطق. قم بتضمين جميع الأحرف من A إلى Z حتى يتعلم محرك النص إلى الكلام كيفية نطق كل حرف في نمطك.
    • قابل للقراءة، مفهوم، برامج نصية مَنطقية للمتحدث للقراءة.
    • تجنب الكثير من الأنماط المماثلة للكلمات/العبارات، مثل "سهل" و"أسهل".
    • تضمين تنسيقات مختلفة من الأرقام: العنوان والوحدة والهاتف والكمية والتاريخ وما إلى ذلك، في جميع أنواع الجُمل.
    • قم بتضمين الجمل الإملائية إذا كان شيئا سيقرأه صوتك العصبي المخصص. على سبيل المثال، «تهجئة كلمة Apple هي A P P L E».
  • لا تضع جملاً متعددة في سطر واحد/لفظ واحد. فصل كل سطر حسب التعبير.

  • تأكد مـن أن الجملة نظيفة. بشكل عام، لا تقم بتضمين عدد كبير جدا من الكلمات غير المتوافقة مثل الأرقام أو الاختصارات حيث يصعب قراءتها. قد تتطلب بعض التطبيقات قراءة العديد من الأرقام أو الاختصارات. في هذه الحالات، يُمكنك تضمين هذه الكلمات، مع تطبيعها في شكلها المنطوق.

    فيما يلي بعض أفضل المُمارسات على سبيل المثال:

    • بالنسبة للأسطر ذات الاختصارات، بدلاً من «BTW»، اكتب «by the way».
    • بالنسبة للأسطر ذات الأرقام، بدلاً من «911»، اكتب «تسعة واحد واحد».
    • بالنسبة للأسطر ذات الاختصارات، بدلاً من «ABC»، اكتب «A B C».

    مع ذلك، تأكد من أن موهبتك الصوتية تنطق هذه الكلمات بطريقة مُتوقعة. حافظ على تطابق النص والتسجيلات أثناء عَملية التدريب.

  • يجب أن يتضمن النص العديد من الكلمات والجمل المُختلفة مع أنواع مختلفة من أطوال الجمل والبنيات والمزاج.

  • تحقق من النص بعناية بحثًا عن الأخطاء. إذا كان ذلك ممكنًا، فادع شخصًا آخر يتحقق منه أيضًا. عند تشغيل البرنامج النصي مع موهبتك الصوتية، قد تلتقط المزيد من الأخطاء.

الفرق بين النص للمواهب الصَوتية والنص للتدريب

يُمكن أن يختلف النص للتدريب عن النص للمواهب الصوتية، خاصة بالنسبة إلى النصوص التي تحتوي على أرقام ورموز واختصارات وتاريخ ووقت. يتعين أن تتبع النصوص المعدة للموهبة الصوتية اصطلاحات القراءة الأصلية، مثل 50% و45 دولارًا. يجب تطبيع النصوص المستخدمة للتدريب لمطابقة التسجيل الصوتي، مثل خمسين بالمائةوخمسة وأربعين دولارًا.

إشعار

نُقدم بعض أمثلة النصوص للموهبة الصوتية على GitHub. لاستخدام أمثلة النصوص للتدريب، يجب عليك تطبيعها وفقًا لتسجيلات موهبتك الصوتية قبل تحميل الملف.

يوضح الجدول التالي الفرق بين النصوص للموهبة الصوتية والبرنامج النَصي الذي تمت تسويته للتدريب.

Category مثال النص للمواهب الصَوتية مثال البرنامج النَصي للتدريب (تمت تسويته)
أرقام 123 مائة وثلاثة وعشرون
الرموز 50% خَمسون بالمائة
الاختصار في أقرب وقت ممكن في أقرب وقت ممكن
التاريخ والوقت 3 مارس في الساعة 5:00 مساءً الثالث مـن مارس الساعة الخامسة مساءً

العيوب النموذجية للنص

يمكن أن تؤثر جودة النص الضعيفة سلبًا على نتائج التدريب. لتحقيق نتائج تدريب عالية الجودة، مـن الضروري تجنب العيوب.

تندرج عيوب النص بشكل عام فـي الفئات التالية:

Category مثال
محتوى لا معنى له. "تنام الأفكار الخضراء عديمة اللون غاضبة."
الجمل غير المُكتملة. - "كانت هذه عشيتي الأخيرة" (لا موضوع، لا معنى محدد)
-- "انهم مضحك بالفعل (لا علامة اقتباس في النهاية ، انها ليست جملة كاملة)
أخطاء إملائية في الجمل. - ابدأ بأحرف صَغيرة
- لا توجد علامات ترقيم في نهاية الجملة إذا لزم الأمر
-املائيا
- عـدم وجود علامات الترقيم: لا توجد فترة في النهاية (باستثناء عنوان الأخبار)
- ينتهي بالرموز، باستثناء الفاصلة والسؤال والتعجب
- تَنسيق خطأ، مثل:
 - 45 دولارًا (يجب أن تكون 45 دولارًا)
 - لا توجد مَسافة أو مسافة زائدة بين الكلمة/علامات الترقيم
التكرار في تنسيق مُماثل، واحد لكل نمط كاف. - «الآن الساعة 1:00 مساءً فـي نيويورك»
- «الآن الساعة 2:00 مساءً فِـي نيويورك»
- «لآن الساعة 3:00 مساءً فِـي نيويورك»
- «الآن الساعة 1:00 مساءً في سياتل»
- «الآن الساعة 1:00 مساءً في واشنطن العاصمة»
كلمات أجنبية غير شائعة: فقط الكلمة الأجنبية شائعة الاستخدام مقبولة فـي النص. في اللغة الإنجليزية قد يستخدم المرء الكلمة الفرنسية "faux" في الكلام المشترك، ولكن التعبير الفرنسي مثل "coincer la bulle" سيكون غير شائع.
رمز مَشاعر أو أي رموز أخرى غير شائعة

تنسيق النص

يُستخدم النص أثناء جلسات التسجيل، حتى تتمكن من إعداده بأي طريقة تجد من السهل العمل معها. إنشاء الملف النصي المطلوب من قبل Speech Studio بشكل مُنفصل.

يحتوي تنسيق النص الأساسي على ثلاثة أعمدة:

  • عدد الألفاظ، بدءًا من 1. تجعل الترقيم مـن السهل على الجميع في الاستوديو الرجوع إلى لفظ معين («دعونا نحاول الرقم 356 مرة أخرى»). يُمكنك استخدام ميزة ترقيم الفقرات في Microsoft Word لتعداد صفوف الجدول تلقائيًا.
  • عمود فارغ حيث تكتب رمز الوقت أو الرقم الذي يستغرقه كل تعبير لمساعدتك في العثور عليه في التسجيل النهائي.
  • نص اللفظ نفسه.

Sample script

إشعار

تسجل مُعظم الاستوديوهات في مقاطع قصيرة تعرف باسم «يأخذ». يحتوي كل أخذ عادة على 10 إلى 24 لفظًا. مُجرد ملاحظة عدد اتخاذ يكفي للعثور على لفظ في وقت لاحق. إذا كنت تقوم بالتسجيل في استوديو يفضل إجراء تسجيلات أطول، فسوف ترغب في ملاحظة رمز الوقت بدلا من ذلك. سوف يكون للاستوديو عرض زمني بارز.

اترك مساحة كافية بعد كل صف لكتابة المُلاحظات. تأكد مـن عدم تقسيم أي ألفاظ بين الصفحات. قم برقم الصفحات، واطبع البرنامج النصي على جانب واحد مـن الورقة.

طباعة ثلاث نسخ من البرنامج النصي: واحدة للموهبة الصوتية، وواحدة لمهندس التسجيل، وواحدة للمُخرج (أنت). استخدام قصاصة ورقية بدلا من التدبيس: يقوم فنان صوت من ذوي الخبرة بفصل الصفحات لتجنب حدوث ضوضاء أثناء تشغيل الصفحات.

بيان الـمواهب الصوتية

لتدريب صوت عصبي، يجب عليك إنشاء ملف تعريف المواهب الصوتية مع ملف صوتي مسجل من قبل المواهب الصوتية الموافقة على استخدام بيانات الكلام الخاصة بهم لتدريب نموذج صوت مخصص. عند إعداد البرنامج النصي للتسجيل، تأكد مـن تضمين جملة العبارة.

الجوانب القانونية

بموجب قانون حقوق النشر، قـد تكون قراءة الممثل للنص المحمي بحقوق النشر أداء يجب تعويض مؤلف العمل من أجله. لن يمكن التعرف على هذا الأداء في المنتج النهائي، الصوت العصبي المُخصص. ومع ذلك، فإن شرعية استخدام عمل مَحمي بحقوق النشر لهذا الغرض ليست راسخة. لا يُمكن لشركة Microsoft تقديم المشورة القانونية بشأن هذه المشكلة؛ استشارة مستشارك القانوني الخاص.

لحسن الحظ، من المُمكن تجنب هذه المشكلات بالكامل. هناك العديد من مصادر النص التي يُمكنك استخدامها دون إذن أو ترخيص.

مُصدر النص ‏‏الوصف
وحدة CMU في القطب الشمالي حوالي 1100 جملة تم اختيارها مـن خارج حقوق النشر تعمل خصيصا للاستخدام في مشاريع تركيب الكلام. نقطة انطلاق مُمتازة.
لم يَعد يعمل
ضِمن حقوق النشر
عادة ما يتم نشر الأعمال قبل عام 1923. بالنسبة للغة الإنجليزية، يقدم Project Gutenberg عشرات الآلاف من هذه الأعمال. قد ترغب في التركيز على الأعمال الأحدث، حيث إن اللغة أقرب إلى اللغة الإنجليزية الحديثة.
الأعمال الحكومية الأعمال التي أنشأتها حكومة الولايات المتحدة ليست محمية بحقوق النشر في الولايات المتحدة، على الرغم من أن الحكومة يمكنها المطالبة بحقوق النشر في بلدان/مناطق أخرى.
المجال العام يعمل من أجله حقوق النشر التي يتم إخلاء المسؤولية عنها صراحة أو تخصيصها للملك العام. قد لا يكون من الممكن التنازل عن حق المؤلف بالكامل في بعض الولايات القضائية.
أعمال مُرخصة بشكل متساهل يعمل موزعًا بموجب ترخيص مثل Creative Commons أو ترخيص وثائق GNU المجانية (GFDL). يَستخدم ويكيبيديا GFDL. ومع ذلك، قد تفرض بعض التراخيص قيودا على أداء المحتوى المرخص الذي قد يؤثر على إنشاء نموذج صوتي عصبي مخصص، لذا اقرأ الترخيص بعناية.

تسجيل البرنامج النصي الخاص بـك

سجل البرنامج النصي الخاص بك في استوديو تسجيل احترافي متخصص في العمل الصوتي. لديهم كشك تسجيل والمعدات المناسبة والأشخاص المناسبين لتشغيله. يوصى بعدم التسرّع في إنشاء التسجيلات.

ناقش مشروعك مـع مهندس التسجيل في الاستوديو واستمع إلى نصيحتهم. يجب أن يحتوي التسجيل على ضغط نطاق ديناميكي ضئيل أو مَعدوم (بحد أقصى 4:1). من المهم أن يكون للصوت حجم صوت ثابت ونسبة عالية من الإشارة إلى الضوضاء، بينما يكون خاليًا من الأصوات غير المَرغوب فيها.

مُتطلبات التسجيل

لتحقيق نتائج تدريب عالية الجودة، اتبع المُتطلبات التالية أثناء التسجيل أو إعداد البيانات:

  • واضح ومنطوق جيدًا

  • السرعة الطبيعية: ليست بطيئة جدًا أو سريعة جدًا بين الملفات الصوتية.

  • حجم الصوت والنغمة والفصل المناسب: مُستقر داخل الجملة نفسها أو بين الجمل، فاصل صَحيح لعلامات الترقيم.

  • لا توجد ضـوضاء أثناء التسجيل

  • احتواء تَصميم الشخصية

  • لا توجد لكنة خاطئة: تُناسب التصميم الهدف

  • لا يوجد نطق خاطئ

يُمكنك الرجوع إلى المواصفات أدناه للتحضير لعينات الصوت كأفضل ممارسة.

الخاصية القيمة
تنسيق الملف *.wav, Mono
معدل خذ العينات 24 كيـلوهرتز
تنسيق العينة 16 بِت، PCM
ذروة مُستويات الصوت -3 ديسيبل إلـى -6 ديسيبل
SNR > 35 ديسيبل
الصَمت - يجب أن يكون هناك بعض الصمت (يوصي بـ 100 مللي ثانية) فـي البداية والنهاية، ولكن لم يعد أكثر من 200 مللي ثانية
- الصمت بين الكلِمات أو العبارات < -30 ديسيبل
- الصمت فـي الموجة بعد نطق الكلمة <الأخيرة -60 ديسيبل
ضوضاء البيئة أو الصدى - مُستوى الضوضاء في بداية الموجة قبل التحدث < -70 ديسيبل

إشعار

يُمكنك التسجيل بمعدل أخذ عينات أعلى وعمق بت، على سبيل المثال بتنسيق 48 كيلوهرتز 24 بت PCM. أثناء التدريب الصوتي العصبي المخصص، سننزل عينة منه إلى 24 كيلوهرتز 16 بت PCM تلقائيًا.

تشير النسبة الأعلى للإشارة إلى الضوضاء (SNR) إلى ضوضاء أقل في الصوت. يمكنك عادةً الوصول إلى 35+ SNR بالتسجيل في استوديوهات احترافية. يمكن أن ينتج عن الصوت مع نسبة SNR أقل من 20 إلى ضوضاء واضحة في صوتك الذي تم إنشاؤه.

ضع في اعتبارك إعادة تسجيل أي كلمات منطوقة ذات درجات نطق منخفضة أو نسب الإشارة إلى الضوضاء الضعيفة. إذا لم تتمكن من إعادة التسجيل، ففكر في استبعاد الكلمات المنطوقة هذا من بياناتك.

أخطاء صَوتية نموذجية

للحصول علـى نتائج تدريب عالية الجودة، يوصى بشدة بتجنب الأخطاء الصوتية. عادة ما تكون الأخطاء الصوتية ضمن الفئات التالية:

  • لا يتطابق اسم ملف الصوت مع معرف النص.

  • يحتوي ملف WAR على تنسيق غير صحيح ولا يُمكن قراءته.

  • معدل أخذ العينات الصوتية أقل مـن 16 كيلوهرتز. من المُستحسن أن يكون معدل أخذ عينات ملف ‎.wav مساويًا أو أعلى من 24 كيلوهرتز للصوت العصبي عالي الجودة.

  • لا تقع ذروة الحجم ضِمن نطاق -3 ديسيبل (70٪ من الحد الأقصى لوحدة التخزين) إلى -6 ديسيبل (50٪).

  • تجاوز شكل الموجة: يتم قطع شكل الموجة عند ذروة قيمته وبالتالي لا يكتمل.

    waveform overflow

  • الأجزاء الصامتة من التسجيل غير نقية؛ يمكنك سماع أصوات مثل الضوضاء المحيطة وضوضاء الفم والصدى.

    على سبيل المثال، يَحتوي الصوت أدناه على ضوضاء البيئة بين الخطب.

    environment noise

    يَحتوي النموذج أدناه على علامات لإزاحة أو صدى DC.

    DC offset or echo

  • حجم الصوت الإجمالي مُنخفض جدًا. يتم وضع علامة على بياناتك كمشكلة إذا كانت وحدة التخزين أقل من -18 ديسيبل (10٪ من الحد الأقصى للحجم). تأكد من أن جميع الملفات الصوتية متسقة مع نفس مُستوى الصوت.

    overall volume

  • لا تصمت قبل الكلمة الأولى أو بعد الكلمة الأخيرة. بالإضافة إلى ذلك، يجب ألا يكون صمت البدء أو النهاية أطول من 200 مللي ثانية أو أقصر من 100 مللي ثانية.

    No silence

افعلها بنفسك

إذا كنت ترغب في إجراء التسجيل بنفسك، بدلاً من الدخول إلى استوديو تسجيل، فإليك تمهيد قصير. بفضل ارتفاع التسجيل المنزلي والبودكاست، أصبح العثور على نصائح وموارد تسجيل جيدة عبر الإنترنت أسهل مـن أي وقت مضى.

يجب أن تكون «كابينة التسجيل» الخاصة بك غرفة صغيرة بدون صدى ملحوظ أو «نغمة غرفة». يجب أن يكون هادئا ومقاوما للصوت قدر الإمكان. يمكن استخدام الستائر على الجدران للحد من الصدى وتحييد أو «تخفيف» صوت الغرفة.

استخدم ميكروفون استوديو عالي الجودة («ميكروفون» باختصار) مُخصص لتسجيل الصوت. يُمكن أن يؤدي Sennheiser وAKG وحتى ميكروفونات Zoom الأحدث إلى نتائج جيدة. يُمكنك شراء ميكروفون، أو استئجار واحد من شركة تأجير الصوت والبصرية المحلية. ابحث عن واحد مـع واجهة USB. يجمع هذا النوع من الميكروفونات بشكل ملائم بين عنصر الميكروفون والطوابع المُسبقة والمحول التناظري إلى الرقمي في حزمة واحدة، ما يبسط الربط.

يمكنك أيضا استخدام ميكروفون تمثيلي. العديد مـن المنازل الإيجار تقدم الميكروفونات «الكلاسيكية» الشهيرة لطابعها الصوتي. يستخدم الترس التناظري الاحترافي موصلات XLR متوازنة، بدلا من قابس 1/4 بوصة المستخدم في معدات المستهلك. إذا ذهبت تمثيلية، فسوف تحتاج أيضًا إلى طابع مسبق وواجهة صوت كمبيوتر مع هذه الموصلات.

قم بتثبيت الميكروفون على حامل أو رافعة، وقم بتثبيت عامل تصفية منبثق أمام الميكروفون لإزالة الضوضاء من الساكنات «المنحرفة» مثل «p» و»b». تأتي بعض الميكروفونات مـع تركيب تعليق يعزلها عن الاهتزازات في الحامل، وهو أمر مفيد.

يجب أن تبقى موهبة الصوت على مسافة مُتسقة من الميكروفون. استخدم الشريط على الأرض لوضع علامة على المَكان الذي يجب أن يقفوا فيه. إذا كانت الموهبة تفضل الجلوس، فاحرص على مُراقبة مسافة الميكروفون وتجنب ضوضاء الكرسي.

استخدم حاملاً لإمساك النص. تجنب تبديل الحامل بحيث يُمكن أن يعكس الصوت نحو الميكروفون.

يجب أن يكون الشخص الذي يشغل معدات التسجيل - مهندس التسجيل - في غرفة منفصلة عـن الموهبة، مع طريقة ما للتحدث إلى الموهبة في كابينة التسجيل ( دائرة talkback).

يجب أن يحتوي التسجيل على أقل قدر مُمكن من الضوضاء، بهدف -80 ديسيبل.

الاستماع عن كثب إلى تسجيل الصمت في «كابينة»، ومعرفة من أين تأتي أي ضوضاء، والتخلص من السبب. المصادر الشائعة للضوضاء هي فتحات الهواء، والمصابيح الخفيفة الفلورسنت، وحركة المرور على الطرق القريبة، ومَراوح المعدات (حتى أجهزة الكمبيوتر المحمولة قـد يكون لها مراوح). يُمكن للميكروفونات والكابلات التقاط الضوضاء الكهربائية من أسلاك التيار المتردد القريبة، وعادة ما تكون همهمة أو أزيز. بُمكن أن يكون سبب الأزيز أيضًا حلقة أرضية، والسبب هو وجود معدات موصولة بأكثر من دائرة كهربائية واحدة.

تلميح

في بعض الحالات، قـد تتمكن من استخدام معادل أو مكون إضافي لبرنامج الحد من الضوضاء للمساعدة في إزالة الضوضاء من التسجيلات الخاصة بك، على الرغم من أنه من الأفضل دائما إيقافه في مصدره.

تعيين المُستويات بحيث يتم استخدام معظم النطاق الديناميكي المتاح من التسجيل الرقمي دون الإفراط في التنشيط. وهذا يعني تعيين الصوت على مستوى مرتفع، ولكن ليس مرتفعًا إلى الدرجة التي تجعله مشوهًا. يظهر مثال على شكل موجة تسجيل جيد في الصورة التالية:

A good recording waveform

هنا، يتم استخدام معظم النطاق (الارتفاع)، ولكن أعلى قِمم الإشارة لا تصل إلى أعلى النافذة أو أسفلها. يُمكنك أيضا أن ترى أن الصمت في التسجيل يقترب من خط أفقي رفيع، ما يشير إلى أرضية منخفضة الضوضاء. يَحتوي هذا التسجيل على نطاق ديناميكي مقبول ونسبة الإشارة إلى الضوضاء.

سجل مباشرة في الكمبيوتر عبر واجهة صوت عالية الجودة أو منفذ USB، اعتمادًا على الميكروفون الذي تستخدمه. بالنسبة إلى التناظرية، حافظ على بساطة سلسلة الصوت: الميكروفون، والطوابع المُسبقة، وواجهة الصوت، والكمبيوتر. يُمكنك ترخيص كل من أدوات Avid Pro و Adobe Audition شهريًا بتكلفة معقولة. إذا كانت ميزانيتك ضيقة للغاية، فجرب Audacity المجانية.

سجل في 44.1 كيلوهرتز 16 بت أحادية (جودة القرص المَضغوط) أو أفضل. تبلغ الحالة الحالية الأحدث 48 كيلوهرتز 24 بت، إذا كانت مُعداتك تدعمها. سوف تقوم بتخفيض عينة الصوت إلى 24 كيلو هرتز 16 بت قبل إرساله إلـى Speech Studio. ومع ذلك، فإنه يدفع للحصول على تسجيل أصلي عالي الجودة فـي حالة الحاجة إلى عمليات تحرير.

مـن الناحية المثالية، يكون هناك أشخاص مختلفون يعملون في أدوار المدير والمهندس والمواهب. لا تحاول أن تفعل كـل شيء بنفسك. إذا كان الأمر ضروريًا، يُمكن لشخص واحد أن يكون كل من المدير والمهندس.

قبل الجَلسة

لتجنب إضاعة وقت الاستوديو، قـم بتشغيل البرنامج النصي باستخدام موهبتك الصوتية قبل جلسة التسجيل. في حين أن المواهب الصوتية تصبح مألوفة مع النص، فإنها يُمكن أن توضح نطق أي كلمات غير مألوفة.

إشعار

تقدم معظم استوديوهات التسجيل عرضًا إلكترونيًا للنصوص في كابينة التسجيل. في هذه الحالة، اكتب ملاحظات التشغيل مباشرة في مُستند النص. ومع ذلك، سوف تحتاج إلى نسخة ورقية لتدوين الملاحظات عليها أثناء الجلسة. سيرغب معظم المهندسين أيضًا في الحصول على نسخة ورقية. وسوف تظل بحاجة إلى نسخة مطبوعة ثالثة كنسخة احتياطية للمواهب في حالة تعطل الكمبيوتر.

قـد تسأل موهبتك الصوتية عن الكلمة التي تريد التأكيد عليها في لفظ («الكلمة المنطوقة»). أخبرهم أنك تريد قراءة طبيعية بدون تركيز مُعين. يُمكن إضافة التوكيد عند تركيب الكلام؛ لا ينبغي أن يكون جزءا من التسجيل الأصلي.

توجيه المَوهبة لنطق الكلمات بشكل واضح. يجب أن تنطق كل كلمة مـن النص كما هو مكتوب. لا ينبغي حذف الأصوات أو جعلها متداخلة معًا، كما هو شائع في الكلام العادي، إلا إذا تمت كتابتها بهذه الطريقة في النص.

نَص مكتوب النطق العادي غير المَرغوب فيه
never going to give you up never gonna give you up
there are four lights there're four lights
how's the weather today how's th' weather today
say hello to my little friend say hello to my lil' friend

لا ينبغي للموهبة* إضافة إيقاف مؤقت متميز بين الكلمات. الجملة يجب أن لا تزال تتدفق بشكل طبيعي، حتى في حين تبدو رسمية قليلاً. قد يَستغرق هذا التمييز الدقيق ممارسة للحصول على حق.

جَلسة التسجيل

قم بإنشاء تسجيل مرجعي، أو ملف مطابقة، للفظ عادي في بداية الجلسة. اطلب مـن الموهبة تكرار هذا السطر كل صفحة أو نحو ذلك. في كل مرة، قارن التسجيل الجديد بالمرجع. تساعد هذه الممارسة الموهبة على البقاء مُتسقة في الحجم، والإيقاع، والنغمة، والتجميع. وفي الوقت نفسه، يُمكن للمهندس استخدام ملف المطابقة كمرجع للمستويات والاتساق العام للصوت.

يكون ملف المطابقة مهما بشكل خاص عند استئناف التسجيل بعد استراحة أو فـي يوم آخر. قـم بتشغيله عدة مرات للمواهب واكرره في كل مرة حتى يتطابق بشكل جيد.

لتسجيل مجموعة بنمط معين، اختر بعناية البرامج النصية التي تعرض النمط المطلوب. أثناء التسجيل، تأكد من أن الموهبة الصوتية تحافظ على اتساقها في الحجم والإيقاع والنبرة لتحقيق التسجيلات التي تجسد النمط المقصود.

درب موهبتك لالتقاط نفس عميق والتوقف لحظة قبل كل لفظ. سجل بضع ثوان من الصمت بين الألفاظ. يجب نطق الكلمات بنفس الطريقة فـي كل مرة تظهر بها، مع مراعاة السياق. على سبيل المثال، يتم نطق «record» كفعل بشكل مُختلف عن «record» كاسم.

سجل حوالي خمس ثوان مـن الصمت قبل التسجيل الأول لالتقاط «طبيعة الغرفة». تساعد هذه الممارسة Speech Studio على تعويض الضوضاء فـي التسجيلات.

تلميح

كل ما تحتاج إليه للالتقاط هو الموهبة الصوتية، حتى تتمكن من إجراء تسجيل أحادي الصوت (قناة واحدة) لخطوطها فقط. ومع ذلك، إذا قمت بالتسجيل بصوت استريو، يمكنك استخدام القناة الثانية لتسجيل الثرثرة في غرفة التحكم لالتقاط مناقشة حول خطوط معينة أو التقاطها. قم بإزالة هذا المسار مـن الإصدار الذي تم تحميله إلى Speech Studio.

استمع عـن كثب، باستخدام سماعات الرأس، إلى أداء موهبة الصوت. أنت تبحث عـن نطق جيد ولكنه طبيعي، ونطق صحيح، وعدم وجود أصوات غير مرغوب فيها. لا تتردد في مطالبة موهبتك بإعادة تسجيل ألفاظ لا تلبي هذه المعايير.

تلميح

إذا كنت تستخدم عددًا كبيرًا من الألفاظ، فقد لا يكون للفظ الواحد تأثير ملحوظ على الصوت العصبي المخصص الناتج. قـد يكون من الأفضل ملاحظة أي ألفاظ تتعلق بالمشكلات، واستبعادها من مجموعة البيانات الخاصة بك، ومعرفة كيفية ظهور صوتك العصبي المخصص. يُمكنك دائمًا العودة إلى الاستوديو وتسجيل العينات الفائتة لاحقًا.

لاحظ رمز الرقم أو الوقت على النص الخاص بك لكل لفظ. اطلب مـن المهندس وضع علامة على كل لفظ في بيانات التعريف الخاصة بالتسجيل أو ورقة الإشارة أيضًا.

خـذ استراحة منتظمة وقم بتوفير مشروب لمساعدة موهبتك الصوتية في الحفاظ على صوتهم في شكل جيد.

بَعد الجلسة

يتم تشغيل استوديوهات التسجيل الحديثة على أجهزة الكمبيوتر. في نهاية الجلسة، تتلقى ملفًا صوتيًا واحدًا أو أكثر، وليس شريطًا. من المحتمل أن تكون هذه الملفات بتنسيق WAV أو AIFF بجودة قرص مضغوط (44.1 كيلوهرتز 16 بت) أو أفضل. 24 كيلوهرتز 16 بت شائع ومَرغوب فيه. معدل أخذ العينات الافتراضي للصوت العصبي المُخصص هو 24 كيلوهرتز. يوصى باستخدام مُعدل عينة يبلغ 24 كيلوهرتز لبيانات التدريب الخاصة بك. لا يلزم عادة ارتفاع معدلات أخذ العينات، مثل 96 كيلوهرتز.

يتطلب Speech Studio أن يكون كل لفظ متوفرًا فـي ملفه الخاص. يحتوي كل ملف صوتي يتم تسليمه بواسطة الاستوديو على ألفاظ مُتعددة. لذا فإن المهمة الأساسية بعد الإنتاج هـي تقسيم التسجيلات وإعدادها لتقديمها. ربما وضع مهندس التسجيل علامات في الملف (أو قدم ورقة إشارة منفصلة) للإشارة إلى مكان بدء كل لفظ.

استخدم ملاحظاتك للعثور على ما تريده بالضبط، ثم استخدم الأداة المساعدة لتحرير الصوت، مثل أدوات Avid Pro أو Adobe Audition أو الجرأة المجانية، لنسخ كـل لفظ إلى ملف جديد.

استمع إلى كـل ملف بعناية. في هذه المرحلة، يُمكنك تحرير الأصوات الصغيرة غير المرغوب فيها التي فاتك أثناء التسجيل، مثل صوت شفاه خفيف قبل السطر، ولكن كن حذرًا لعدم إزالة أي كلام فعلي. إذا لم تتمكن مـن إصلاح ملف، فقم بإزالته من مجموعة البيانات ولاحظ أنك قمت بذلك.

قم بتحويل كـل ملف إلى 16 بت ومعدل عينة يبلغ 24 كيلوهرتز قبل الحفظ وإذا قمت بتسجيل دردشة الاستوديو، فقُم بإزالة القناة الثانية. احفظ كل ملف بتنسيق WAV، مـع تسمية الملفات برقم اللفظ من البرنامج النصي الخاص بك.

وأخيرًا، قم بإنشاء النسخة المكتوبة التي تربط كل ملف WAV بإصدار نصي مـن اللفظ المقابل. يتضمن تدريب النموذج الصوتي تفاصيل التنسيق المطلوب. يُمكنك نسخ النص مُباشرة من النص الخاص بك. ثم قـم بإنشاء ملف Zip لملفات WAV والنسخة النصية.

أرشفة التسجيلات الأصلية في مكان آمن في حال كنت بحاجة إليها لاحقًا. احتفظ بالبرنامج النصي والملاحظات أيضًا.

الخطوات التالية

أنت مستعد لتحميل تسجيلاتك وإنشاء صوتك العصبي المُخصص.