تدريب مجموعات البيانات واختبارها

في مشروع الكلام المخصص، يمكنك تحميل مجموعات البيانات للتدريب والتفتيش النوعي والقياس الكمي. تتناول هذه المقالة أنواع بيانات التدريب والاختبار التي يمكنك استخدامها للكلام المخصص.

يجب أن يتضمن النص والصوت الذي تستخدمه لاختبار نموذج مخصص وتدريبه نماذج من مجموعة متنوعة من السماعات والسيناريوهات التي تريد أن يتعرف عليها النموذج الخاص بك. ضع في اعتبارك هذه العوامل عند جمع البيانات لاختبار النموذج المخصص والتدريب عليه:

  • قم بتضمين بيانات نصية وصوتية لتغطية أنواع العبارات اللفظية التي يدلي بها المستخدمون عند تفاعلهم مع نموذجك. على سبيل المثال، يحتاج النموذج الذي يرفع درجة الحرارة ويخفضها إلى التدريب على العبارات التي قد يقوم بها الأشخاص لطلب مثل هذه التغييرات.
  • قم بتضمين جميع تباينات الكلام التي تريد أن يتعرف عليها النموذج الخاص بك. يمكن أن تختلف العديد من العوامل في الكلام، بما في ذلك اللهجات واللكنات وخلط اللغة والعمر والجنس ومستوى الصوت ومستوى التوتر والوقت من اليوم.
  • قم بتضمين عينات من بيئات مختلفة، على سبيل المثال، داخلية وخارجية وضوضاء طريق، حيث يتم استخدام النموذج الخاص بك.
  • سجل الصوت باستخدام الأجهزة التي يستخدمها نظام الإنتاج. إذا كان يجب على النموذج الخاص بك تحديد الكلام المسجل على أجهزة ذات جودة مختلفة، فإن البيانات الصوتية التي تقدمها لتدريب النموذج الخاص بك يجب أن تمثل أيضا هذه السيناريوهات المتنوعة.
  • حافظ على مجموعة البيانات متنوعة وتمثيلية لمتطلبات المشروع. يمكنك إضافة المزيد من البيانات إلى نموذجك لاحقًا.
  • قم بتضمين البيانات التي يحتاج نموذجك إلى نسخها فقط. يمكن أن يؤدي تضمين البيانات التي ليست ضمن متطلبات التعرف على النموذج المخصص إلى الإضرار بجودة التعرف بشكل عام.

أنواع البيانات

يسرد الجدول التالي أنواع البيانات المقبولة، ومتى يجب استخدام كل نوع بيانات، والكمية الموصى بها. ليس كل نوع بيانات مطلوبًا لإنشاء نموذج. تختلف متطلبات البيانات بناء على ما إذا كنت تقوم بإنشاء اختبار أو تدريب نموذج.

نوع البيانات يستخدم للاختبار يوصى به للاختبار يستخدم للتدريب مستحسن للتدريب
الصوت فقط نعم (فحص مرئي) 5+ ملفات للصوت نعم (معاينة ل en-US) 1-20 ساعة من الصوت
الصوت + النسخ المكتوبة بتسمية بشرية نعم (تقييم الدقة) 0.5-5 ساعات من الصوت ‏‏نعم‬ 1-20 ساعة من الصوت
نص عادي لا غير قابل للتطبيق ‏‏نعم‬ 1-200 ميغابايت من النص ذي الصلة
نص منظم لا غير قابل للتطبيق ‏‏نعم‬ ما يصل إلى 10 فصول مع ما يصل إلى 4000 عنصر وما يصل إلى 50,000 جملة تدريبية
نطق لا غير قابل للتطبيق ‏‏نعم‬ 1 كيلوبايت إلى 1 ميغابايت من نص النطق
عرض التنسيق لا غير قابل للتطبيق ‏‏نعم‬ ما يصل إلى 200 سطر ل ITN، و1000 سطر لإعادة الكتابة، و1000 سطر لعامل تصفية الألفاظ النابية

عادة ما ينتهي التدريب باستخدام نص عادي أو نص منظم في غضون بضع دقائق.

تلميح

ابدأ ببيانات النص العادي أو بيانات النص المنظم. ستؤدي هذه البيانات إلى تحسين التعرف على المصطلحات والعبارات الخاصة. التدريب باستخدام النص أسرع بكثير من التدريب باستخدام الصوت (دقائق مقابل أيام).

ابدأ بمجموعات صغيرة من بيانات العينة التي تتطابق مع اللغة والصوتيات والأجهزة حيث سيتم استخدام النموذج الخاص بك. يمكن أن تعرض مجموعات البيانات الصغيرة للبيانات التمثيلية المشاكل قبل الاستثمار في جمع مجموعات بيانات أكبر للتدريب. للحصول على عينة من بيانات الكلام المخصصة، راجع مستودع GitHub هذا.

إذا قمت بتدريب نموذج مخصص مع بيانات صوتية، فاختر منطقة مورد الكلام مع أجهزة مخصصة لتدريب البيانات الصوتية. لمزيد من المعلومات، راجع الحواشي السفلية في جدول المناطق . في المناطق التي بها أجهزة مخصصة للتدريب المخصص على الكلام، تستخدم خدمة الكلام ما يصل إلى 20 ساعة من بيانات التدريب الصوتي، ويمكنها معالجة حوالي 10 ساعات من البيانات يوميا. في مناطق أخرى، تستخدم خدمة Speech ما يصل إلى 8 ساعات من بيانات الصوت، ويمكنها معالجة حوالي ساعة واحدة من البيانات في اليوم. بعد تدريب النموذج، يمكنك نسخ النموذج إلى منطقة أخرى حسب الحاجة باستخدام واجهة برمجة تطبيقات REST Models_CopyTo .

النظر في مجموعات البيانات حسب السيناريو

يمكن أن يعمل النموذج المدرب على مجموعة فرعية من السيناريوهات بشكل جيد في تلك السيناريوهات فقط. اختر بعناية البيانات التي تمثل النطاق الكامل للسيناريوهات التي تحتاج إلى النموذج المخصص الخاص بك للتعرف عليها. يعرض الجدول التالي مجموعات البيانات التي يجب مراعاتها لبعض سيناريوهات التعرف على الكلام:

السيناريو بيانات النص العادي والبيانات النصية المنظمة الصوت + النسخ المكتوبة بتسمية بشرية كلمات جديدة مع نطق
مركز الاتصالات مستندات التسويق وموقع الويب ومراجعات المنتجات المتعلقة بنشاط مركز الاتصال استدعاءات مركز الاتصال المنسوخة من قبل البشر المصطلحات التي تحتوي على نطق غامض (راجع مثال Xbox في القسم السابق)
مساعد صوتي قوائم الجمل التي تستخدم مجموعات مختلفة من الأوامر والكيانات الأصوات المسجلة التي تتحدث الأوامر في الجهاز، منسوخة في نص الأسماء (الأفلام والأغاني والمنتجات) التي تحتوي على نطق فريد
الإملاء إدخال مكتوب، مثل الرسائل الفورية أو رسائل البريد الإلكتروني مشابهة لأمثلة سابقة مشابهة لأمثلة سابقة
التسمية التوضيحية المغلقة للفيديو البرامج النصية للعرض التلفزيوني، والأفلام، ومحتوى التسويق، وملخصات الفيديو النسخ الدقيقة لمقاطع الفيديو مشابهة لأمثلة سابقة

للمساعدة في تحديد مجموعة البيانات التي يجب استخدامها لمعالجة مشاكلك، راجع الجدول التالي:

حالة الاستخدام نوع البيانات
تحسين دقة التعرف على المفردات والنحوية الخاصة بالصناعة، مثل المصطلحات الطبية أو مصطلحات تكنولوجيا المعلومات. نص عادي أو بيانات نصية منظمة
حدد الشكل الصوتي والمعروض لكلمة أو مصطلح يحتوي على نطق غير قياسي، مثل أسماء المنتجات أو الاختصارات. بيانات النطق أو النطق الصوتي في نص منظم
تحسين دقة التعرف على أنماط التحدث أو التمييزات أو ضوضاء الخلفية المحددة. الصوت + النسخ المكتوبة بتسمية بشرية

الصوت + بيانات النسخة المكتوبة بواسطة الإنسان للتدريب أو الاختبار

يمكنك استخدام بيانات الصوت + النسخة المكتوبة بواسطة الإنسان لأغراض التدريب و الاختبار. يجب توفير النسخ المكتوبة بتسمية بشرية (كلمة بالكلمة) للمقارنة:

  • لتحسين الجوانب الصوتية مثل اللهجات الطفيفة وأنماط التحدث وضوضاء الخلفية.
  • لقياس دقة الكلام من Microsoft إلى دقة النص عندما، فإنه يعالج ملفات الصوت الخاصة بك.

للحصول على قائمة بالنماذج الأساسية التي تدعم التدريب باستخدام البيانات الصوتية، راجع دعم اللغة. حتى إذا كان النموذج الأساسي يدعم التدريب باستخدام البيانات الصوتية، فقد تستخدم الخدمة جزءا فقط من الصوت. ولا يزال يستخدم جميع النصوص.

هام

إذا كان النموذج الأساسي لا يدعم التخصيص مع البيانات الصوتية، فسيتم استخدام نص الكتابة فقط للتدريب. إذا قمت بالتبديل إلى نموذج أساسي يدعم التخصيص مع البيانات الصوتية، فقد يزيد وقت التدريب من عدة ساعات إلى عدة أيام. سيكون التغيير في وقت التدريب أكثر وضوحا عند التبديل إلى نموذج أساسي في منطقة بدون أجهزة مخصصة للتدريب. إذا لم تكن البيانات الصوتية مطلوبة، فيجب إزالتها لتقليل وقت التدريب.

يوفر الصوت الذي يحتوي على نسخ مكتوبة بواسطة الإنسان أكبر تحسينات الدقة إذا كان الصوت يأتي من حالة الاستخدام الهدف. يجب أن تغطي العينات النطاق الكامل للكلام. على سبيل المثال، سيتلقى مركز الاتصال لمتجر البيع بالتجزئة أكبر عدد من المكالمات حول ملابس السباحة والنظارات الشمسية خلال أشهر الصيف. تأكد من أن العينة الخاصة بك تتضمن النطاق الكامل للكلام الذي تريد اكتشافه.

ضع في اعتبارك هذه التفاصيل:

  • التدريب مع الصوت يجلب معظم الفوائد إذا كان الصوت هو أيضا من الصعب فهمها للبشر. في معظم الحالات، يجب أن تبدأ التدريب باستخدام نص ذي صلة فقط.
  • إذا كنت تستخدم إحدى اللغات الأكثر استخداما، مثل الإنجليزية الأمريكية، فمن غير المحتمل أن تحتاج إلى التدريب باستخدام البيانات الصوتية. بالنسبة لمثل هذه اللغات، تقدم النماذج الأساسية بالفعل نتائج التعرف الجيدة في معظم السيناريوهات، لذلك من المحتمل أن يكون كافيا للتدريب مع النص ذي الصلة.
  • يمكن للكلام المخصص التقاط سياق الكلمات فقط لتقليل أخطاء الاستبدال، وليس أخطاء الإدراج أو الحذف.
  • تجنب العينات التي تتضمن أخطاء في الكتابة ولكنها تتضمن تنوعا في جودة الصوت.
  • تجنب الجمل غير المرتبطة بمجال المشكلة. يمكن أن تضر الجمل غير المرتبطة بالنموذج الخاص بك.
  • عندما تختلف جودة النسخة المكتوبة يمكنك تكرار الجمل الجيدة بشكل استثنائي، مثل النسخ الممتازة التي تتضمن عبارات رئيسية، لزيادة وزنها.
  • تستخدم خدمة الكلام تلقائيا النصوص لتحسين التعرف على الكلمات والعبارات الخاصة بالمجال، كما لو تمت إضافتها كنص ذي صلة.
  • قد يستغرق الأمر عدة أيام حتى تنتهي عملية التدريب. لتحسين سرعة التدريب، تأكد من إنشاء اشتراك خدمة الكلام في منطقة بها أجهزة مخصصة للتدريب.

مطلوب مجموعة بيانات تدريب كبيرة لتحسين التعرف. بشكل عام، نوصي بتوفير النسخ المكتوبة كلمة بالكلمة لمدة 1 إلى 20 ساعة من الصوت. ومع ذلك، حتى أقل من 30 دقيقة يمكن أن تساعد في تحسين نتائج التعرف. على الرغم من أن إنشاء نسخة مكتوبة بالإنسان قد يستغرق وقتا، إلا أن التحسينات في التعرف جيدة فقط مثل البيانات التي تقدمها. يجب عليك تحميل النصوص عالية الجودة فقط.

يمكن أن يكون للملفات الصوتية صمت في بداية التسجيل ونهاته. إذا كان ذلك ممكنًا، فضمن نصف ثانية على الأقل من الصمت قبل الكلام وبعده في كل ملف عينة. على الرغم من أن الصوت ذو مستوى صوت تسجيل منخفض أو تشويش في الخلفية غير مفيد، إلا أنه لا ينبغي أن يحد من النموذج المخصص أو يتدهور. ضع في اعتبارك دائمًا ترقية الميكروفونات وأجهزة معالجة الإشارات قبل جمع عينات الصوت.

هام

لمزيد من المعلومات حول أفضل الممارسات لإعداد النسخ المكتوبة بتسمية بشرية، راجع النسخ المكتوبة بواسطة الصوت.

تتطلب مشاريع الكلام المخصصة ملفات صوتية مع هذه الخصائص:

هام

هذه هي متطلبات التدريب والاختبار الصوتي + النسخة المكتوبة بالإنسان. وهي تختلف عن تلك الخاصة بالصوت فقط للتدريب والاختبار. إذا كنت تريد استخدام تدريب الصوت واختباره فقط، فشاهد هذا القسم.

الخاصية القيمة
تنسيق الملف RIFF (WAV)
معدل العينة 8,000 هرتز أو 16,000 هرتز
القنوات 1 (أحادي)
الحد الأقصى للطول لكل صوت ساعتين (اختبار) / 60 ثانية (تدريب)

يبلغ الحد الأقصى لطول الصوت في التدريب على الصوت 60 ثانية لكل ملف. بالنسبة للملفات الصوتية التي تزيد عن 60 ثانية، يتم استخدام ملفات النسخ المقابلة فقط للتدريب. إذا كانت جميع الملفات الصوتية أطول من 60 ثانية، يفشل التدريب.
تنسيق العينة PCM, 16-bit
تنسيق الأرشيف .zip
الحد الأقصى لحجم الرمز البريدي 2 غيغابايت أو 10,000 ملف

بيانات نص عادي للتدريب

يمكنك إضافة جمل نص عادي للنص ذي الصلة لتحسين التعرف على الكلمات والعبارات الخاصة بالمجال. يمكن أن تقلل الجمل النصية ذات الصلة من أخطاء الاستبدال المتعلقة بإساءة فهم الكلمات الشائعة والكلمات الخاصة بالمجال من خلال إظهارها في السياق. يمكن أن تكون الكلمات الخاصة بالمجال كلمات غير شائعة أو مكتوبة، ولكن يجب أن يكون نطقها واضحا ليتم التعرف عليها.

توفير الجمل المتعلقة بالمجال في ملف نصي واحد. استخدم البيانات النصية القريبة من التعبيرات المنطوقة المتوقعة. لا تحتاج الألفاظ إلى أن تكون كاملة أو نحوية صحيحة، ولكن يجب أن تعكس بدقة الإدخال المنطوق الذي تتوقع أن يتعرف عليه النموذج. عندما يكون ذلك ممكنًا، حاول التحكم في جملة واحدة أو كلمة أساسية واحدة على سطر منفصل. لزيادة أهمية مصطلح مثل أسماء المنتجات، أضف عدة جمل تتضمن المصطلح. ولكن لا تنسخ كثيرًا - قد يؤثر ذلك على معدل التعرف العام.

إشعار

تجنب الجمل النصية ذات الصلة التي تتضمن ضوضاء مثل الأحرف أو الكلمات التي لا يمكن التعرف عليها.

استخدم هذا الجدول للتأكد من تنسيق ملف مجموعة بيانات النص العادي بشكل صحيح:

الخاصية القيمة
ترميز النص UTF-8 BOM
عدد الألفاظ لكل سطر 1
حجم الملف الأقصى 200 ميغابايت

يجب أيضا الالتزام بالقيود التالية:

  • تجنب تكرار الأحرف أو الكلمات أو مجموعات الكلمات أكثر من ثلاث مرات. على سبيل المثال، لا تستخدم "aaaa" أو "نعم نعم نعم نعم" أو "هذا هو كل شيء هذا هو كل شيء". قد تسقط خدمة الكلام خطوطا مع تكرارات كثيرة جدا.
  • لا تستخدم أحرفًا خاصة أو أحرف UTF-8 أعلاه U+00A1.
  • سيتم رفض معرفات URI.
  • بالنسبة لبعض اللغات مثل اليابانية أو الكورية، قد يستغرق استيراد كميات كبيرة من البيانات النصية وقتا طويلا أو قد يستغرق مهلة. ضع في اعتبارك تقسيم مجموعة البيانات إلى ملفات نصية متعددة مع ما يصل إلى 20000 سطر في كل منها.

بيانات نصية منظمة للتدريب

إشعار

البيانات النصية المنظمة للتدريب في المعاينة العامة.

استخدم البيانات النصية المنظمة عندما تتبع بياناتك نمطا معينا في تعبيرات معينة تختلف فقط عن الكلمات أو العبارات من القائمة. لتبسيط إنشاء بيانات التدريب وتمكين نمذجة أفضل داخل نموذج اللغة المخصصة، يمكنك استخدام نص منظم بتنسيق Markdown لتحديد قوائم العناصر والنطق الصوتي للكلمات. يمكنك بعد ذلك الرجوع إلى هذه القوائم داخل تعبيراتك التدريبية.

غالبًا ما تتبع التعبيرات المتوقعة نمطًا معينًا. أحد الأنماط الشائعة هو أن التعبيرات تختلف فقط عن طريق الكلمات أو العبارات من القائمة. ومن الأمثلة على هذا النمط ما يلي:

  • "لدي سؤال حول product،" حيث product هي قائمة بالمنتجات المحتملة.
  • "جعل ذلك objectcolor،" حيث object هي قائمة بالأشكال الهندسية وcolor قائمة بالألوان.

للحصول على قائمة بالنماذج الأساسية المدعومة واللغات للتدريب على النص المنظم، راجع دعم اللغة. يجب استخدام أحدث نموذج أساسي لهذه الإعدادات المحلية. بالنسبة إلى الشبكات المحلية التي لا تدعم التدريب باستخدام نص منظم، ستتخذ الخدمة أي جمل تدريب لا تشير إلى أي فصول كجزء من التدريب باستخدام بيانات النص العادي.

يجب أن يحتوي الملف النصي المنظم على ملحق.md. الحد الأقصى لحجم الملف هو 200 ميغابايت، ويجب أن يكون ترميز النص UTF-8 BOM. بناء جملة Markdown هو نفسه من نماذج فهم اللغة، ولا سيما كيانات القائمة ومثال الألفاظ. لمزيد من المعلومات حول بناء جملة Markdown الكامل، راجع Language Understanding Markdown.

فيما يلي تفاصيل رئيسية حول تنسيق Markdown المدعوم:

الخاصية ‏‏الوصف الحدود
@list قائمة بالعناصر التي يمكن الرجوع إليها في جملة مثال. بحد أقصى 20 قائمة. بحد أقصى 35000 عنصر لكل قائمة.
speech:phoneticlexicon قائمة بالنطق الصوتي وفقا لمجموعة الهواتف العالمية. يتم تعديل النطق لكل مثيل تظهر فيه الكلمة في قائمة أو جملة تدريب. على سبيل المثال، إذا كانت لديك كلمة تبدو مثل "cat" وتريد ضبط النطق إلى "k ae t"، يمكنك إضافة - cat/k ae t إلى speech:phoneticlexicon القائمة. بحد أقصى 15000 إدخال. الحد الأقصى لنطقين لكل كلمة.
#ExampleSentences يحدد رمز الجنيه (#) مقطعا من أمثلة الجمل. يمكن أن يحتوي عنوان المقطع على أحرف وأرقام وتسطير أسفل السطر فقط. يجب أن تعكس جمل المثال نطاق الكلام الذي يجب أن يتوقعه النموذج الخاص بك. يمكن أن تشير جملة التدريب إلى العناصر الموجودة تحت @list باستخدام الأقواس المتعرجة المحيطة باليمين واليسار ({@list name}). يمكنك الرجوع إلى قوائم متعددة في نفس جملة التدريب، أو لا شيء على الإطلاق. الحد الأقصى لحجم الملف 200 ميغابايت.
// تتبع التعليقات شرطة مائلة مزدوجة (//). غير قابل للتطبيق

فيما يلي مثال على ملف نصي منظم:

// This is a comment because it follows a double slash (`//`).

// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these.
@ list food =
- pizza
- burger
- ice cream
- soda

@ list pet =
- cat
- dog
- fish

@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football

// List of phonetic pronunciations
@ speech:phoneticlexicon
- cat/k ae t
- fish/f ih sh

// Here are two sections of training sentences. 
#TrainingSentences_Section1
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}

#TrainingSentences_Section2
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet} 

بيانات النطق للتدريب

قد يكون للكلمات المتخصصة أو التي تتكون نطقا فريدا. يمكن التعرف على هذه الكلمات إذا كان يمكن تقسيمها إلى كلمات أصغر لنطقها. على سبيل المثال، للتعرف على "Xbox"، نطقه على أنه "مربع X". لن يزيد هذا الأسلوب من الدقة الإجمالية، ولكن يمكن أن يحسن التعرف على هذه الكلمات الرئيسية وغيرها.

يمكنك توفير ملف نطق مخصص لتحسين التعرف. لا تستخدم ملفات النطق المخصصة لتغيير نطق الكلمات الشائعة. للحصول على قائمة باللغات التي تدعم النطق المخصص، راجع دعم اللغة.

إشعار

يمكنك استخدام ملف نطق إلى جانب أي مجموعة بيانات تدريب أخرى باستثناء بيانات التدريب النصية المنظمة. لاستخدام بيانات النطق مع نص منظم، يجب أن تكون ضمن ملف نصي منظم.

النموذج المنطوق هو التسلسل الصوتي الذي تم كتابته. يمكن أن يتكون من أحرف أو كلمات أو مقاطع أو مزيج من الثلاثة. يتضمن هذا الجدول بعض الأمثلة:

نموذج معروض تم التعرف عليه نموذج منطوق
3CPO ثلاثة c p o
CNTK c n t k
IEEE i الثلاثي e

يمكنك توفير النطق في ملف نصي واحد. قم بتضمين النطق المنطوق ونطق مخصص لكل منها. يجب أن يبدأ كل صف في الملف بالنموذج الذي تم التعرف عليه، ثم حرف علامة تبويب، ثم التسلسل الصوتي المحدد بالمساحة.

3CPO    three c p o
CNTK    c n t k
IEEE    i triple e

راجع الجدول التالي للتأكد من أن ملفات مجموعة بيانات النطق صالحة ومنسقة بشكل صحيح.

الخاصية القيمة
ترميز النص UTF-8 BOM (ANSI مدعوم أيضًا للغة الإنجليزية)
عدد النطق لكل سطر 1
حجم الملف الأقصى 1 ميغابايت (1 كيلوبايت للطبقة المجانية)

البيانات الصوتية للتدريب أو الاختبار

تعد البيانات الصوتية مثالية لاختبار دقة الكلام الأساسي من Microsoft إلى نموذج نصي أو نموذج مخصص. ضع في اعتبارك أن البيانات الصوتية تستخدم لفحص دقة الكلام فيما يتعلق بأداء نموذج معين. إذا كنت ترغب في تحديد دقة النموذج، فاستخدم النسخ الصوتية + المكتوبة بالوصف البشري.

إشعار

تتوفر بيانات الصوت فقط للتدريب في معاينة الإعدادات en-US المحلية. بالنسبة إلى لغات أخرى، للتدريب باستخدام البيانات الصوتية، يجب عليك أيضا توفير نسخ مكتوبة بالإنسان.

تتطلب مشاريع الكلام المخصصة ملفات صوتية مع هذه الخصائص:

هام

هذه هي متطلبات تدريب الصوت واختباره فقط. وهي تختلف عن تلك الخاصة بالصوت + تدريب النسخة المكتوبة بالإنسان واختبارها. إذا كنت ترغب في استخدام الصوت + تدريب النسخة المكتوبة بالإنسان واختبارها، فشاهد هذا القسم.

الخاصية القيمة
تنسيق الملف RIFF (WAV)
معدل العينة 8,000 هرتز أو 16,000 هرتز
القنوات 1 (أحادي)
الحد الأقصى للطول لكل صوت ساعتان
تنسيق العينة PCM, 16-bit
تنسيق الأرشيف .zip
الحد الأقصى لحجم الأرشيف 2 غيغابايت أو 10,000 ملف

إشعار

عند تحميل بيانات التدريب والاختبار، لا يمكن أن يتجاوز حجم ملف .zip 2 غيغابايت. إذا كنت بحاجة إلى مزيد من البيانات للتدريب، فقسمها إلى عدة ملفات .zip وقم بتحميلها بشكل منفصل. في وقت لاحق، يمكنك اختيار التدريب من مجموعات بيانات متعددة. ومع ذلك، يمكنك الاختبار من مجموعة بيانات واحدة فقط.

استخدم SoX للتحقق من خصائص الصوت أو تحويل الصوت الموجود إلى التنسيقات المناسبة. فيما يلي بعض أمثلة أوامر SoX:

النشاط أمر SoX
تحقق من تنسيق الملف الصوتي. sox --i <filename>
تحويل الملف الصوتي إلى قناة واحدة، 16 بت، 16 كيلوهرتز. sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav

عرض مخصص لبيانات تنسيق النص للتدريب

تعرف على المزيد حول إعداد بيانات تنسيق النص المعروض وعرض تنسيق النص مع تحويل الكلام إلى نص.

يعد تنسيق عرض إخراج التعرف على الكلام التلقائي أمرا بالغ الأهمية لمهام انتقال البيانات من الخادم ولا يناسب الحجم الواحد الجميع. تسمح إضافة قواعد تنسيق العرض المخصص للمستخدمين بتعريف قواعد التنسيق المعجمية إلى العرض الخاصة بهم لتحسين جودة خدمة التعرف على الكلام أعلى خدمة الكلام المخصصة ل Microsoft Azure.

يسمح لك بتخصيص مخرجات العرض بشكل كامل مثل إضافة قواعد إعادة الكتابة لتكبير كلمات معينة وإعادة صياغتها، وإضافة كلمات نابية وقناع من الإخراج، وتحديد قواعد ITN المتقدمة لأنماط معينة مثل الأرقام والتواريخ وعناوين البريد الإلكتروني؛ أو الاحتفاظ ببعض العبارات والاحتفاظ بها من أي عمليات عرض.

على سبيل المثال:

التنسيق المخصص عرض النص
بلا رقمي المالي من contoso هو 8BEV3
كتابة "Contoso" بأحرف كبيرة (عبر #rewrite القاعدة)
تنسيق الرقم المالي (عبر #itn القاعدة)
رقمي المالي من Contoso هو 8B-EV-3

للحصول على قائمة بالنماذج الأساسية المدعومة واللغات للتدريب على النص المنظم، راجع دعم اللغة. يجب أن يحتوي ملف Display Format على ملحق .md. الحد الأقصى لحجم الملف هو 10 ميغابايت، ويجب أن يكون ترميز النص UTF-8 BOM. لمزيد من المعلومات حول تخصيص قواعد تنسيق العرض، راجع أفضل ممارسات قواعد تنسيق العرض.

الخاصية ‏‏الوصف الحدود
#ITN قائمة بقواعد تحويل النص إلى تسوية لتحديد أنماط عرض معينة مثل الأرقام والعناوين والتواريخ. بحد أقصى 200 سطر
#rewrite قائمة بأزواج إعادة الكتابة لاستبدال كلمات معينة لأسباب مثل الكتابة بالأحرف الكبيرة والتصحيح الإملائي. 1000 سطر كحد أقصى
#profanity قائمة بالكلمات غير المرغوب فيها التي سيتم إخفاؤها من ****** الإخراج "عرض" و"مخفي"، أعلى قوائم الألفاظ النابية المضمنة في Microsoft. 1000 سطر كحد أقصى
#test قائمة بحالات اختبار الوحدة للتحقق مما إذا كانت قواعد العرض تعمل كما هو متوقع، بما في ذلك إدخال التنسيق المعجمي وإخراج تنسيق العرض المتوقع. الحد الأقصى لحجم الملف 10 ميغابايت

فيما يلي مثال لملف تنسيق العرض:

// this is a comment line
// each section must start with a '#' character
#itn
// list of ITN pattern rules, one rule for each line
\d-\d-\d
\d-\l-\l-\d
#rewrite
// list of rewrite rules, each rule has two phrases, separated by a tab character
old phrase	new phrase
# profanity
// list of profanity phrases to be tagged/removed/masked, one line one phrase
fakeprofanity
#test
// list of test cases, each test case has two sentences, input lexical and expected display output
// the two sentences are separated by a tab character
// the expected sentence is the display output of DPP+CDPP models
Mask the fakeprofanity word	Mask the ************* word

الخطوات التالية