ملاحظة
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
باستخدام الكلام المخصص، يمكنك تقييم وتحسين دقة التعرف على الكلام لتطبيقاتك ومنتجاتك. يمكن استخدام نموذج كلام مخصص لتحويل الكلام في الوقت الحقيقي إلى نصوترجمة الكلاموالنسخ الدفعي.
يستخدم التعرف على الكلام نموذج اللغة العالمي كنموذج أساسي يتم تدريبه باستخدام البيانات المملوكة ل Microsoft ويعكس اللغة المنطوقة شائعة الاستخدام. يتم تدريب النموذج الأساسي مسبقا مع اللهجات والهاتفية التي تمثل مختلف المجالات الشائعة. عند تقديم طلب التعرف على الكلام، يتم استخدام أحدث نموذج أساسي لكل لغة مدعومة بشكل افتراضي. يعمل النموذج الأساسي بشكل جيد في معظم سيناريوهات التعرف على الكلام.
يمكن استخدام نموذج مخصص لزيادة النموذج الأساسي لتحسين التعرف على المفردات الخاصة بالمجال الخاصة بالتطبيق من خلال توفير بيانات نصية لتدريب النموذج. كما يمكن استخدامه لتحسين التعرف استنادا إلى الظروف الصوتية المحددة للتطبيق من خلال توفير بيانات صوتية مع نسخ مرجعية.
يمكنك أيضا تدريب نموذج مع نص منظم عندما تتبع البيانات نمطا، لتحديد النطق المخصص، وتخصيص تنسيق نص العرض مع تسوية النص المعكوس المخصص وإعادة الكتابة المخصصة وتصفية الألفاظ النابية المخصصة.
كيف تعمل؟
باستخدام الكلام المخصص، يمكنك تحميل بياناتك الخاصة، واختبار نموذج مخصص وتدريبه، ومقارنة الدقة بين النماذج، ونشر نموذج إلى نقطة نهاية مخصصة.
فيما يلي مزيد من المعلومات حول تسلسل الخطوات الموضحة في الرسم التخطيطي السابق:
إنشاء مشروع واختيار نموذج. استخدم Speech الذي تقوم بإنشائه في مدخل Microsoft Azure. إذا قمت بتدريب نموذج مخصص باستخدام بيانات صوتية، فحدد مورد خدمة في منطقة بها أجهزة مخصصة لتدريب البيانات الصوتية. لمزيد من المعلومات، راجع الحواشي السفلية في جدول المناطق .
تحميل بيانات الاختبار. تحميل بيانات الاختبار لتقييم عرض الكلام إلى نص للتطبيقات والأدوات والمنتجات.
تدريب نموذج. توفير النسخ المكتوبة والنص ذي الصلة، جنبا إلى جنب مع البيانات الصوتية المقابلة. اختبار نموذج قبل وبعد التدريب اختياري ولكن يوصى به.
إشعار
تدفع مقابل استخدام نموذج الكلام المخصص واستضافة نقطة النهاية. سيتم أيضا تحصيل رسوم منك مقابل تدريب نموذج الكلام المخصص إذا تم إنشاء النموذج الأساسي في 1 أكتوبر 2023 والإصدارات الأحدث. لا تتم محاسبتك على التدريب إذا تم إنشاء النموذج الأساسي قبل أكتوبر 2023. لمزيد من المعلومات، راجع تسعير Azure الذكاء الاصطناعي Speechوقسم رسوم التكيف في دليل ترحيل الكلام إلى النص 3.2.
اختبار جودة التعرف. استخدم Speech Studio لتشغيل الصوت الذي تم تحميله مرة أخرى وفحص جودة التعرف على الكلام لبيانات الاختبار.
نموذج الاختبار كميا. تقييم وتحسين دقة نموذج الكلام إلى النص. توفر خدمة Speech معدل خطأ كمي للكلمات (WER)، والذي يمكنك استخدامه لتحديد ما إذا كان هناك حاجة إلى المزيد من التدريب.
نشر نموذج. بمجرد أن تكون راضيا عن نتائج الاختبار، انشر النموذج إلى نقطة نهاية مخصصة. باستثناء النسخ الدفعي، يجب نشر نقطة نهاية مخصصة لاستخدام نموذج كلام مخصص.
نَصِيحة
لا يلزم وجود نقطة نهاية نشر مستضافة لاستخدام الكلام المخصص مع واجهة برمجة تطبيقات النسخ الدفعي. يمكنك الحفاظ على الموارد إذا تم استخدام نموذج الكلام المخصص فقط للنسخ الدفعي. لمزيد من المعلومات، راجع تسعير خدمة الكلام.
اختر الموديل الخاص بك
هناك بعض الأساليب لاستخدام نماذج الكلام المخصصة:
- يوفر النموذج الأساسي التعرف الدقيق على الكلام خارج الصندوق لمجموعة من السيناريوهات. يتم تحديث النماذج الأساسية بشكل دوري لتحسين الدقة والجودة. نوصي باستخدام أحدث النماذج الأساسية، إذا كنت تستخدم أحدث النماذج الأساسية الافتراضية. إذا كانت إمكانية التخصيص المطلوبة متاحة فقط مع نموذج أقدم، فيمكنك اختيار نموذج أساسي قديم.
- يقوم النموذج المخصص بزيادة النموذج الأساسي ليشمل مفردات خاصة بالمجال مشتركة عبر جميع مناطق المجال المخصص.
- يمكن استخدام نماذج مخصصة متعددة عندما يحتوي المجال المخصص على مناطق متعددة، لكل منها مفردات محددة.
إحدى الطرق الموصى بها لمعرفة ما إذا كان النموذج الأساسي كافيا هي تحليل النسخ الذي تم إنتاجه من النموذج الأساسي ومقارنتها مع نسخة من صنع الإنسان لنفس الصوت. يمكنك مقارنة النصوص والحصول على درجة معدل خطأ كلمة (WER ). إذا كانت درجة WER عالية، يوصى بتدريب نموذج مخصص للتعرف على الكلمات المحددة بشكل غير صحيح.
يوصى باستخدام نماذج متعددة إذا كانت المفردات تختلف عبر مناطق المجال. على سبيل المثال، يقدم المعلقون الأولمبيون تقارير عن أحداث مختلفة، يرتبط كل منها بالعامية الخاصة به. نظرا لأن كل مفردات حدث أولمبي تختلف بشكل كبير عن غيرها، فإن بناء نموذج مخصص خاص بالحدث يزيد من الدقة من خلال الحد من بيانات التعبير بالنسبة لهذا الحدث المحدد. ونتيجة لذلك، لا يحتاج النموذج إلى التدقيق في البيانات غير المرتبطة لإجراء تطابق. بغض النظر عن ذلك، لا يزال التدريب يتطلب مجموعة متنوعة لائقة من بيانات التدريب. قم بتضمين صوت من مختلف المعلقين الذين لديهم لهجات مختلفة، والجنس، والعمر، وما إلى ذلك.
استقرار النموذج ودورة الحياة
يتم إصلاح نموذج أساسي أو نموذج مخصص تم نشره إلى نقطة نهاية باستخدام الكلام المخصص حتى تقرر تحديثه. تظل دقة التعرف على الكلام وجودته متسقين، حتى عند إصدار نموذج أساسي جديد. يسمح لك هذا بتأمين سلوك نموذج معين حتى تقرر استخدام نموذج أحدث.
سواء قمت بتدريب النموذج الخاص بك أو استخدام لقطة من نموذج أساسي، يمكنك استخدام النموذج لفترة محدودة. لمزيد من المعلومات، راجع دورة حياة النموذج ونقطة النهاية.
الذكاء الاصطناعي المسؤول
لا يتضمن نظام الذكاء الاصطناعي التكنولوجيا فحسب، بل يشمل أيضا الأشخاص الذين يستخدمونها، والأشخاص المتأثرين بها، والبيئة التي يتم نشرها فيها. اقرأ ملاحظات الشفافية للتعرف على الذكاء الاصطناعي المسؤولة واستخدامها ونشرها في أنظمتك.