اختبار دقة نموذج الكلام المخصص

في هذه المقالة، ستتعلم كيفية قياس وتحسين دقة الكلام الأساسي إلى نموذج نصي أو النماذج المخصصة الخاصة بك. يلزم وجود بيانات الصوت + النسخة المكتوبة بشرياً لاختبار الدقة. يجب أن توفر من 30 دقيقة إلى 5 ساعات من الصوت التمثيلي.

هام

عند الاختبار، سيقوم النظام بكتابة الحديث. من المهم أن نضع في اعتبارنا هذا، حيث يختلف التسعير لكل عرض خدمة ومستوى اشتراك. راجع دائما أسعار خدمات Azure الذكاء الاصطناعي الرسمية للحصول على أحدث التفاصيل.

إنشاء اختبار

يمكنك اختبار دقة النموذج المخصص الخاص بك عن طريق إنشاء اختبار. يتطلب الاختبار مجموعة من الملفات الصوتية ونسخها المكتوبة المقابلة. يمكنك مقارنة دقة نموذج مخصص مع نموذج الكلام إلى نموذج أساسي نصي أو نموذج مخصص آخر. بعد الحصول على نتائج الاختبار، قيّم معدل خطأ الكلمة (WER) مقارنة بنتائج التعرف على الكلام.

اتبع هذه الخطوات لإنشاء اختبار:

  1. سجّل الدخول إلـى Speech Studio.

  2. حدد Custom speech> Your project name >Test models.

  3. حدد Create new test.

  4. حدد Evaluate accuracy>Next.

  5. حدد صوتاً واحداً + مجموعة بيانات كتابة ذات تسمية بشرية، ثم حدد Next. إذا لم تكن هناك أي مجموعات بيانات متوفرة، فألغِ الإعداد، ثم انتقل إلى قائمة مجموعات بيانات الكلاملتحميل مجموعات البيانات.

    إشعار

    من المهم تحديد مجموعة بيانات صوتية تختلف عن تلك التي استخدمتها مع النموذج الخاص بك. يمكن أن يوفر هذا النهج إحساساً أكثر واقعية بأداء النموذج.

  6. حدد ما يصل إلى نموذجين لتقييمهما، ثم حدد Next.

  7. أدخل اسم الاختبار ووصفه، ثم حدد Next.

  8. راجع تفاصيل الاختبار، ثم حدد Save and close.

لإنشاء اختبار، استخدم الأمر spx csr evaluation create. أنشئ عمليات الطلب وفقاً للتعليمات التالية:

  • تعيين المعلمة project إلى معرف المشروع الموجود. يوصى بهذه المعلمة بحيث يمكنك أيضا عرض الاختبار في Speech Studio. يمكنك تشغيل الأمر spx csr project list للحصول على المشاريع المتوفرة.
  • قم بتعيين المعلمة model1 المطلوبة إلى معرف نموذج تريد اختباره.
  • قم بتعيين المعلمة model2 المطلوبة إلى معرف نموذج آخر تريد اختباره. إذا كنت لا تريد مقارنة نموذجين، فاستخدم نفس النموذج لكل من model1 وmodel2.
  • قم بتعيين المعلمة dataset المطلوبة إلى معرف مجموعة البيانات التي تريد استخدامها للاختبار.
  • قم بتعيين المعلمة language ، وإلا فإن Speech CLI يعين "en-US" بشكل افتراضي. يجب أن تكون هذه المعلمة هي الإعدادات المحلية لمحتويات مجموعة البيانات. لا يمكن تغيير الإعدادات المحلية لاحقًا. المعلمة Speech CLIlanguageمتوافقة مع الخاصيةlocaleفي طلب JSON والاستجابة.
  • يوصى بتعيين المعلمة name المطلوبة. هذه المعلمة هي الاسم الذي يتم عرضه في Speech Studio. المعلمة Speech CLInameمتوافقة مع الخاصيةdisplayNameفي طلب JSON والاستجابة.

فيما يلي مثال على أمر Speech CLI الذي ينشئ اختبارًا:

spx csr evaluation create --api-version v3.1 --project 9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226 --dataset be378d9d-a9d7-4d4a-820a-e0432e8678c7 --model1 ff43e922-e3e6-4bf0-8473-55c08fd68048 --model2 1aae1070-7972-47e9-a977-87e3b05c457d --name "My Evaluation" --description "My Evaluation Description"

يجب أن تتلقى نص الاستجابة بالتنسيق التالي:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
  },
  "properties": {
    "wordErrorRate2": -1.0,
    "wordErrorRate1": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1
  },
  "lastActionDateTime": "2022-05-20T16:42:43Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T16:42:43Z",
  "locale": "en-US",
  "displayName": "My Evaluation",
  "description": "My Evaluation Description"
}

خاصية المستوى الأعلى self في نص الاستجابة هي URI للتقييم. استخدم URI هذا للحصول على تفاصيل حول المشروع ونتائج الاختبار. يمكنك أيضًا استخدام URI هذا لتحديث التقييم أو حذفه.

للحصول على تعليمات Speech CLI في التقييمات، قم بتشغيل الأمر التالي:

spx help csr evaluation

لإنشاء اختبار، استخدم عملية Evaluations_Create من Speech to text REST API. إنشاء نص الطلب وفقًا للإرشادات التالية:

  • تعيين الخاصية project إلى URI لمشروع موجود. يوصى بهذه الخاصية بحيث يمكنك أيضا عرض الاختبار في Speech Studio. يمكنك تقديم طلب Projects_List للحصول على المشاريع المتوفرة.
  • قم بتعيين الخاصية testingKind إلى Evaluation داخل customProperties. إذا لم تحدد Evaluation، يتم التعامل مع الاختبار كاختبار فحص الجودة. سواء تم تعيين الخاصية testingKind إلى Evaluation أو Inspection، أو لم يتم تعيينها، يمكنك الوصول إلى درجات الدقة عبر واجهة برمجة التطبيقات، ولكن ليس في Speech Studio.
  • قم بتعيين الخاصية model1 المطلوبة إلى URI لنموذج تريد اختباره.
  • قم بتعيين الخاصية model2 المطلوبة إلى URI لنموذج آخر تريد اختباره. إذا كنت لا تريد مقارنة نموذجين، فاستخدم نفس النموذج لكل من model1 وmodel2.
  • قم بتعيين الخاصية dataset المطلوبة إلى URI لمجموعة بيانات تريد استخدامها للاختبار.
  • عيّن الخاصية locale المطلوبة. يجب أن تكون هذه الخاصية هي الإعدادات المحلية لمحتويات مجموعة البيانات. لا يمكن تغيير الإعدادات المحلية لاحقًا.
  • عيّن الخاصية displayName المطلوبة. هذه الخاصية هي الاسم الذي يتم عرضه في Speech Studio.

قدم طلب HTTP POST باستخدام URI كما هو موضح في المثال التالي. استبدل YourSubscriptionKey بمفتاح مورد الكلام لديك، واستبدل YourServiceRegion بمنطقة مورد الكلام، وعيّن خصائص نص الطلب كما هو موضح سابقاً.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "displayName": "My Evaluation",
  "description": "My Evaluation Description",
  "customProperties": {
    "testingKind": "Evaluation"
  },
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations"

يجب أن تتلقى نص الاستجابة بالتنسيق التالي:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
  "model1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
  },
  "model2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "dataset": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
  },
  "transcription2": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
  },
  "transcription1": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
  },
  "properties": {
    "wordErrorRate2": -1.0,
    "wordErrorRate1": -1.0,
    "sentenceErrorRate2": -1.0,
    "sentenceCount2": -1,
    "wordCount2": -1,
    "correctWordCount2": -1,
    "wordSubstitutionCount2": -1,
    "wordDeletionCount2": -1,
    "wordInsertionCount2": -1,
    "sentenceErrorRate1": -1.0,
    "sentenceCount1": -1,
    "wordCount1": -1,
    "correctWordCount1": -1,
    "wordSubstitutionCount1": -1,
    "wordDeletionCount1": -1,
    "wordInsertionCount1": -1
  },
  "lastActionDateTime": "2022-05-20T16:42:43Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T16:42:43Z",
  "locale": "en-US",
  "displayName": "My Evaluation",
  "description": "My Evaluation Description",
  "customProperties": {
    "testingKind": "Evaluation"
  }
}

خاصية المستوى الأعلى self في نص الاستجابة هي URI للتقييم. استخدم URI هذا للحصول على تفاصيل حول مشروع التقييم ونتائج الاختبار. يمكنك أيضًا استخدام URI هذا لتحديث التقييم أو حذفه.

الحصول على نتائج الاختبار

يجب أن تحصل على نتائج الاختبار وتقييم معدل خطأ الكلمة (WER) مقارنة بنتائج التعرف على الكلام.

اتبع هذه الخطوات للحصول على نتائج الاختبار:

  1. سجّل الدخول إلـى Speech Studio.
  2. حدد Custom speech> Your project name >Test models.
  3. حدد الارتباط حسب اسم الاختبار.
  4. بعد اكتمال الاختبار، كما هو موضح في تعيين الحالة إلى Succeeded، يجب أن تشاهد النتائج التي تتضمن رقم WER لكل نموذج تم اختباره.

تسرد هذه الصفحة جميع التعبيرات في مجموعة البيانات ونتائج التعرف، إلى جانب كتابة الحديث من مجموعة البيانات المرسلة. يمكنك التبديل بين أنواع الأخطاء المختلفة، بما في ذلك الإدراج والحذف والاستبدال. من خلال الاستماع إلى الصوت ومقارنة نتائج التعرف في كل عمود، يمكنك تحديد النموذج الذي يلبي احتياجاتك وتحديد مكان الحاجة إلى المزيد من التدريب والتحسينات.

للحصول على نتائج الاختبار، استخدم الأمر spx csr evaluation status. أنشئ عمليات الطلب وفقاً للتعليمات التالية:

  • قم بتعيين المعلمة evaluation المطلوبة إلى معرف التقييم الذي تريد الحصول على نتائج الاختبار.

فيما يلي مثال على أمر Speech CLI الذي يحصل على نتائج الاختبار:

spx csr evaluation status --api-version v3.1 --evaluation 8bfe6b05-f093-4ab4-be7d-180374b751ca

يتم إرجاع معدلات الخطأ والمزيد من التفاصيل في نص الاستجابة.

يجب أن تتلقى نص الاستجابة بالتنسيق التالي:

{
	"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
	"model1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
	},
	"model2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
	},
	"dataset": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
	},
	"transcription2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
	},
	"transcription1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
	},
	"project": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
	},
	"links": {
		"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
	},
	"properties": {
		"wordErrorRate2": 4.62,
		"wordErrorRate1": 4.6,
		"sentenceErrorRate2": 66.7,
		"sentenceCount2": 3,
		"wordCount2": 173,
		"correctWordCount2": 166,
		"wordSubstitutionCount2": 7,
		"wordDeletionCount2": 0,
		"wordInsertionCount2": 1,
		"sentenceErrorRate1": 66.7,
		"sentenceCount1": 3,
		"wordCount1": 174,
		"correctWordCount1": 166,
		"wordSubstitutionCount1": 7,
		"wordDeletionCount1": 1,
		"wordInsertionCount1": 0
	},
	"lastActionDateTime": "2022-05-20T16:42:56Z",
	"status": "Succeeded",
	"createdDateTime": "2022-05-20T16:42:43Z",
	"locale": "en-US",
	"displayName": "My Evaluation",
	"description": "My Evaluation Description",
	"customProperties": {
		"testingKind": "Evaluation"
	}
}

للحصول على تعليمات Speech CLI في التقييمات، قم بتشغيل الأمر التالي:

spx help csr evaluation

للحصول على نتائج الاختبار، ابدأ باستخدام عملية Evaluations_Get من Speech to text REST API.

قم بإجراء طلب HTTP GET باستخدام URI كما هو موضح في المثال التالي. استبدل YourEvaluationId بمعرف التقييم الخاص بك، واستبدل YourSubscriptionKey بمفتاح مورد الكلام، واستبدل YourServiceRegion بمنطقة مورد Speech.

curl -v -X GET "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/YourEvaluationId" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

يتم إرجاع معدلات الخطأ والمزيد من التفاصيل في نص الاستجابة.

يجب أن تتلقى نص الاستجابة بالتنسيق التالي:

{
	"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca",
	"model1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/ff43e922-e3e6-4bf0-8473-55c08fd68048"
	},
	"model2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
	},
	"dataset": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/be378d9d-a9d7-4d4a-820a-e0432e8678c7"
	},
	"transcription2": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/6eaf6a15-6076-466a-83d4-a30dba78ca63"
	},
	"transcription1": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/0c5b1630-fadf-444d-827f-d6da9c0cf0c3"
	},
	"project": {
		"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/9f8c4cbb-f9a5-4ec1-8bb0-53cfa9221226"
	},
	"links": {
		"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/evaluations/8bfe6b05-f093-4ab4-be7d-180374b751ca/files"
	},
	"properties": {
		"wordErrorRate2": 4.62,
		"wordErrorRate1": 4.6,
		"sentenceErrorRate2": 66.7,
		"sentenceCount2": 3,
		"wordCount2": 173,
		"correctWordCount2": 166,
		"wordSubstitutionCount2": 7,
		"wordDeletionCount2": 0,
		"wordInsertionCount2": 1,
		"sentenceErrorRate1": 66.7,
		"sentenceCount1": 3,
		"wordCount1": 174,
		"correctWordCount1": 166,
		"wordSubstitutionCount1": 7,
		"wordDeletionCount1": 1,
		"wordInsertionCount1": 0
	},
	"lastActionDateTime": "2022-05-20T16:42:56Z",
	"status": "Succeeded",
	"createdDateTime": "2022-05-20T16:42:43Z",
	"locale": "en-US",
	"displayName": "My Evaluation",
	"description": "My Evaluation Description",
	"customProperties": {
		"testingKind": "Evaluation"
	}
}

تقييم معدل خطأ الكلمات (WER)

معيار الصناعة لقياس دقة النموذج هو معدل خطأ الكلمات (WER). يحسب WER عدد الكلمات غير الصحيحة التي تم تحديدها أثناء التعرف، ويقسم المجموع على العدد الإجمالي للكلمات المتوفرة في النسخة المكتوبة بتسمية بشرية (N).

تقع الكلمات المحددة بشكل غير صحيح في ثلاث فئات:

  • الإدراج (I): الكلمات التي تمت إضافتها بشكل غير صحيح في نص الفرضية
  • الحذف (D): الكلمات التي لم يتم كشفها في نص الفرضية
  • استبدال (S): الكلمات التي تم استبدالها بين المرجع والفرضية

في Speech Studio، يتم ضرب الاقتباس × 100 ويظهر كنسبة مئوية. لا يتم ضرب نتائج Speech CLI وREST API في 100.

$$ WER = {{I+D+S}\over N} \times 100 $$

فيما يلي مثال يوضح كلمات تم تعريفها بشكل غير صحيح، بالمقارنة مع النسخة المكتوبة باسم الإنسان:

لقطة شاشة تعرض مثالاً للكلمات التي تم تحديدها بشكل غير صحيح.

أخطأت نتيجة التعرف على الكلام على النحو التالي:

  • الإدراج (I): إضافة الكلمة "a"
  • الحذف (D): حذف الكلمة "are"
  • استبدال (S): استبدال كلمة "جونز" بـ "جون"

معدل خطأ الكلمة من المثال السابق هو 60%.

إذا كنت ترغب في نسخ قياسات WER محلياً، يمكنك استخدام أداة sclite من مجموعة أدوات NIST Scoring Toolkit (SCTK).

حل الأخطاء وتحسين WER

يمكنك استخدام حساب WER من نتائج التعرف الخاصة بالجهاز لتقييم جودة النموذج الذي تستخدمه مع التطبيق أو الأداة أو المنتج. يعد WER بنسبة 5-10% بجودة جيدة وجاهز للاستخدام. يعد WER بنسبة 20٪ مقبولا، ولكن قد ترغب في التفكير في المزيد من التدريب. يشير WER بنسبة 30% أو أكثر إلى جودة رديئة ويتطلب التخصيص والتدريب.

تعد كيفية توزيع الأخطاء أمراً مهماً. عند مواجهة العديد من أخطاء الحذف، يكون ذلك عادة بسبب ضعف قوة الإشارة الصوتية. لحل هذه المشكلة، تحتاج إلى جمع البيانات الصوتية في مكان أقرب إلى المصدر. تعني أخطاء الإدراج أنه تم تسجيل الصوت في بيئة صاخبة وقد يكون تداخل صوتي عرضي، ما يتسبب في حدوث مشكلات في التعرف. غالبا ما تتم مواجهة أخطاء الاستبدال عندما يتم توفير عينة غير كافية من المصطلحات الخاصة بالمجال إما كنصوص مسماة من قبل الإنسان أو كنص ذي صلة.

من خلال تحليل الملفات الفردية، يمكنك تحديد نوع الأخطاء الموجودة، والأخطاء الفريدة لملف معين. يساعدك فهم المشكلات على مستوى الملف على استهداف التحسينات.

تقييم معدل خطأ الرمز المميز (TER)

بالإضافة إلى معدل خطأ الكلمات، يمكنك أيضا استخدام القياس الموسع لمعدل خطأ الرمز المميز (TER) لتقييم الجودة على تنسيق العرض النهائي من طرف إلى طرف. بالإضافة إلى التنسيق المعجمي (That will cost $900. بدلا من that will cost nine hundred dollars)، يأخذ TER في الاعتبار جوانب تنسيق العرض مثل علامات الترقيم والأحرف الكبيرة و ITN. تعرف على المزيد حول عرض تنسيق الإخراج مع تحويل الكلام إلى نص.

تحسب TER عدد الرموز المميزة غير الصحيحة المحددة أثناء التعرف، وتقسم المجموع على إجمالي عدد الرموز المميزة المقدمة في النسخة المكتوبة بالإنسان (N).

$$ TER = {{I+D+S}\over N} \times 100 $$

صيغة حساب TER مشابهة أيضا ل WER. الفرق الوحيد هو أن TER يتم حسابها استنادا إلى مستوى الرمز المميز بدلا من مستوى الكلمة.

  • الإدراج (I): الرموز المميزة التي تمت إضافتها بشكل غير صحيح في نسخة الفرضية
  • الحذف (D): الرموز المميزة التي لم يتم كشفها في نسخة الفرضية
  • الاستبدال (S): الرموز المميزة التي تم استبدالها بين المرجع والفرضية

في حالة العالم الحقيقي، يمكنك تحليل نتائج كل من WER وTER للحصول على التحسينات المطلوبة.

إشعار

لقياس TER، تحتاج إلى التأكد من أن بيانات اختبار الصوت + النسخة تتضمن نصوصا بتنسيق العرض مثل علامات الترقيم والأحرف الكبيرة و ITN.

مثال على نتائج السيناريو

تختلف سيناريوهات التعرف على الكلام حسب جودة الصوت واللغة (المفردات ونمط التحدث). يفحص الجدول التالي أربعة سيناريوهات شائعة:

السيناريو جودة الصوت المفردات نمط التحدث
مركز الاتصالات منخفض، 8 كيلوهرتز، يمكن ضغط شخصين على قناة صوتية واحدة ضيق وفريد للمجال والمنتجات محادثة، منظمة بشكل فضفاض
مساعد صوتي، مثل Cortana، أو نافذة تنقل عبر محرك الأقراص مرتفع، 16 كيلوهرتز الكيانات الثقيلة (عناوين الأغاني والمنتجات والمواقع) الكلمات والعبارات المعلنة بوضوح
الإملاء (رسالة فورية، ملاحظات، بحث) مرتفع، 16 كيلوهرتز متنوعه تدوين الملاحظات
التسمية التوضيحية المغلقة للفيديو متنوعة، بما في ذلك استخدام الميكروفون المتنوع، وأضاف الموسيقى متنوعة، من الاجتماعات، تلاوة الكلام، كلمات موسيقية قراءة أو إعداد أو تنظيم فضفاض

تنتج سيناريوهات مختلفة نتائج جودة مختلفة. يفحص الجدول التالي كيفية عرض المحتوى من هذه السيناريوهات الأربعة في WER. يوضح الجدول أنواع الأخطاء الأكثر شيوعاً في كل سيناريو. تساعدك معدلات خطأ الإدراج والاستبدال والحذف على تحديد نوع البيانات التي تجب إضافتها لتحسين النموذج.

السيناريو جودة التعرف على الكلام أخطاء الإدراج أخطاء الحذف أخطاء الاستبدال
مركز الاتصالات متوسط
(< 30٪ WER)
منخفض، إلا عندما يتحدث أشخاص آخرون في الخلفية يمكن أن تكون عالية. يمكن أن تكون مراكز الاتصال مزعجة، ويمكن أن يؤدي تداخل السماعات إلى إرباك النموذج متوسط. يمكن أن تتسبب أسماء المنتجات والأشخاص في حدوث هذه الأخطاء
مساعد صوتي درجة عالية
(يمكن أن يكون < 10٪ WER)
منخفض منخفض متوسط، بسبب عناوين الأغاني أو أسماء المنتجات أو المواقع
الإملاء درجة عالية
(يمكن أن يكون < 10٪ WER)
منخفض منخفض مرتفع
التسمية التوضيحية المغلقة للفيديو يعتمد على نوع الفيديو (يمكن أن يكون < 50٪ WER) منخفض يمكن أن تكون عالية بسبب الموسيقى والضوضاء وجودة الميكروفون قد تتسبب المصطلحات في حدوث هذه الأخطاء

الخطوات التالية