جمع البيانات لتطبيقك

هام

سيتم إيقاف LUIS في 1 أكتوبر 2025 وبدءا من 1 أبريل 2023، لن تتمكن من إنشاء موارد LUIS جديدة. نوصي بترحيل تطبيقات LUIS الخاصة بك إلى فهم لغة المحادثة للاستفادة من دعم المنتج المستمر والقدرات متعددة اللغات.

يحتاج تطبيق فهم اللغة (LUIS) إلى بيانات كجزء من تطوير التطبيق.

البيانات المستخدمة في LUIS

يستخدم LUIS النص كبيانات لتدريب واختبار تطبيق LUIS لتصنيف intents واستخراج entities. أنت بحاجة إلى مجموعة بيانات كبيرة بما يكفي بحيث يكون لديك بيانات كافية لإنشاء مجموعات بيانات منفصلة لكل من التدريب والاختبار التي تحتوي على التنوع والتوزيع الموضح أدناه على وجه التحديد. يجب ألا تتداخل البيانات في كل من هذه المجموعات.

اختيار بيانات التدريب مثل الأقوال المنطوقة

حدد الأقوال المنطوقة لمجموعة التدريب الخاصة بك بناءً على المعايير التالية:

  • البيانات الحقيقية هي الأفضل:

    • بيانات حقيقية من تطبيق العميل: حدد الأقوال المنطوقة التي تعد بيانات حقيقية من تطبيق العميل. إذا أرسل العميل نموذج ويب مع استفساره اليوم، وكنت تقوم ببناء روبوت، يمكنك البدء باستخدام بيانات نموذج الويب.
    • بيانات من مصادر جماعية: إذا لم يكن لديك أي بيانات حالية، ففكر في الأقوال المنطوقة من مصادر خارجية. حاول جمع أقوال المصدر من جمهور المستخدمين الفعليين للسيناريو الخاص بك للحصول على أفضل تقريب للبيانات الحقيقية التي سيشاهدها تطبيقك. إن أقوال الإنسان المنطوقة المأخوذة من مصادر بشرية تعد أفضل من الأقوال التي ينشئها الكمبيوتر. عندما تقوم ببناء مجموعة بيانات من الكلمات التركيبية التي تم إنشاؤها على أنماط معينة، فإنها ستفتقر إلى الكثير من التباين الطبيعي الذي ستراه مع الأشخاص الذين ينشئون الأقوال ولن ينتهي بهم الأمر إلى التعميم بشكل جيد في الإنتاج.
  • تنوع البيانات:

    • تنوع المنطقة: تأكد من تنوع البيانات الخاصة بكل هدف قدر الإمكان بما في ذلك الصياغة (اختيار الكلمات) والقواعد النحوية. إذا كنت تدرس هدفاً بشأن نُهج الموارد البشرية حول أيام الإجازة، فتأكد من أن لديك أقوالاً تمثل المصطلحات المستخدمة لجميع المناطق التي تخدمها. على سبيل المثال، في أوروبا قد يسأل الناس عن taking a holiday وفي الولايات المتحدة قد يسأل الناس عن taking vacation days.
    • تنوع اللغة: إذا كان لديك مستخدمون بلغات أصلية مختلفة ويتواصلون بلغة ثانية، فتأكد من وجود أقوال تمثل المتحدثين غير الأصليين.
    • تنوع المدخلات: ضع في اعتبارك مسار إدخال البيانات. إذا كنت تجمع البيانات من شخص واحد أو قسم أو جهاز إدخال (ميكروفون)، فمن المحتمل أن تفتقد التنوع الذي سيكون مهماً لتطبيقك للتعرف على جميع مسارات الإدخال.
    • تنوع علامات الترقيم: ضع في اعتبارك أن الأشخاص يستخدمون مستويات مختلفة من علامات الترقيم في التطبيقات النصية وتأكد من تنوع كيفية استخدام علامات الترقيم. إذا كنت تستخدم البيانات التي تأتي من الكلام، فلن تحتوي على أي علامات ترقيم، لذلك لا ينبغي أن تكون بياناتك كذلك.
  • توزيع البيانات: تأكد من أن البيانات المنتشرة عبر الأهداف تمثل نفس انتشار البيانات التي يتلقاها تطبيق العميل الخاص بك. إذا كان تطبيق LUIS الخاص بك سيصنف الكلمات المنطوقة التي هي طلبات لجدولة إجازة (50%)، لكنه سيشاهد أيضاً تصريحات حول الاستفسار عن أيام الإجازة المتبقية (20%)، والموافقة على الإجازات (20%) وبعضها خارج النطاق والدردشة. (10%) إذن يجب أن تحتوي مجموعة البيانات الخاصة بك على النسب المئوية لكل نوع من أنواع الكلام.

  • استخدام جميع نماذج البيانات: إذا كان تطبيق LUIS الخاص بك سيأخذ البيانات في نماذج متعددة، فتأكد من تضمين هذه النماذج في كلمات التدريب. على سبيل المثال، إذا كان تطبيق العميل الخاص بك يأخذ كل من إدخال الكلام والنص المطبوع، فستحتاج إلى أن يكون لديك كلام إلى تعبيرات تم إنشاؤها بواسطة النص بالإضافة إلى الألفاظ المطبوعة. سترى اختلافات مختلفة في كيفية تحدث الأشخاص من طريقة كتابتهم بالإضافة إلى أخطاء مختلفة في التعرف على الكلام والأخطاء المطبعية. يجب تمثيل كل هذا الاختلاف في بيانات التدريب الخاصة بك.

  • الأمثلة الإيجابية والسلبية: لتعليم تطبيق LUIS، يجب أن يتعلم ما المقصود بالهدف (إيجابي) وما غير ذلك (سلبي). في LUIS، يمكن أن تكون الكلمات المنطوقة إيجابية فقط لهدف واحدة. عند إضافة نطق إلى هدف ما، يجعل LUIS تلقائياً نفس المثال المنطوق مثالاً سلبياً لجميع المقاصد الأخرى.

  • بيانات خارج نطاق التطبيق: إذا كان التطبيق الخاص بك سيشاهد أقوالاً تقع خارج أهدافك المحددة، فتأكد من تقديمها. ستتم تسمية الأمثلة التي لم يتم تعيينها لغرض محدد بهدف None. من المهم أن يكون لديك أمثلة واقعية للهدف None للتوقع الصحيح بالألفاظ التي تقع خارج نطاق المقاصد المحددة.

    على سبيل المثال، إذا كنت تقوم بإنشاء روبوت موارد بشرية يركز على وقت الإجازة ولديك ثلاث نوايا:

    • جدولة أو تعديل إجازة
    • استفسر عن أيام الإجازة المتاحة
    • الموافقة/عدم الموافقة على الإجازة

    تريد التأكد من أن لديك أقوالاً تغطي كلاً من هذه النوايا، ولكن أيضاً تغطي الكلام المحتمل خارج هذا النطاق الذي يجب أن يخدمه التطبيق على النحو التالي:

    • What are my medical benefits?
    • Who is my HR rep?
    • tell me a joke
  • أمثلة نادرة: سيحتاج تطبيقك إلى أمثلة نادرة بالإضافة إلى أمثلة شائعة. إذا لم يشاهد تطبيقك أمثلة نادرة من قبل، فلن يتمكن من التعرف عليها في الإنتاج. إذا كنت تستخدم بيانات حقيقية، فستتمكن من التوقع بشكل أكثر دقة بكيفية عمل تطبيق LUIS في الإنتاج.

الجودة بدلاً من الكمية

ضع في اعتبارك جودة بياناتك الحالية قبل إضافة المزيد من البيانات. مع LUIS، أنت تستخدم آلة التدريس. إن مجموعة التسميات الخاصة بك وميزات التعلم الآلي التي تحددها هي ما يستخدمه تطبيق LUIS الخاص بك. لا يعتمد فقط على كمية الملصقات لتحقيق أفضل توقع. يعد تنوع الأمثلة وتمثيلها لما سيراه تطبيق LUIS الخاص بك في الإنتاج هو الجزء الأكثر أهمية.

المعالجة المسبقة للبيانات

ستساعد خطوات المعالجة المسبقة التالية في بناء تطبيق LUIS أفضل:

  • إزالة التكرارات: الكلام المكرر لن يضر، لكنه لا يساعد أيضاً، لذا فإن إزالته ستوفر وقت وضع العلامات.
  • تطبيق نفس العملية التمهيدية لتطبيق العميل: إذا كان تطبيق العميل، الذي يستدعي نقطة نهاية توقع LUIS، يطبق معالجة البيانات في وقت التشغيل قبل إرسال النص إلى LUIS، يجب تدريب تطبيق LUIS على البيانات التي تتم معالجتها في نفس الطريقة.
  • لا تطبق عمليات تنظيف جديدة لا يستخدمها تطبيق العميل: إذا كان تطبيق العميل الخاص بك يقبل النص الذي تم إنشاؤه بطريقة الكلام مباشرةً دون أي تنظيف مثل القواعد النحوية أو علامات الترقيم، يجب أن تعكس أقوالك نفس الشيء بما في ذلك أي علامات الترقيم المفقودة وأي سوء تقدير آخر ستحتاج إلى حسابه.
  • لا تنظف البيانات: لا تتخلص من الإدخالات المشوهة التي قد تحصل عليها من التعرف على الكلام المشوه، أو ضغط المفاتيح العرضي، أو النص الذي به أخطاء إملائية/خطأ. إذا كان تطبيقك سيشاهد مدخلات مثل هذه، فمن المهم أن يتم تدريبه واختباره عليها. أضف نية غير صحيحة إذا كنت لا تتوقع أن يفهمها تطبيقك. قم بتسمية هذه البيانات لمساعدة تطبيق LUIS على توقع الاستجابة الصحيحة في وقت التشغيل. يمكن لتطبيق العميل الخاص بك اختيار استجابة مناسبة للألفاظ غير المفهومة مثل Please try again.

بيانات التسمية

  • تسمية النص كما لو كان صحيحاً: يجب أن تحتوي أمثلة الكلام المنطقي على جميع أشكال الكيان المسمى. يتضمن هذا النص الذي به أخطاء إملائية وأخطاء في كتابته وترجمته بشكل خاطئ.

مراجعة البيانات بعد تطبيق LUIS قيد الإنتاج

مراجعة الكلمات المنطوقة في نقطة النهاية لمراقبة حركة البيانات المنطوقة الحقيقية بمجرد توزيع تطبيق للإنتاج. يتيح لك ذلك تحديث كلمات التدريب الخاصة بك ببيانات حقيقية، ما يؤدي إلى تحسين تطبيقك. يجب تحسين أي تطبيق تم إنشاؤه باستخدام بيانات سيناريو من مصادر جماعية أو غير حقيقية بناءً على استخدامه الحقيقي.

اختيار بيانات الاختبار لاختبار الدُفعة

تنطبق جميع الكيانات المذكورة أعلاه لألفاظ التدريب على الكلام الذي يجب أن تستخدمه في مجموعة الاختبار الخاصة بك. تأكد من أن التوزيع عبر النوايا والكيانات يعكس التوزيع الحقيقي بأكبر قدر ممكن.

لا تُعِد استخدام الكلمات من مجموعة التدريب الخاصة بك في مجموعة الاختبار الخاصة بك. يؤدي هذا إلى تحيز نتائجك بشكل غير صحيح ولن يمنحك المؤشر الصحيح لكيفية أداء تطبيق LUIS في الإنتاج.

بمجرد نشر الإصدار الأول من التطبيق الخاص بك، يجب عليك تحديث مجموعة الاختبار الخاصة بك بألفاظ من نسبة استخدام الشبكة الحقيقية للتأكد من أن مجموعة الاختبار الخاصة بك تعكس توزيع الإنتاج الخاص بك ويمكنك مراقبة الأداء الواقعي بمرور الوقت.

الخطوات التالية

تعرف على كيفية تغيير LUIS لبياناتك قبل التوقع