تسمية البيانات النصية لتدريب النموذج الخاص بك

قبل تدريب النموذج الخاص بك، تحتاج إلى تسمية مستنداتك بالفئات التي تريد تصنيفها إليها. تعد تسمية البيانات خطوة حاسمة في دورة حياة التطوير؛ في هذه الخطوة، يمكنك إنشاء الفئات التي تريد تصنيف بياناتك فيها وتسمية مستنداتك بهذه الفئات. سيتم استخدام هذه البيانات في الخطوة التالية عند تدريب النموذج الخاص بك بحيث يمكن للنموذج الخاص بك التعلم من البيانات المسماة. إذا كنت قد قمت بالفعل بتسمية البيانات، فيمكنك استيرادها مباشرةً إلى مشروعك ولكنك تحتاج إلى التأكد من أن بياناتك تتبع تنسيق البيانات المقبول.

قبل إنشاء نموذج تصنيف نص مخصص، تحتاج إلى تسمية البيانات أولاً. إذا لم تتم تسمية بياناتك بالفعل، يمكنك تسميتها في Language Studio. تُوضح البيانات المسماة النموذج كيفية تفسير النص، وتستخدم للتدريب والتقييم.

المتطلبات الأساسية

قبل أن تتمكن من تسمية بياناتك، تحتاج إلى:

  • مشروع مُنشأ بنجاح باستخدام حساب تخزين Azure لكائن ثنائي كبير الحجم مُكّون،
  • المستندات التي تحتوي على بيانات نصية تم تحميلها إلى حساب التخزين الخاص بك.

راجع دورة حياة تطوير المشروع لمزيد من المعلومات.

إرشادات تسمية البيانات

بعد إعداد بياناتك وتصميم المخطط وإنشاء مشروعك، ستحتاج إلى تسمية بياناتك. يعد تصنيف بياناتك أمراً مهماً حتى يعرف نموذجك المستندات التي سيتم إقرانها بالفئات التي تحتاجها. عند تسمية بياناتك في Language Studio (أو استيراد بيانات مسماة)، سيتم تخزين هذه التسميات في ملف JSON في حاوية التخزين التي قمت بتوصيلها بهذا المشروع.

أثناء تسمية بياناتك، ضع في اعتبارك ما يلي:

  • بشكلٍ عام، تؤدي المزيد من البيانات المصنفة إلى نتائج أفضل، بشرط أن تتم تسمية البيانات بدقة.

  • لا يوجد عدد ثابت من التسميات التي يمكن أن تضمن أداء النموذج الخاص بك على أفضل نحو. يعتمد أداء النموذج على الغموض المحتمل في المخطط الخاص بك، وجودة البيانات المسماة. ومع ذلك، نوصي بـ 50 مستنداً مسمى لكل فئة.

تسمية البيانات

استخدم الخطوات التالية لتسمية البيانات:

  1. انتقل إلى صفحة مشروعك في Language Studio.

  2. من القائمة اليسرى، حدد Data labeling. يمكنك العثور على قائمة بجميع المستندات في حاوية التخزين الخاصة بك. راجع الصورة أدناه.

    تلميح

    يمكنك استخدام عوامل التصفية في القائمة العلوية لعرض الملفات غير المسماة بحيث يمكنك البدء في تسميتها. يمكنك أيضاً استخدام عوامل التصفية لعرض المستندات المسماة بنوع كيان معين.

  3. قم بالتغيير إلى طريقة عرض ملف واحدة من الجانب الأيسر في القائمة العلوية أو حدد ملفاً معيناً لبدء التسمية. يمكنك العثور على قائمة بجميع .txt الملفات المتوفرة في مشروعك إلى اليسار. يمكنك استخدام الزر Back وNext من أسفل الصفحة للتنقل عبر مستنداتك.

    ملاحظة

    إذا قمت بتمكين لغات متعددة لمشروعك، فستجد القائمة المنسدلة اللغة في القائمة العلوية، والتي تتيح لك تحديد لغة كل مستند.

  4. في الجزء الأيمن، أضف فئة إلى مشروعك حتى تتمكن من البدء في تسمية بياناتك معهم.

  5. ابدأ في تسمية ملفاتك.

    تصنيف التسميات المتعددة: يمكن تسمية الملف بفئات متعددة، ويمكنك القيام بذلك عن طريق تحديد جميع خانات الاختيار القابلة للتطبيق بجوار الفئات التي تريد تسمية هذا المستند بها.

    لقطة شاشة تعرض صفحة علامة تصنيف الملصقات المتعددة.

    يمكنك أيضا استخدام ميزة التسمية التلقائية لضمان التسمية الكاملة.

  6. في الجزء الأيمن ضمن محور Labels، يمكنك العثور على جميع أنواع الفئات في مشروعك وعدد المثيلات المسماة لكل منها.

  7. في القسم السفلي من الجزء الأيمن، يمكنك إضافة الملف الحالي الذي تعرضه إلى مجموعة التدريب أو مجموعة الاختبار. بشكلٍ افتراضي، تتم إضافة جميع المستندات إلى مجموعة التدريب الخاصة بك. تعرف على المزيد حول مجموعات التدريب والاختبار وكيفية استخدامها لتدريب النموذج وتقييمه.

    تلميح

    إذا كنت تخطط لاستخدام تقسيم البيانات التلقائي، فاستخدم الخيار الافتراضي لتعيين جميع المستندات في مجموعة التدريب الخاصة بك.

  8. ضمن محور التوزيع، يمكنك عرض التوزيع عبر مجموعات التدريب والاختبار. لديك خياران للعرض:

    • إجمالي المثيلات حيث يمكنك عرض عدد كافة المثيلات المُسماة لفئة معينة.
    • الملفات ذات التسمية الواحدة على الأقل حيث يتم حساب كل مستند إذا كان يحتوي على مثيل واحد على الأقل مسمى لهذه الفئة.
  9. عند التسمية، ستتم مزامنة تغييراتك بشكلٍ دوري، وإذا لم يتم حفظها بعد، فستجد تحذيراً في أعلى الصفحة. إذا كنت تريد الحفظ يدويا، فحدد الزر حفظ التسميات في أسفل الصفحة.

إزالة التسميات

إذا كنت تريد إزالة تسمية، فقم بإلغاء تحديد الزر الموجود بجانب الفئة.

حذف أو فئات

لحذف فئة، حدد أيقونة الحذف بجوار الفئة التي تريد إزالتها. سيؤدي حذف كيان إلى إزالة جميع مثيلاته المسماة من مجموعة البيانات الخاصة بك.

الخطوات التالية

بعد تسمية بياناتك، يمكنك البدء في تدريب نموذج سيتعلم استناداً إلى بياناتك.