إعداد مشروع تسمية نص وتصدير التسميات

في Azure التعلم الآلي، تعرف على كيفية إنشاء مشاريع تسمية البيانات وتشغيلها لتسمية البيانات النصية. حدد إما تسمية واحدة أو تسميات متعددة لتطبيقها على كل عنصر نصي.

يمكنك أيضا استخدام أداة تسمية البيانات في Azure التعلم الآلي لإنشاء مشروع تسمية صورة.

قدرات تسمية النص

Azure التعلم الآلي تسمية البيانات هي أداة يمكنك استخدامها لإنشاء مشاريع تسمية البيانات وإدارتها ومراقبتها. استخدمها في:

  • تنسيق البيانات والتسميات وأعضاء الفريق لإدارة مهام وضع العلامات بكفاءة.
  • تعقب التقدم والحفاظ على قائمة انتظار مهام التسمية غير المكتملة.
  • بدء المشروع وإيقافه، والتحكم في تقدم التسمية.
  • مراجعة وتصدير البيانات المسماة كمجموعة بيانات Azure التعلم الآلي.

هام

يجب أن تكون البيانات النصية التي تعمل معها في أداة تسمية البيانات التعلم الآلي Azure متوفرة في مخزن بيانات Azure Blob Storage. إذا لم يكن لديك مخزن بيانات موجود، يمكنك تحميل ملفات البيانات إلى مخزن بيانات جديد عند إنشاء مشروع.

تتوفر تنسيقات البيانات هذه للبيانات النصية:

  • .txt: يمثل كل ملف عنصرا واحدا ليتم تسميته.
  • .csv أو .tsv: يمثل كل صف عنصرا واحدا يتم تقديمه إلى الملصق. يمكنك تحديد الأعمدة التي يمكن أن يراها الملصق عند تسمية الصف.

المتطلبات الأساسية

يمكنك استخدام هذه العناصر لإعداد تسمية النص في Azure التعلم الآلي:

  • البيانات التي تريد تسميتها، إما في الملفات المحلية أو في Azure Blob Storage.
  • مجموعة التسميات التي تريد تطبيقها.
  • تعليمات وضع العلامات.
  • اشتراك Azure. في حال لم يكن لديك اشتراك Azure، فأنشئ حساباً مجانيّاً قبل البدء.
  • مساحة عمل للتعلم الآلي من Microsoft Azure. راجع "Create an Azure التعلم الآلي workspace".

إنشاء مشروع تسمية نصية

تتم إدارة مشاريع التسمية في Azure التعلم الآلي. استخدم صفحة تسمية البيانات في التعلم الآلي لإدارة مشاريعك.

إذا كانت بياناتك موجودة بالفعل في Azure Blob Storage، فتأكد من أنها متوفرة كمخزن بيانات قبل إنشاء مشروع التسمية.

  1. لإنشاء مشروع وحدد Add project.

  2. بالنسبة إلى اسم المشروع، أدخل اسما للمشروع.

    لا يمكنك إعادة استخدام اسم المشروع، حتى إذا قمت بحذف المشروع.

  3. لإنشاء مشروع تسمية نص، بالنسبة إلى نوع الوسائط، حدد نص.

  4. بالنسبة لنوع مهمة التسمية، حدد خيارا للسيناريو الخاص بك:

    • لتطبيق تسمية واحدة فقط على كل جزء من النص من مجموعة من التسميات، حدد تصنيف النص متعدد الفئات.
    • لتطبيق تسمية واحدة أو أكثر على كل جزء من النص من مجموعة من التسميات، حدد تصنيف النص متعدد التسميات.
    • لتطبيق التسميات على كلمات نصية فردية أو على كلمات نصية متعددة في كل إدخال، حدد التعرف على الكيان المسمى بالنص.

    Screenshot that shows creating a labeling project for text labeling.

  5. حدد التالي للمتابعة.

إضافة قوة عاملة (اختياري)

حدد Use a vendor labeling company from Azure Marketplace فقط إذا كنت قد أشركت شركة تصنيف بيانات من Azure Marketplace. ثم حدد البائع. إذا لم يظهر المورد في القائمة، فمسح هذا الخيار.

تأكد من الاتصال بالمورد أولا وتوقيع عقد. لمزيد من المعلومات وراجع العمل مع شركة موردة لتصنيف البيانات (إصدار أولي).

حدد التالي للمتابعة.

تحديد مجموعة بيانات أو إنشائها

إذا قمت بالفعل بإنشاء مجموعة بيانات تحتوي على بياناتك، فحددها في القائمة المنسدلة تحديد مجموعة بيانات موجودة. يمكنك أيضا تحديد إنشاء مجموعة بيانات لاستخدام مخزن بيانات Azure موجود أو لتحميل الملفات المحلية.

إشعار

لا يمكن أن يحتوي المشروع على أكثر من 500,000 ملف. إذا تجاوزت مجموعة البيانات عدد الملفات هذا، يتم تحميل أول 500000 ملف فقط.

أنشئ مجموعة بيانات من مخزن بيانات Azure

في كثير من الحالات، يمكنك تحميل الملفات المحلية. ومع ذلك، يوفر Azure Storage Explorer طريقة أسرع وأكثر قوة لنقل كمية كبيرة من البيانات. نوصي بـ Storage Explorer باعتباره الطريقة الافتراضية لنقل الملفات.

لإنشاء مجموعة بيانات من البيانات المخزنة بالفعل في Blob Storage:

  1. حدد إنشاء.
  2. بالنسبة إلى Name، أدخل اسما لمجموعة البيانات الخاصة بك. أدخل وصفًا بشكل اختياري.
  3. اختر نوع مجموعة البيانات:
    • إذا كنت تستخدم ملف .csv أو .tsv ويحتوي كل صف على استجابة، فحدد Tabular.
    • إذا كنت تستخدم ملفات .txt منفصلة لكل استجابة، فحدد ملف.
  4. حدد التالي.
  5. حدد من تخزين Azure، ثم حدد التالي.
  6. حدد مخزن البيانات، ثم حدد التالي.
  7. إذا كانت بياناتك في مجلد فرعي داخل Blob Storage، فاختر Browse لتحديد المسار.
    • لتضمين كافة الملفات في المجلدات الفرعية للمسار المحدد، قم بالإلحاق /** بالمسار.
    • لتضمين كافة البيانات في الحاوية الحالية ومجلداتها الفرعية، قم بإلحاق **/*.* بالمسار.
  8. حدد إنشاء.
  9. حدد أصل البيانات الذي أنشأته.

أنشئ مجموعة بيانات من البيانات التي تم تحميلها

لتحميل بياناتك مباشرة:

  1. حدد إنشاء.
  2. بالنسبة إلى Name، أدخل اسما لمجموعة البيانات الخاصة بك. أدخل وصفًا بشكل اختياري.
  3. اختر نوع مجموعة البيانات:
    • إذا كنت تستخدم ملف .csv أو .tsv ويحتوي كل صف على استجابة، فحدد Tabular.
    • إذا كنت تستخدم ملفات .txt منفصلة لكل استجابة، فحدد ملف.
  4. حدد التالي.
  5. حدد من الملفات المحلية، ثم حدد التالي.
  6. (اختياري) حدد مخزن بيانات. يتم تحميل الافتراضي إلى مخزن الكائن الثنائي كبير الحجم الافتراضي (workspaceblobstore) لمساحة عمل التعلم الآلي.
  7. حدد التالي.
  8. حدد تحميل>ملفات التحميل أو تحميل>مجلد التحميل لتحديد الملفات أو المجلدات المحلية لتحميلها.
  9. ابحث عن الملفات أو المجلد في نافذة المستعرض، ثم حدد فتح.
  10. تابع تحديد تحميل حتى تحدد جميع الملفات والمجلدات.
  11. حدد اختياريا خانة الاختيار الكتابة فوق إذا كان موجودا بالفعل. تحقق من قائمة الملفات والمجلدات.
  12. حدد التالي.
  13. قم بتأكيد التفاصيل. حدد Back لتعديل الإعدادات، أو حدد Create لإنشاء مجموعة البيانات.
  14. وأخيرا، حدد أصل البيانات الذي أنشأته.

تكوين التحديث التزايدي

إذا كنت تخطط لإضافة ملفات بيانات جديدة إلى مجموعة البيانات الخاصة بك، فاستخدم التحديث التزايدي لإضافة الملفات إلى مشروعك.

عند تعيين تمكين التحديث التزايدي على فترات منتظمة، يتم التحقق من مجموعة البيانات بشكل دوري لإضافة ملفات جديدة إلى مشروع استنادا إلى معدل اكتمال التسمية. يتوقف التحقق من البيانات الجديدة عندما يحتوي المشروع على 500000 ملف كحد أقصى.

حدد Enable incremental refresh at regular intervals عندما تريد أن يقوم مشروعك بمراقبة البيانات الجديدة باستمرار في مخزن البيانات.

امسح التحديد إذا كنت لا تريد إضافة ملفات جديدة في مخزن البيانات تلقائيا إلى مشروعك.

هام

لا تقم بإنشاء إصدار جديد لمجموعة البيانات التي تريد تحديثها. إذا قمت بذلك، فلن تظهر التحديثات لأن مشروع تسمية البيانات مثبت على الإصدار الأولي. بدلا من ذلك، استخدم Azure Storage Explorer لتعديل بياناتك في المجلد المناسب في Blob Storage.

أيضا، لا تقم بإزالة البيانات. تؤدي إزالة البيانات من مجموعة البيانات التي يستخدمها مشروعك إلى حدوث خطأ في المشروع.

بعد إنشاء المشروع، استخدم علامة التبويب تفاصيل لتغيير التحديث التزايدي، وعرض الطابع الزمني للتحديث الأخير، وطلب تحديث فوري للبيانات.

إشعار

يمكن للمشاريع التي تستخدم إدخال مجموعة بيانات جدولي (.csv أو .tsv) استخدام تحديث تزايدي. ولكن التحديث التزايدي يضيف فقط ملفات جدولية جديدة. لا يتعرف التحديث على التغييرات التي تطرأ على الملفات الجدولية الموجودة.

تحديد فئات التسمية

في صفحة فئات التسمية ، حدد مجموعة من الفئات لتصنيف بياناتك.

تتأثر دقة وسرعة الملصقات بقدرتهم على الاختيار من بين الفئات. على سبيل المثال وبدلاً من تهجئة الجنس والأنواع الكاملة للنباتات أو الحيوانات واستخدم تعليمة برمجية الحقل أو اختصر الجنس.

يمكنك استخدام قائمة مسطحة أو إنشاء مجموعات من التسميات.

  • لإنشاء قائمة مسطحة، حدد إضافة فئة تسمية لإنشاء كل تسمية.

    Screenshot that shows how to add a flat structure of labels.

  • لإنشاء تسميات في مجموعات مختلفة، حدد إضافة فئة تسمية لإنشاء تسميات المستوى الأعلى. ثم حدد علامة الجمع (+) ضمن كل مستوى أعلى لإنشاء المستوى التالي من التسميات لتلك الفئة. يمكنك إنشاء ما يصل إلى ستة مستويات لأي تجميع.

    Screenshot that shows how to add groups of labels.

يمكنك تحديد التسميات على أي مستوى أثناء عملية وضع العلامات. على سبيل المثال، التسميات Animalو Animal/CatColor/Silver Animal/DogColorColor/BlackColor/Whiteو كلها خيارات متوفرة لتسمية. في مشروع متعدد التسميات، لا توجد متطلبات لاختيار واحدة من كل فئة. إذا كان هذا هو هدفك، فتأكد من تضمين هذه المعلومات في التعليمات الخاصة بك.

قم بوصف مهمة وضع العلامات على النص

من المهم شرح مهمة التسمية بوضوح. في صفحة إرشادات التسمية، يمكنك إضافة ارتباط إلى موقع خارجي يحتوي على إرشادات وضع العلامات، أو يمكنك توفير إرشادات في مربع التحرير على الصفحة. حافظ على التعليمات موجهة نحو المهمة ومناسبة للجمهور. فكر في هذه الأسئلة:

  • ما هي ملصقات التسميات التي ستراها، وكيف ستختار من بينها؟ هل هناك نص مرجعي للإشارة إليه؟
  • ماذا يجب أن يفعلوا إذا لم يكن هناك ملصق يبدو مناسباً؟
  • ماذا يجب أن يفعلوا إذا بدت التصنيفات المتعددة مناسبة؟
  • ما هو حد الثقة الذي يجب أن يطبقوه على التصنيف؟ هل تريد أفضل تخمين للملصق إذا لم يكونوا متأكدين؟
  • ماذا ينبغي أن يفعلوا بأشياء الاهتمام المغطاة جزئياً أو المتداخلة؟
  • ماذا يجب أن يفعلوا إذا تم قص عنصر مثير للاهتمام من حافة الصورة؟
  • ماذا يجب أن يفعلوا إذا اعتقدوا أنهم ارتكبوا خطأ بعد أن أرسلوا وصفا؟
  • ماذا يجب أن يفعلوا إذا اكتشفوا مشكلات جودة الصورة، بما في ذلك ظروف الإضاءة السيئة، والانعكاسات، وفقدان التركيز، والخلفية غير المرغوب فيها المضمنة، وزوايا الكاميرا غير الطبيعية، وما إلى ذلك؟
  • ماذا يجب أن يفعلوا إذا كان لدى العديد من المراجعين آراء مختلفة حول تطبيق تسمية؟

إشعار

يمكن للتسميات تحديد التسميات التسعة الأولى باستخدام مفاتيح الأرقام من 1 إلى 9.

مراقبة الجودة (معاينة)

للحصول على تسميات أكثر دقة، استخدم صفحة مراقبة الجودة لإرسال كل عنصر إلى تسميات متعددة.

هام

وضع العلامات بتوافق الآراء قيد المعاينة العامة حاليا.

تتوفر نسخة الإصدار الأولي دون اتفاقية مستوى الخدمة، ولا يوصى به لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة.

لمزيد من المعلومات، راجع ⁧⁩شروط الاستخدام التكميلية لمعاينات Microsoft Azure⁧⁩.

لإرسال كل عنصر إلى تسميات متعددة، حدد تمكين تسمية توافق الآراء (معاينة). ثم قم بتعيين قيم الحد الأدنى للتسميات والحد الأقصى للتسميات لتحديد عدد التسميات التي يجب استخدامها. تأكد من أن لديك العديد من التسميات المتوفرة مثل الحد الأقصى لعددك. لا يمكنك تغيير هذه الإعدادات بعد بدء المشروع.

إذا تم التوصل إلى توافق في الآراء من الحد الأدنى لعدد التسميات، يتم تسمية العنصر. إذا لم يتم التوصل إلى توافق في الآراء، يتم إرسال العنصر إلى المزيد من التسميات. إذا لم يكن هناك توافق في الآراء بعد أن ينتقل العنصر إلى الحد الأقصى لعدد التسميات، فإن حالته هي مراجعة الاحتياجات، ويتحمل مالك المشروع مسؤولية تسمية العنصر.

استخدام وسم البيانات بمساعدة التعلم الآلي من Microsoft Azure

لتسريع مهام التسمية، يمكن لصفحة التسمية بمساعدة التعلم الآلي تشغيل نماذج التعلم الآلي التلقائية. يمكن أن تعالج التسمية بمساعدة التعلم الآلي (ML) مدخلات البيانات النصية (.txt) والملف الجدولي (.csv).

لاستخدام التسمية بمساعدة التعلم الآلي من Microsoft Azure:

  1. حدد التسمية بمساعدة التعلم الآلي من Microsoft Azure:
  2. حدد لغة مجموعة البيانات للمشروع. تعرض هذه القائمة جميع اللغات التي تدعمها فئة TextDNNLanguages.
  3. حدد هدف حساب لاستخدامه. إذا لم يكن لديك هدف حساب في مساحة العمل الخاصة بك، فإن هذه الخطوة تنشئ مجموعة حساب وتضيفها إلى مساحة العمل الخاصة بك. يتم إنشاء نظام المجموعة بحد أدنى من العقد الصفرية، ولا يكلف أي شيء عندما لا يكون قيد الاستخدام.

مزيد من المعلومات حول التسمية بمساعدة التعلم الآلي

في بداية مشروع التسمية الخاص بك، يتم تبديل العناصر في ترتيب عشوائي لتقليل التحيز المحتمل. ومع ذلك، يعكس النموذج المدرب أي تحيزات موجودة في مجموعة البيانات. على سبيل المثال، إذا كانت 80 بالمائة من العناصر الخاصة بك من فئة واحدة، فإن حوالي 80 بالمائة من البيانات المستخدمة لتدريب النموذج تصل إلى تلك الفئة.

لتدريب نموذج DNN للنص الذي تستخدمه التسمية بمساعدة ML، يقتصر نص الإدخال لكل مثال تدريب على أول 128 كلمة تقريبا في المستند. بالنسبة إلى الإدخال الجدولي، يتم تسلسل كافة أعمدة النص قبل تطبيق هذا الحد. يسمح هذا الحد العملي لإكمال تدريب النموذج في فترة زمنية معقولة. يمكن أن يتجاوز النص الفعلي في مستند (لإدخال الملف) أو مجموعة أعمدة النص (للإدخال الجدولي) 128 كلمة. يتعلق الحد فقط بما يستخدمه النموذج داخليا أثناء عملية التدريب.

عدد العناصر المسماة المطلوبة لبدء التسمية المساعدة ليس رقما ثابتا. يمكن أن يختلف هذا الرقم بشكل كبير من مشروع تسمية إلى آخر. يعتمد التباين على العديد من العوامل، بما في ذلك عدد فئات التسميات وتوزيع التسمية.

عند استخدام تسمية توافق الآراء، يتم استخدام تسمية توافق الآراء للتدريب.

نظرا لأن التسميات النهائية لا تزال تعتمد على الإدخال من الملصق، تسمى هذه التقنية أحيانا التسمية البشرية في التكرار الحلقي .

إشعار

لا تدعم تسمية البيانات بمساعدة التعلم الآلي حسابات التخزين الافتراضية المؤمنة خلف شبكة ظاهرية. يجب استخدام حساب تخزين غير افتراضي لتسمية البيانات بمساعدة التعلم الآلي. يمكن تأمين حساب التخزين غير الظاهري خلف الشبكة الظاهرية.

التسمية المسبقة

بعد إرسال تسميات كافية للتدريب، يتم استخدام النموذج المدرب للتنبؤ بالعلامات. يرى الملصق الآن الصفحات التي تعرض التسميات المتوقعة الموجودة بالفعل على كل عنصر. ثم تتضمن المهمة مراجعة هذه التنبؤات وتصحيح أي عناصر تم وصفها بشكل خاطئ قبل إرسال الصفحة.

بعد تدريب نموذج التعلم الآلي على البيانات المسماة يدويا، يتم تقييم النموذج على مجموعة اختبار من العناصر المسماة يدويا. يساعد التقييم على تحديد دقة النموذج عند حدود ثقة مختلفة. تحدد عملية التقييم حد الثقة الذي يتجاوزه النموذج بدقة كافية لإظهار التسميات المسبقة. ثم يتم تقييم النموذج مقابل البيانات غير المسماة. يتم استخدام العناصر التي تحتوي على تنبؤات أكثر ثقة من الحد للتسمية المسبقة.

تهيئة مشروع تسمية النص

بعد تهيئة مشروع التسمية، تكون بعض جوانب المشروع غير قابلة للتغيير. لا يمكنك تغيير نوع المهمة أو مجموعة البيانات. يمكنك تعديل التسميات وعنوان URL لوصف المهمة. راجع الإعدادات بعناية قبل إنشاء المشروع. بعد إرسال المشروع، يمكنك العودة إلى صفحة نظرة عامة على تسمية البيانات، والتي تعرض المشروع على أنه تهيئة.

إشعار

قد لا يتم تحديث هذه الصفحة تلقائيا. بعد الإيقاف المؤقت، قم بتحديث الصفحة يدويا لرؤية حالة المشروع على أنها تم إنشاؤها.

استكشاف الأخطاء وإصلاحها

لمعرفة المشاكل المتعلقة بإنشاء مشروع أو الوصول إلى البيانات، راجع استكشاف أخطاء تسمية البيانات وإصلاحها.

الخطوات التالية