نص المعالجة المسبقة

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم مكون نص المعالجة المسبقة لتنظيف النص وتبسيطه. فهو يدعم عمليات معالجة النصوص الشائعة هذه:

  • إزالة كلمات التوقف
  • استخدام التعبيرات العادية للبحث عن سلاسل مستهدفة محددة واستبدالها
  • اللماتة، الذي يحول كلمات متعددة ذات صلة إلى نموذج واحد متعارف عليه
  • تطبيع الحالة
  • إزالة فئات معينة من الأحرف، مثل الأرقام والأحرف الخاصة وتسلسلات الأحرف المتكررة مثل "aaaa"
  • التعرف على رسائل البريد الإلكتروني وعناوين URL وإزالتها

يدعم مكون نص المعالجة المسبقة حاليًا اللغة الإنجليزية فقط.

تكوين المعالجة المسبقة للنص

  1. أضف مكون نص المعالجة المسبقة إلى تدفقاتك في التعلم الآلي من Azure. يمكنك العثور على هذا المكون ضمن Text Analytics.

  2. قم بتوصيل مجموعة بيانات تحتوي على عمود واحد على الأقل يحتوي على نص.

  3. حدد اللغة من القائمة المنسدلة اللغة.

  4. عمود النص المراد تنظيفه: حدد العمود الذي تريد معالجته مسبقًا.

  5. إزالة كلمات التوقف: حدد هذا الخيار إذا كنت تريد تطبيق قائمة كلمات توقف معرفة مسبقًا على عمود النص.

    قوائم كلمات التوقف تعتمد على اللغة وقابلة للتخصيص.

  6. اللماتة: حدد هذا الخيار إذا كنت تريد تمثيل الكلمات في شكلها المتعارف عليه. هذا الخيار مفيد لتقليل عدد التكرارات الفريدة للرمز المميز للنص المتشابهة خلاف ذلك.

    تعتمد عملية اللماتة إلى حد كبير على اللغة.

  7. الكشف عن الجمل: حدد هذا الخيار إذا كنت تريد أن يقوم المكون بإدراج علامة حدود الجملة عند إجراء التحليل.

    يستخدم هذا المكون سلسلة من ثلاثة أحرف توجيه ||| لتمثيل فاصل الجملة.

  8. قم بتنفيذ عمليات البحث والاستبدال الاختيارية باستخدام التعبيرات العادية. ستتم معالجة التعبير العادي في البداية، قبل جميع الخيارات المضمنة الأخرى.

    • تعبير عادي مخصص: حدد النص الذي تبحث عنه.
    • سلسلة الاستبدال المخصصة: حدد قيمة استبدال واحدة.
  9. تطبيع حالة الأحرف إلى أحرف صغيرة: حدد هذا الخيار إذا كنت تريد تحويل الأحرف الكبيرة ASCII إلى أشكالها الصغيرة.

    إذا لم يتم تطبيع الأحرف، فإن نفس الكلمة بالأحرف الكبيرة والصغيرة تعتبر كلمتين مختلفتين.

  10. يمكنك أيضًا إزالة الأنواع التالية من الأحرف أو تسلسلات الأحرف من نص الإخراج المعالج:

    • إزالة الأرقام: حدد هذا الخيار لإزالة كافة الأحرف الرقمية للغة المحددة. أرقام التعريف تعتمد على المجال وتعتمد على اللغة. إذا كانت الأحرف الرقمية جزءًا لا يتجزأ من كلمة معروفة، فقد لا تتم إزالة الرقم. تعرف على المزيد في الملاحظات الفنية.

    • إزالة الأحرف الخاصة: استخدم هذا الخيار لإزالة أي أحرف خاصة غير أبجدية رقمية.

    • إزالة الأحرف المكررة: حدد هذا الخيار لإزالة الأحرف الإضافية في أي تسلسل يتكرر لأكثر من مرتين. على سبيل المثال، سيتم تقليل تسلسل مثل "aaaaa" إلى "aa".

    • إزالة عناوين البريد الإلكتروني: حدد هذا الخيار لإزالة أي تسلسل بالتنسيق <string>@<string>.

    • إزالة عناوين URL: حدد هذا الخيار لإزالة أي تسلسل يتضمن بادئات URL التالية: http، https، ftp، www

  11. توسيع تقلصات الفعل: ينطبق هذا الخيار فقط على اللغات التي تستخدم تقلصات الفعل؛ حاليًا، اللغة الإنجليزية فقط.

    على سبيل المثال، بتحديد هذا الخيار، يمكنك استبدال عبارة "wouldn't stay there" بعبارة "would not stay there".

  12. تطبيع الخطوط المائلة العكسية إلى خطوط مائلة: حدد هذا الخيار لتعيين كافة مثيلات \\ إلى /.

  13. تقسيم الرموز المميزة على الأحرف الخاصة: حدد هذا الخيار إذا كنت تريد تقسيم الكلمات على أحرف مثل & و- وهكذا. يمكن لهذا الخيار أيضًا تقليل الأحرف الخاصة عند تكراره أكثر من مرتين.

    على سبيل المثال، سيتم فصل السلسلة MS---WORD إلى ثلاثة رموز مميزة، MS و- وWORD.

  14. إرسال المسار.

ملاحظات فنية

يستخدم مكون نص المعالجة المسبقة في Studio (الكلاسيكي) والمصمم نماذج لغة مختلفة. يستخدم المصمم نموذج CNN مدربًا متعدد المهام من spaCy. تعطي النماذج المختلفة رمزًا مميزًا مختلفا وعلامة جزء من الكلام، ما يؤدي إلى نتائج مختلفة.

وفيما يلي بعض الأمثلة:

التكوين نتيجة الإخراج
مع تحديد جميع الخيارات
شرح:
بالنسبة للحالات مثل "3test" في "WC-3 3test 4test"، يزيل المصمم الكلمة بأكملها "3test"، نظرًا لأنه في هذا السياق، تحدد علامة جزء من الكلام هذا الرمز المميز "3test" كرقم، ووفقًا لجزء الكلام، يقوم المكون بإزالته.
مع تحديد جميع الخيارات
مع تحديد Removing number فقط
شرح :
بالنسبة للحالات مثل "3test"، "4-EC"، لا تقسم جرعة الرمز المميز للمصمم هذه الحالات، وتتعامل معها على أنها الرموز المميزة الكاملة. لذلك لن تزيل الأرقام في هذه الكلمات.
مع تحديد

يمكنك أيضًا استخدام التعبير العادي لإخراج نتائج مخصصة:

التكوين نتيجة الإخراج
مع تحديد جميع الخيارات
تعبير عادي مخصص: (\s+)*(-|\d+)(\s+)*
سلسلة استبدال مخصصة: \1 \2 \3
مع تحديد جميع الخيارات والتعبير العادي
مع تحديد Removing number فقط
تعبير عادي مخصص: (\s+)*(-|\d+)(\s+)*
سلسلة استبدال مخصصة: \1 \2 \3
مع إزالة الأرقام المحددة والتعبير العادي

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.