استخرج ميزات N-Gram من مرجع مكون النص

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure. استخدم مكون استخراج ميزات N-Gram من النص لتمييز البيانات النصية غير المنظمة.

تكوين استخراج ميزات N-Gram من مكون النص

يدعم المكون السيناريوهات الآتية لاستخدام قاموس n-gram:

تصميم قاموس n-gram جديد

  1. أضف مكون استخراج ميزات N-Gram من النص إلى البنية الأساسية لبرنامج ربط العمليات التجارية وقم بتوصيل مجموعة البيانات التي تحتوي على النص الذي تريد معالجته.

  2. استخدم Text column لاختيار عمود من نوع السلسلة يشتمل على النص الذي تريد استخراجه. نظرًا لأن النتائج مطولة، بإمكانك معالجة عمود واحد فقط في كل مرة.

  3. قم بتعيين وضع المفردات من أجل إنشاء للإشارة إلى أنك تقوم بإنشاء قائمة جديدة بميزات n-gram.

  4. قم بتعيين حجم N-Grams لتوضيح حجم الحد الأقصى لدى N-Grams للاستخراج والتخزين.

    على سبيل المثال، في حال قمت بإدخال 3، فسيتم إنشاء unigrams وbigrams وtrigrams.

  5. دالة الترجيح تحدد كيفية إنشاء متجه ميزة المستند وكيفية استخراج المفردات من المستندات.

    • الوزن الثنائي: يعين قيمة حضور ثنائية إلى N-Grams المستخرجة. قيمة كل N-Grams هي 1 في حال وجودها في المستند و0 بخلاف ذلك.

    • وزن تكرار المصطلح: يعين درجة تكرار المصطلح (TF) إلى N-Grams المستخرجة. قيمة كل N-Grams هي تكرار حدوثها في المستند.

    • وزن تكرار عكسي للمستند: يعين درجة تكرار المستند العكسي (IDF) إلى N-Grams المستخرجة. قيمة كل N-Grams هي سجل حجم المجموعة مقسومًا على تكرار حدوثها في المجموعة بأكملها.

      IDF = log of corpus_size / document_frequency

    • وزن تكرار المصطلح/التكرار العكسي للمستند: يعين درجة تكرار المصطلح/التكرار العكسي للمستند (TF/IDF) لـ N-Grams المستخرج. قيمة كل N-Grams هي درجة تكرار المصطلح مضروبة في درجة التكرار العكسي للمستند.

  6. تعيين الحد الأدنى لطول الكلمة إلى الحد الأدنى لعدد الأحرف التي من الممكن استخدامها في أي كلمة واحدة في n-gram.

  7. تعيين الحد الأدنى لطول الكلمة إلى الحد الأدنى لعدد الأحرف التي يمكن استخدامها في أي كلمة واحدة في n-gram.

    بشكل افتراضي، يتم السماح بـ 25 حرفًا لكل كلمة أو رمز مميز.

  8. استخدم الحد الأدنى للتكرار المطلق لمستند n-gram لتعيين الحد الأدنى للتكرار المطلوب لأي n-gram ليتم تضمينه في قاموس n-gram.

    على سبيل المثال، في حال كنت تستخدم القيمة الافتراضية 5، ينبغي أن يظهر أي n-gram خمس مرات على الأقل في المجموعة ليتم تضمينها في قاموس n-gram.

  9. قم بتعيين الحد الأقصى لنسبة مستند n-gram إلى الحد الأقصى لنسبة عدد الصفوف التي تحتوي على n-gram معين، على عدد الصفوف في المجموعة الشاملة.

    على سبيل المثال، تشير نسبة 1 إلى أنه حتى في حال كان هناك n-gram معين في كل صف، يمكن إضافة n-gram إلى قاموس n-gram. تعد عادة الكلمة التي تحدث في كل صف كلمات غير مؤثرة وستتم إزالتها. لتصفية الكلمات غير المؤثرة المعتمدة على المجال، حاول تقليل هذه النسبة.

    هام

    معدل التكرار لكلمات معينة غير موحد. يختلف من مستند إلى مستند آخر. على سبيل المثال، في حال كنت تقوم بتحليل تعليقات العملاء حول منتج معين فقد يكون اسم المنتج عالي التردد جدًا وقريب من الكلمات غير المؤثرة ولكن يكون مصطلحًا مهمًا في سياقات أخرى.

  10. قم بتحديد الخيار Normalize n-gram feature vectors لتطبيع متجهات الميزة. في حال تم تمكين هذا الخيار، يتم تقسيم كل متجه ميزة n-gram على معيار L2 الخاص به.

  11. إرسال المسار.

استخدام قاموس n-gram موجود

  1. إضافة مكون استخراج ميزات N-Gram من النص إلى البنية الأساسية لبرنامج ربط العمليات التجارية، وربط مجموعة البيانات التي تحتوي على النص الذي تريد معالجته بمنفذ مجموعة البيانات.

  2. استخدام عمود النص لتحديد عمود النص المحتوي على النص الذي تريد تمييزه. بشكل افتراضي، يقوم المكون بتحديد كافة أعمدة سلسلة النوع. لأفضل النتائج قم بمعالجة عمود واحد في كل مرة.

  3. قم بإضافة مجموعة البيانات المحفوظة التي تحتوي على قاموس n-gram تم إنشاؤه مسبقًا، وقم بربطه بمنفذ مفردات الإدخال. بإمكانك أيضًا ربط إخراج Result vocabulary لمثيل المصدر لمكون استخراج ميزات N-Gram من النص.

  4. بالنسبة لوضع المفردات، قم بتحديد خيار تحديثReadOnly من القائمة المنسدلة.

    يمثل خيار ReadOnly مجموعة إدخال مفردات الإدخال. عوضًا عن تكرارات مصطلح الحوسبة من مجموعة البيانات النصية الجديدة (على الإدخال الأيسر)، يتم تطبيق أوزان n-gram من مفردات الإدخال كما هي.

    تلميح

    استخدم هذا الخيار عند تسجيل مصنف للنص.

  5. للحصول على كل الخيارات الأخرى، راجع أوصاف الخاصية في القسم السابق.

  6. إرسال المسار.

إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية للاستدلال التي n-grams لتوزيع نقطة نهاية في الوقت الحقيقي

البنية الأساسية لبرنامج ربط العمليات التجارية للتدريب التي تحتوي على استخراج ميزات N-Gram من النصوScore Model لإجراء التنبؤ على مجموعة بيانات الاختبار، مضمنة في البنية التالية:

استخراج مثال N-Grams للبنية الأساسية لبرنامج ربط العمليات التجارية للتدريب

وضع المفردات لمكون ميزة N-Grams استخراج N-Grams من النص الدائري هو Create، ووضع المفردات للمكون الذي يتصل بمكون Score Model هو ReadOnly.

بعد إرسال البنية الأساسية لبرنامج ربط العمليات التجارية للتدريب أعلاه بنجاح، يمكنك تسجيل إخراج المكون الدائري كمجموعة بيانات.

تسجيل مجموعات البيانات

ثم بإمكانك إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية للاستدلال في الوقت الحقيقي. بعد إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية للاستدلال، تحتاج إلى ضبط مسار الاستدلال بشكل يدوي كما يلي:

البنية الأساسية لبرنامج ربط العمليات التجارية للاستدلال

ثم أرسل مسار الاستدلال، ووزع نقطة نهاية في الوقت الحقيقي.

النتائج

يقوم مكون استخراج ميزات N-Gram من النص بإنشاء نوعين من الإخراج:

  • مجموعة بيانات النتيجة: هذا الإخراج هو ملخص للنص الذي تم تحليله بجانب n-grams التي تم استخراجها. يتم تمرير الأعمدة التي لم تقم بتحديدها في خيار Text column إلى الإخراج. يقوم المكون بإنشاء هذه الأعمدة لكل عمود نص تقوم بتحليله:

    • مصفوفة تكرارات n-gram: ينشئ المكون عمودًا لكل n-gram موجود في المجموعة الشاملة ويضيف درجة في كل عمود للإشارة إلى وزن n-gram لهذا الصف.
  • مفردات النتيجة: تحتوي المفردات على قاموس n-gram الفعلي، بجانب درجات تكرار المصطلحات التي يتم إنشاؤها كجزء من التحليل. بإمكانك حفظ مجموعة البيانات لإعادة استخدامها مع مجموعة مختلفة من المدخلات، أو لتحديث لاحق. بإمكانك أيضًا إعادة استخدام المفردات للنمذجة والتهديف.

مصطلحات النتيجة

تحتوي المصطلحات على قاموس n-gram الفعلي، بجانب مصطلح درجات التردد التي يتم إنشاؤها باعتباره جزءًا من التحليل. يتم إنشاء درجات تكرار المستند والتكرار العكسي للمستند بغض النظر عن الخيارات الأخرى.

  • المعرف: هو معرف تم إنشاؤه لكل n-gram مميز.
  • NGram: n-gram. يتم استبدال المسافات أو الفواصل الأخرى للكلمات بحرف التسطير السفلي.
  • تكرار المستند: درجة تكرارة المصطلح لـ n-gram في المجموعة الأصلية.
  • التكرار العكسي للمستند: درجة تكرار المستند العكسي لـ n-gram في المجموعة الأصلية.

بإمكانك تحديث هذه المجموعة للبيانات يدويا، ولكن قد تحدث أخطاء. على سبيل المثال:

  • يتم رفع خطأ في حال تم العثور على صفوف مكررة من المكون بنفس المفتاح في مفردات الإدخال. تأكد من عدم تواجد صفين في المفردات بنفس الكلمة.
  • ينبغي أن يتطابق مخطط إدخال مجموعات بيانات المصطلحات تماما، بما في ذلك أسماء الأعمدة وأنواع الأعمدة.
  • يكون عمود المعرف وعمود تكرار المستند من نوع العدد الصحيح.
  • يكون عمود التكرار العكسي للمستند من النوع العائم.

ملاحظة

تجنب توصيل إخراج البيانات بمكون نموذج التدريب بطريقةٍ مباشرةٍ. ينبغي عليك إزالة أعمدة النص المجانية قبل إدخالها في نموذج التدريب. وإلا، فسيتم التعامل مع أعمدة النص الحرة باعتبارها ميزات فئوية.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.