نماذج اللغة الدلالية

مكتمل

Note

راجع علامة التبويب النص والصور لمزيد من التفاصيل!

مع تقدم حالة فن البرمجة اللغوية العصبية، أدت القدرة على تدريب النماذج التي تغلف العلاقة الدلالية بين الرموز المميزة إلى ظهور نماذج قوية للغة التعلم العميق. في قلب هذه النماذج، يوجد ترميز الرموز المميزة للغة كخطوط متجهة (صفائف متعددة القيم من الأرقام) تعرف باسم تضمينات .

أصبح هذا النهج القائم على المتجهات لنمذجة النص شائعا مع تقنيات مثل Word2VecوGloVe، حيث يتم تمثيل رموز النص كمتجهات كثيفة ذات أبعاد متعددة. خلال تدريب النماذج، يتم تعيين قيم الأبعاد لتعكس الخصائص الدلالية لكل رمز بناء على استخدامها في نص التدريب. يمكن بعد ذلك استغلال العلاقات الرياضية بين المتجهات لأداء مهام تحليل النصوص الشائعة بكفاءة أكبر مقارنة بالتقنيات الإحصائية البحتة القديمة. تقدم أحدث في هذا النهج هو استخدام تقنية تسمى الانتباه للنظر في كل رمز في سياقه، وحساب تأثير الرموز حوله. توفر التضمينات الناتجة في السياق ، مثل تلك الموجودة في عائلة نماذج GPT، أساس الذكاء الاصطناعي التوليدي الحديث.

تمثيل النص كمتجهات

تمثل المتجهات نقاطا في الفضاء متعدد الأبعاد، تعرف بإحداثيات على عدة محاور. كل متجه يصف اتجاها ومسافة من الأصل. يجب أن تؤدي الرموز المتشابهة دلاليا إلى متجهات ذات اتجاه مشابه – أي أنها تشير إلى اتجاهات متشابهة.

على سبيل المثال، اعتبر التضمينات ثلاثية الأبعاد التالية لبعض الكلمات الشائعة:

Word Vector
dog [0.8, 0.6, 0.1]
puppy [0.9, 0.7, 0.4]
cat [0.7, 0.5, 0.2]
kitten [0.8, 0.6, 0.5]
young [0.1, 0.1, 0.3]
ball [0.3, 0.9, 0.1]
tree [0.2, 0.1, 0.9]

يمكننا تصور هذه المتجهات في الفضاء ثلاثي الأبعاد كما هو موضح هنا:

مخطط لتصوير ثلاثي الأبعاد لمتجهات الكلمات.

المتجهات ل "dog" و "cat" متشابهة (كلاهما منزلية)، وكذلك و "puppy""kitten" (كلاهما صغيرة). الكلمات "tree"، "young"، و ball" لها اتجاهات متجهية مختلفة بشكل واضح، مما يعكس معانيهما الدلالية المختلفة.

الخاصية الدلالية المشفرة في المتجهات تتيح استخدام عمليات قائمة على المتجهات تقارن الكلمات وتمكن من المقارنات التحليلية.

نظرا لأن اتجاه المتجهات يحدد بقيم أبعادها، فإن الكلمات ذات المعاني الدلالية المتشابهة تميل إلى أن تكون لها اتجاهات متشابهة. هذا يعني أنه يمكنك استخدام حسابات مثل تشابه جيب تمام بين المتجهات لإجراء مقارنات ذات معنى.

على سبيل المثال، لتحديد "الفرد خارج" بين "dog"، "cat"، و "tree"، يمكنك حساب تشابه جيب تمام بين أزواج المتجهات. يتم حساب تشابه جيب تمام كما يلي:

cosine_similarity(A, B) = (A · B) / (||A|| * ||B||)

حيث A · B هو حاصل الضرب النقطي و ||A|| هو مقدار المتجه A.

حساب التشابهات بين الكلمات الثلاث:

  • dog [0.8، 0.6، 0.1] و cat [0.7، 0.5، 0.2]:

    • حاصل الضرب: (0.8 × 0.7) + (0.6 × 0.5) + (0.1 × 0.2) = 0.56 + 0.30 + 0.02 = 0.88
    • القدر dog: √(0.8² + 0.6² + 0.1²) = √(0.64 + 0.36 + 0.01) = √1.01 ≈ 1.005
    • القدر cat: √(0.7² + 0.5² + 0.2²) = √(0.49 + 0.25 + 0.04) = √0.78 ≈ 0.883
    • تشابه جيب تمام: 0.88 / (1.005 × 0.883) ≈ 0.992 (تشابه عالي)
  • dog [0.8، 0.6، 0.1] و tree [0.2، 0.1، 0.9]:

    • حاصل الضرب: (0.8 × 0.2) + (0.6 × 0.1) + (0.1 × 0.9) = 0.16 + 0.06 + 0.09 = 0.31
    • القدر tree: √(0.2² + 0.1² + 0.9²) = √(0.04 + 0.01 + 0.81) = √0.86 ≈ 0.927
    • تشابه جيب تمام: 0.31 / (1.005 × 0.927) ≈ 0.333 (تشابه منخفض)
  • cat [0.7، 0.5، 0.2] و tree [0.2، 0.1، 0.9]:

    • حاصل الضرب: (0.7 × 0.2) + (0.5 × 0.1) + (0.2 × 0.9) = 0.14 + 0.05 + 0.18 = 0.37
    • تشابه جيب تمام: 0.37 / (0.883 × 0.927) ≈ 0.452 (تشابه منخفض)

مخطط لتشابه جيب تمام، يظهر متجهات والقطط والأشجار.

تظهر النتائج أن "dog" و "cat" متشابهان جدا (0.992)، بينما "tree" يوجد تشابه أقل مع كل من "dog" (0.333) و "cat" (0.452). لذلك، tree هو الغريب بوضوح.

الترجمة المتجهية من خلال الجمع والطرح

يمكنك جمع أو طرح المتجهات لإنتاج نتائج جديدة قائمة على المتجهات؛ والتي يمكن استخدامها بعد ذلك للعثور على رموز ذات متجهات متطابقة. تمكن هذه التقنية المنطق الحسابي الحدسي من تحديد المصطلحات المناسبة بناء على العلاقات اللغوية.

على سبيل المثال، باستخدام المتجهات من السابق:

  • dog + young = [0.8، 0.6، 0.1] + [0.1، 0.1، 0.3] = [0.9، 0.7، 0.4] = puppy
  • cat + young = [0.7، 0.5، 0.2] + [0.1، 0.1، 0.3] = [0.8، 0.6، 0.5] = kitten

رسم توضيحي لجمع المتجهات يوضح + الشاب = الجرو والقط + الصغير = القط الصغير.

تعمل هذه العمليات لأن المتجه يشفر "young" التحول الدلالي من بالغ إلى نظيره الصغير.

Note

في الواقع، نادرا ما ينتج حساب المتجهات تطابقات دقيقة؛ بدلا من ذلك، ستبحث عن الكلمة التي يكون متجه متجها الأقرب (الأكثر تشابها) للنتيجة.

الحساب يعمل بالعكس أيضا:

  • puppy - young = [0.9، 0.7، 0.4] - [0.1، 0.1، 0.3] = [0.8، 0.6، 0.1] = dog
  • kitten - young = [0.8، 0.6، 0.5] - [0.1، 0.1، 0.3] = [0.7، 0.5، 0.2] = cat

الاستدلال التحليلي

يمكن للحساب المتجه أيضا الإجابة على أسئلة تشبيه مثل "puppyهل هو إلى dog كما kitten هو إلى؟"

لحل هذا، احسب ما يلي: kitten - puppy + dog

  • [0.8, 0.6, 0.5] - [0.9, 0.7, 0.4] + [0.8, 0.6, 0.1]
  • = [-0.1، -0.1، 0.1] + [0.8، 0.6، 0.1]
  • = [0.7، 0.5، 0.2]
  • = cat

مخطط حسابي متجه يوضح القط الصغير - جرو + = قط.

تظهر هذه الأمثلة كيف يمكن لعمليات المتجهات التقاط العلاقات اللغوية وتمكين التفكير حول الأنماط الدلالية.

استخدام النماذج الدلالية لتحليل النصوص

توفر النماذج الدلالية المعتمدة على المتجهات قدرات قوية للعديد من مهام تحليل النصوص الشائعة.

تلخيص النص

تمكن التضمينات الدلالية من التلخيص الاستخراجي من خلال تحديد الجمل ذات المتجهات التي تمثل الوثيقة الكلية بشكل أكبر. من خلال ترميز كل جملة كمتجه (غالبا عن طريق متوسط أو تجميع تضمين كلماتها المكونة)، يمكنك حساب أي الجمل هي الأكثر جوهرية لمعنى المستند. يمكن استخراج هذه الجمل المركزية لتشكيل ملخص يلتقط المواضيع الرئيسية.

استخراج الكلمات المفتاحية

يمكن للتشابه المتجه تحديد أهم المصطلحات في المستند من خلال مقارنة تضمين كل كلمة مع التمثيل الدلالي العام للوثيقة. الكلمات التي تكون متجهاتها أقرب إلى متجه المستند، أو الأكثر مركزية عند النظر في جميع متجهات الكلمات في المستند، من المرجح أن تكون مصطلحات رئيسية تمثل المواضيع الرئيسية.

التعرف على الكيانات المسماة

يمكن ضبط النماذج الدلالية بدقة للتعرف على الكيانات المسماة (الأشخاص، المنظمات، المواقع، إلخ) من خلال تعلم تمثيلات متجهية تجمع أنواع الكيانات المتشابهة معا. أثناء الاستدلال، يفحص النموذج تضمين كل رمز وسياقه لتحديد ما إذا كان يمثل كيانا مسما، وإذا كان كذلك، ما نوعه.

تصنيف النصوص

في مهام مثل تحليل المشاعر أو تصنيف الموضوع، يمكن تمثيل المستندات كمتجهات تجميعية (مثل متوسط جميع تضمينات الكلمات في المستند). يمكن بعد ذلك استخدام هذه المتجهات المستندية كميزات لمصنفات تعلم الآلة، أو مقارنتها مباشرة بمتجهات النماذج الأولية للفئة لتعيين الفئات. نظرا لأن الوثائق الدلالية المتشابهة لها اتجاهات متجهية متشابهة، فإن هذا النهج يجمع المحتوى المرتبط بشكل فعال ويميز بين فئات مختلفة.