فهم التضمينات في خدمة Azure OpenAI

التضمين هو تنسيق خاص لتمثيل البيانات يمكن لنماذج التعلم الآلي والخوارزميات استخدامه بسهولة. التضمين هو تمثيل كثيف للمعلومات للمعنى الدلالي لجزء من النص. كل تضمين هو متجه من أرقام الفاصلة العائمة، بحيث ترتبط المسافة بين تضمينين في مساحة المتجه بالتشابه الدلالي بين إدخالين بالتنسيق الأصلي. على سبيل المثال، إذا كان نصان متشابهين، يجب أن تكون تمثيلات المتجهات متشابهة أيضاً. تضمين البحث عن تشابه متجه الطاقة في قواعد بيانات Azure مثل Azure Cosmos DB ل MongoDB vCore أو قاعدة بيانات Azure SQL أو قاعدة بيانات Azure ل PostgreSQL - الخادم المرن.

تضمين النماذج

يتم إنشاء نماذج تضمين Azure OpenAI مختلفة لتكون جيدة في مهمة معينة:

  • تعد تضمينات التشابه جيدة في التقاط التشابه الدلالي بين قطعتين أو أكثر من النص.
  • تساعد تضمينات البحث في النص في قياس ما إذا كانت المستندات الطويلة ذات صلة باستعلام قصير.
  • تعد تضمينات البحث في التعليمات البرمجية مفيدة لتضمين قصاصات التعليمات البرمجية وتضمين استعلامات بحث اللغة الطبيعية.

تسهل عمليات التضمين عملية التعلم الآلي على المدخلات الكبيرة التي تمثل الكلمات من خلال التقاط أوجه التشابه الدلالية في مساحة متجهة. لذلك، يمكنك استخدام التضمينات لتحديد ما إذا كانت مجموعتا النص مرتبطتين دلاليا أو متشابهتين، وتوفير درجة لتقييم التشابه.

تشابه جيب التمام

تعتمد تضمينات Azure OpenAI على تشابه جيب التمام لحساب التشابه بين المستندات والاستعلام.

من منظور رياضيات، يقيس التشابه التمام جيب التمام للزاوية بين خطين متجهين مسقطين في مساحة متعددة الأبعاد. هذا القياس مفيد، لأنه إذا كان هناك مستندان بعيدان عن بعضهما البعض بسبب المسافة الإقليدية بسبب الحجم، فإنه لا يزال من الممكن أن يكون لهما زاوية أصغر بينهما وبالتالي تشابه تمام تمام أعلى. لمزيد من المعلومات حول معادلات تشابه جيب التمام، راجع تشابه جيب التمام.

هناك طريقة بديلة لتحديد المستندات المماثلة وهي حساب عدد الكلمات الشائعة بين المستندات. لا يتوسع هذا النهج نظرا لأن التوسع في حجم المستند من المحتمل أن يؤدي إلى عدد أكبر من الكلمات الشائعة التي تم اكتشافها حتى بين الموضوعات المتباينة. لهذا السبب، يمكن أن يوفر التشابه التمامي بديلا أكثر فعالية.

الخطوات التالية