مشاركة عبر


قاعدة بيانات المتجهات

Tip

للحصول على أحدث قاعدة بيانات متجهة وعينات تطبيق نمط RAG، تفضل بزيارة معرض عينات Azure Cosmos DB.

تستخدم قواعد بيانات المتجهات في العديد من المجالات والمواقف عبر الذكاء الاصطناعي التحليلية والتوليدية، بما في ذلك معالجة اللغة الطبيعية، والتعرف على الفيديو والصور، ونظام التوصية، والبحث، من بين أمور أخرى.

وفي عام 2023، كان هناك اتجاه ملحوظ في مجال البرمجيات هو دمج تحسينات الذكاء الاصطناعي، وغالبا ما تحقق ذلك عن طريق دمج قواعد بيانات المتجهات المستقلة المتخصصة في التكديسات التكنولوجية القائمة. توضح هذه المقالة قواعد بيانات المتجهات وتقدم بنية بديلة قد ترغب في مراعاتها: استخدام قاعدة بيانات متجهات متكاملة في NoSQL أو قاعدة البيانات الارتباطية التي تستخدمها بالفعل، خاصة عند العمل مع البيانات متعددة الوسائط. لا يسمح لك هذا النهج فقط بخفض التكلفة ولكن أيضا تحقيق المزيد من تناسق البيانات وقابلية التوسع والأداء.

Tip

يعد تناسق البيانات وقابلية التوسع والأداء أمرا بالغ الأهمية للتطبيقات كثيفة البيانات، ولهذا السبب اختار OpenAI إنشاء خدمة ChatGPT أعلى Azure Cosmos DB. يمكنك أيضا الاستفادة من قاعدة بيانات المتجهات المتكاملة، بالإضافة إلى أوقات الاستجابة المكونة من رقم واحد بالمللي ثانية وقابلية التوسع التلقائية والفورية والسرعة المضمونة على أي نطاق. اطلع على نماذج التنفيذوجربها مجانا.

ما هي قاعدة بيانات المتجهات؟

قاعدة بيانات المتجهات هي قاعدة بيانات مصممة لتخزين وإدارة تضمينات المتجهات ، وهي تمثيلات رياضية للبيانات في مساحة عالية الأبعاد. في هذه المساحة، يتوافق كل بعد مع ميزة من البيانات، ويمكن استخدام عشرات الآلاف من الأبعاد لتمثيل البيانات المعقدة. يمثل موضع المتجه في هذه المساحة خصائصه. يمكن تحويل الكلمات والعبارات أو المستندات الكاملة والصور والصوت وأنواع أخرى من البيانات. تستخدم تضمينات المتجهات هذه في البحث عن التشابه والبحث متعدد الوسائط ومحركات التوصيات ونماذج اللغات الكبيرة (LLMs) وما إلى ذلك.

في قاعدة بيانات المتجهات ، تتم فهرسة التضمينات والاستعلام عنها من خلال خوارزميات البحث المتجه بناء على مسافة المتجه أو تشابهها. ومن الضروري وجود آلية قوية لتحديد البيانات الأكثر صلة. تتضمن بعض خوارزميات البحث عن المتجهات المعروفة العالم الصغير القابل للتنقل الهرمي (HNSW) و Inverted File (IVF) و DiskANN.

قاعدة بيانات متجهات متكاملة مقابل قاعدة بيانات متجهات خالصة

هناك نوعان شائعان من تطبيقات قاعدة بيانات المتجهات: قاعدة بيانات المتجهات النقية وقاعدة بيانات المتجهات المتكاملة في NoSQL أو قاعدة بيانات علائقية.

  • تم تصميم قاعدة بيانات متجهة خالصة لتخزين وإدارة عمليات تضمين المتجهات بكفاءة ، جنبا إلى جنب مع كمية صغيرة من البيانات الوصفية. إنه منفصل عن مصدر البيانات الذي اشتقت منه عمليات التضمين.

  • توفر قاعدة البيانات المتجهة المدمجة في NoSQL عالية الأداء أو قاعدة بيانات علائقية إمكانات إضافية. يمكن لقاعدة البيانات المتجهة المتكاملة في NoSQL أو قاعدة البيانات الارتباطية تخزين تضمينات وفهرستها والاستعلام إلى جانب البيانات الأصلية المقابلة. يلغي هذا النهج التكلفة الإضافية لنسخ البيانات في قاعدة بيانات متجهات خالصة منفصلة. علاوة على ذلك، فإن الاحتفاظ بتضمينات المتجهات والبيانات الأصلية معا يسهل بشكل أفضل عمليات البيانات متعددة الوسائط، ويتيح المزيد من تناسق البيانات وحجمها وأدائها. تعد قاعدة البيانات عالية الأداء مع مرونة المخطط وقاعدة بيانات المتجهات المتكاملة مثالية بشكل خاص لوكلاء الذكاء الاصطناعي.

حالات استخدام قاعدة بيانات المتجهات

تستخدم قواعد بيانات المتجهات في العديد من المجالات والمواقف عبر الذكاء الاصطناعي التحليلي والتوليدي ، بما في ذلك معالجة اللغة الطبيعية والتعرف على الفيديو والصور ونظام التوصية والبحث. على سبيل المثال، يمكنك استخدام قاعدة بيانات متجهة من أجل:

  • حدد الصور والمستندات والأغاني المتشابهة بناء على محتوياتها وموضوعاتها ومشاعرها وأنماطها
  • تحديد المنتجات المماثلة بناء على خصائصها وميزاتها ومجموعات المستخدمين
  • التوصية بالمحتويات أو المنتجات أو الخدمات بناء على تفضيلات الأفراد
  • اقتراح المحتويات أو المنتجات أو الخدمات استنادا إلى أوجه التشابه بين مجموعات المستخدمين
  • تحديد أفضل الخيارات المحتملة من مجموعة كبيرة من الخيارات لتلبية المتطلبات المعقدة
  • تحديد الحالات الشاذة في البيانات أو الأنشطة الاحتيالية التي تختلف عن الأنماط السائدة أو العادية
  • تنفيذ الذاكرة الثابتة لوكلاء الذكاء الاصطناعي

Tip

بالإضافة إلى حالات الاستخدام النموذجية لقواعد بيانات المتجهات، تعد قاعدة بيانات المتجهات المتكاملة لدينا أيضا حلا مثاليا للتخزين المؤقت لأجهزة LLM على مستوى الإنتاج بفضل زمن الانتقال المنخفض وقابلية التوسع العالية وقابلية الوصول العالية.

تحظى قواعد بيانات المتجهات بشعبية خاصة لتمكين التوليد المعزز بالاسترداد (RAG) الذي يسخر LLMs والبيانات المخصصة أو المعلومات الخاصة بالمجال. يسمح لك هذا النهج ب:

  • إنشاء استجابات دقيقة ذات صلة بالسياق لمطالبات المستخدم من نماذج الذكاء الاصطناعي
  • التغلب على حدود الرموز المميزة ل LLMs
  • تقليل التكاليف من الضبط المتكرر للبيانات المحدثة

تتضمن هذه العملية استخراج المعلومات ذات الصلة من مصدر بيانات مخصص ودمجها في طلب النموذج من خلال الهندسة الفورية. قبل إرسال طلب إلى LLM، يتم أيضا تحويل إدخال/استعلام/طلب المستخدم إلى تضمين، ويتم استخدام تقنيات البحث المتجه لتحديد موقع التضمينات الأكثر مماثلة داخل قاعدة البيانات. تتيح هذه التقنية تحديد سجلات البيانات الأكثر صلة في قاعدة البيانات. ثم يتم توفير هذه السجلات المستردة كمدخلات لطلب LLM باستخدام الهندسة السريعة.

إشعار

هل تهتم بقدرات البحث المتجه فائقة الإنتاجية؟ يعمل Azure Cosmos DB على تطوير ميزات البحث المتجهية المحسنة المصممة لمجموعات البيانات المتجهية الكبيرة مع إدخالات وعمليات بحث عالية الإنتاجية. يمكنه استيعاب ملايين الاستعلامات في الثانية (QPS) بكفاءة منخفضة وقابلة للتأمل وكفاءة في التكلفة لا مثيل لها. سجل لتعرف المزيد عن فرص الوصول المبكر وتلقي إشعارات عند توفر هذه القدرات.

سجل للمعاينة الخاصة الموسعة.

Embeddings

التضمين هو تنسيق خاص لتمثيل البيانات يمكن لنماذج التعلم الآلي والخوارزميات استخدامه بسهولة. التضمين هو تمثيل كثيف المعلومات للمعنى الدلالي لجزء من النص. كل تضمين هو متجه من أرقام الفاصلة العائمة، بحيث ترتبط المسافة بين تضمينين في مساحة المتجه بالتشابه الدلالي بين إدخالين بالتنسيق الأصلي. على سبيل المثال، إذا كان نصان متشابهين، يجب أن تكون تمثيلات المتجهات متشابهة أيضاً. يضمن ملحق قاعدة بيانات المتجهات الذي يسمح لك بتخزين عمليات التضمين ببياناتك الأصلية تناسق البيانات ومقياسها وأدائها.

البحث عن المتجهات هو أسلوب يساعدك على العثور على عناصر مماثلة استنادا إلى خصائص البيانات الخاصة بها بدلا من التطابقات الدقيقة في حقل الخاصية. هذه التقنية مفيدة في التطبيقات مثل البحث عن نص مشابه أو العثور على الصور ذات الصلة أو تقديم التوصيات أو حتى اكتشاف الحالات الشاذة.

وهو يعمل عن طريق أخذ تمثيلات المتجهات (قوائم الأرقام) لبياناتك التي قمت بإنشائها باستخدام نموذج التعلم الآلي باستخدام واجهة برمجة تطبيقات التضمينات، مثل Azure OpenAI Embeddings أو Hugging Face على Azure. ثم يقيس المسافة بين متجهات البيانات ومتجه الاستعلام. متجهات البيانات الأقرب إلى متجه الاستعلام هي تلك التي تم العثور عليها على أنها متشابهة دلاليا.

يوفر استخدام ميزة البحث عن المتجهات الأصلية طريقة فعالة لتخزين بيانات المتجهات عالية الأبعاد وفهرستها والبحث فيها مباشرة جنبا إلى جنب مع بيانات التطبيق الأخرى. يزيل هذا النهج ضرورة ترحيل بياناتك إلى قواعد بيانات متجهات بديلة أكثر تكلفة ويوفر تكاملا سلسا للتطبيقات المستندة إلى الذكاء الاصطناعي.

المطالبات وهندسة المطالبة

تشير المطالبة إلى نص أو معلومات محددة يمكن أن تكون بمثابة إرشادات ل LLM، أو كبيانات سياقية يمكن ل LLM البناء عليها. يمكن أن تتخذ المطالبة أشكالا مختلفة، مثل سؤال أو عبارة أو حتى قصاصة برمجية. يمكن أن تكون المطالبات بمثابة:

  • التعليمات التي توفر توجيهات إلى LLM
  • المحتوى الأساسي الذي يعطي معلومات إلى LLM للمعالجة
  • أمثلة للمساعدة في تكييف النموذج لمهمة أو عملية معينة
  • إشارات لتوجيه إخراج LLM في الاتجاه الصحيح
  • دعم المحتوى الذي يمثل المعلومات التكميلية التي يمكن أن تستخدمها LLM لإنشاء الإخراج

تسمى عملية إنشاء مطالبات جيدة لسيناريو هندسة المطالبة. لمزيد من المعلومات حول المطالبات وأفضل الممارسات للهندسة السريعة، راجع تصميم رسائل النظام.

Tokens

الرموز المميزة هي أجزاء صغيرة من النص تم إنشاؤها عن طريق تقسيم نص الإدخال إلى مقاطع أصغر. يمكن أن تكون هذه المقاطع إما كلمات أو مجموعات من الأحرف، وتتفاوت في الطول من حرف واحد إلى كلمة بأكملها. على سبيل المثال، سيتم تقسيم كلمة الهامبرغر إلى رموز مميزة مثل ham و bur و ger بينما تعتبر كلمة قصيرة ومشتركة مثل الكمثرى رمزا مميزا واحدا. تقوم LLMs مثل ChatGPT أو GPT-3.5 أو GPT-4 بتقسيم الكلمات إلى رموز مميزة للمعالجة. [عودة]

الجيل المعزز بالاسترجاع

يعد الجيل المعزز باسترداد (RAG) بنية تزيد من قدرات LLMs مثل ChatGPT أو GPT-3.5 أو GPT-4 عن طريق إضافة نظام استرداد معلومات مثل البحث في المتجهات الذي يوفر بيانات الأساس، مثل تلك المخزنة في قاعدة بيانات متجه. يسمح هذا الأسلوب ل LLM الخاص بك بإنشاء استجابات دقيقة ذات صلة بالسياق استنادا إلى بياناتك المخصصة المستمدة من المستندات المتجهة والصور والصوت والفيديو وما إلى ذلك.

يمكن لنمط RAG البسيط باستخدام Azure Cosmos DB ل NoSQL:

  1. تمكين فهرس متجه Azure Cosmos DB NoSQL
  2. إعداد قاعدة بيانات وحاوية باستخدام نهج متجه الحاوية وفهرس البيانات الاتجاهية
  3. إدراج البيانات في قاعدة بيانات وحاوية Azure Cosmos DB ل NoSQL
  4. إنشاء عمليات تضمين من خاصية بيانات باستخدام تضمينات Azure OpenAI
  5. ربط Azure Cosmos DB ل NoSQL.
  6. إنشاء فهرس متجه عبر خصائص التضمينات
  7. إنشاء دالة لإجراء بحث عن تشابه المتجهات استنادا إلى مطالبة المستخدم
  8. تنفيذ الإجابة على الأسئلة عبر البيانات باستخدام نموذج إكمال Azure OpenAI

يخدم نمط RAG، مع الهندسة الفورية، الغرض من تعزيز جودة الاستجابة من خلال تقديم مزيد من المعلومات السياقية للنموذج. تمكن RAG النموذج من تطبيق قاعدة المعارف (KB) أوسع من خلال دمج مصادر خارجية ذات صلة في عملية الإنشاء، ما يؤدي إلى استجابات أكثر شمولا واستنارة. لمزيد من المعلومات، راجع LLMs التأريض.

كيفية تنفيذ وظائف قاعدة بيانات المتجهات المتكاملة

يمكنك تنفيذ وظائف قاعدة البيانات المتجهة المتكاملة لقاعدة بيانات Azure Cosmos وواجهات برمجة التطبيقات التوافقية المختلفة الخاصة به.

واجهة برمجة تطبيقات NoSQL

Azure Cosmos DB ل NoSQL هي أول قاعدة بيانات متجه NoSQL بلا خادم في العالم. قم بتخزين المتجهات والبيانات معا في Azure Cosmos DB ل NoSQL مع إمكانات قاعدة بيانات البيانات الاتجاهية المتكاملة حيث يمكنك إنشاء فهرس متجه استنادا إلى DiskANN، وهي مجموعة من خوارزميات فهرسة البيانات الاتجاهية عالية الأداء التي طورتها Microsoft Research.

تمكنك DiskANN من أداء استفسارات عالية الدقة وزمن انتقال منخفض على أي نطاق مع الاستفادة من جميع مزايا Azure Cosmos DB ل NoSQL مثل 99.999% SLA (مع تمكين HA) والنسخ المتماثل الجغرافي والانتقال السلس من الإنتاجية بدون خادم إلى معدل النقل المقدم (RU) كل ذلك في مخزن بيانات واحد.

نماذج التعليمات البرمجية

واجهة برمجة التطبيقات ل PostgreSQL

استخدم قاعدة بيانات المتجهات المتكاملة أصلا في Azure Cosmos DB ل PostgreSQL، والتي توفر طريقة فعالة لتخزين بيانات المتجهات عالية الأبعاد وفهرستها والبحث فيها مباشرة جنبا إلى جنب مع بيانات التطبيق الأخرى. يزيل هذا النهج ضرورة ترحيل بياناتك إلى قواعد بيانات متجهات بديلة أكثر تكلفة ويوفر تكاملا سلسا للتطبيقات المستندة إلى الذكاء الاصطناعي.

نموذج التعليمات البرمجية

الخطوة التالية