قاعدة بيانات المتجهات
ينطبق على: NoSQL MongoDB vCore PostgreSQL
تستخدم قواعد بيانات المتجهات في العديد من المجالات والمواقف عبر الذكاء الاصطناعي التحليلية والتوليدية، بما في ذلك معالجة اللغة الطبيعية، والتعرف على الفيديو والصور، ونظام التوصية، والبحث، من بين أمور أخرى.
وفي عام 2023، كان هناك اتجاه ملحوظ في مجال البرمجيات هو دمج تحسينات الذكاء الاصطناعي، وغالبا ما تحقق ذلك عن طريق دمج قواعد بيانات المتجهات المستقلة المتخصصة في التكديسات التكنولوجية القائمة. توضح هذه المقالة قواعد بيانات المتجهات وتقدم بنية بديلة قد ترغب في مراعاتها: استخدام قاعدة بيانات متجهات متكاملة في NoSQL أو قاعدة البيانات الارتباطية التي تستخدمها بالفعل، خاصة عند العمل مع البيانات متعددة الوسائط. لا يسمح لك هذا النهج فقط بخفض التكلفة ولكن أيضا تحقيق المزيد من تناسق البيانات وقابلية التوسع والأداء.
تلميح
يعد تناسق البيانات وقابلية التوسع والأداء أمرا بالغ الأهمية للتطبيقات كثيفة البيانات، ولهذا السبب اختار OpenAI إنشاء خدمة ChatGPT أعلى Azure Cosmos DB. يمكنك أيضا الاستفادة من قاعدة بيانات المتجهات المتكاملة، بالإضافة إلى أوقات الاستجابة المكونة من رقم واحد بالمللي ثانية وقابلية التوسع التلقائية والفورية والسرعة المضمونة على أي نطاق. راجع نماذج التنفيذ وجربها مجانا.
ما هي قاعدة بيانات المتجهات؟
قاعدة بيانات المتجهات هي قاعدة بيانات مصممة لتخزين وإدارة تضمينات المتجهات، وهي تمثيلات رياضية للبيانات في مساحة عالية الأبعاد. في هذه المساحة، يتوافق كل بعد مع ميزة من البيانات، ويمكن استخدام عشرات الآلاف من الأبعاد لتمثيل البيانات المعقدة. يمثل موضع المتجه في هذه المساحة خصائصه. يمكن تحويل الكلمات والعبارات أو المستندات الكاملة والصور والصوت وأنواع أخرى من البيانات. تستخدم تضمينات المتجهات هذه في البحث عن التشابه والبحث متعدد الوسائط ومحركات التوصيات ونماذج اللغات الكبيرة (LLMs) وما إلى ذلك.
في قاعدة بيانات المتجهات، تتم فهرسة عمليات التضمين والاستعلامات من خلال خوارزميات البحث عن المتجهات استنادا إلى مسافة المتجه أو تشابهها. ومن الضروري وجود آلية قوية لتحديد البيانات الأكثر صلة. تتضمن بعض خوارزميات البحث عن المتجهات المعروفة «Hierarchical Navigable Small World ( HNSW) و Inverted File (IVF) و DiskANN وما إلى ذلك.
قاعدة بيانات متجهات متكاملة مقابل قاعدة بيانات متجهات خالصة
هناك نوعان شائعان من تطبيقات قاعدة بيانات المتجهات - قاعدة بيانات متجهات خالصة وقاعدة بيانات متجهات متكاملة في NoSQL أو قاعدة بيانات ارتباطية.
تم تصميم قاعدة بيانات متجهات خالصة لتخزين وإدارة تضمينات المتجهات بكفاءة، جنبا إلى جنب مع كمية صغيرة من بيانات التعريف؛ وهو منفصل عن مصدر البيانات الذي يتم اشتقاق التضمينات منه.
توفر قاعدة بيانات المتجهات المدمجة في NoSQL عالية الأداء أو قاعدة بيانات ارتباطية قدرات إضافية. يمكن لقاعدة البيانات المتجهة المتكاملة في NoSQL أو قاعدة البيانات الارتباطية تخزين تضمينات وفهرستها والاستعلام إلى جانب البيانات الأصلية المقابلة. يلغي هذا النهج التكلفة الإضافية لنسخ البيانات في قاعدة بيانات متجهات خالصة منفصلة. علاوة على ذلك، فإن الاحتفاظ بتضمينات المتجهات والبيانات الأصلية معا يسهل بشكل أفضل عمليات البيانات متعددة الوسائط، ويتيح المزيد من تناسق البيانات وحجمها وأدائها. تعد قاعدة البيانات عالية الأداء مع مرونة المخطط وقاعدة بيانات المتجهات المتكاملة مثالية بشكل خاص لوكلاء الذكاء الاصطناعي.
حالات استخدام قاعدة بيانات المتجهات
تستخدم قواعد بيانات المتجهات في العديد من المجالات والمواقف عبر الذكاء الاصطناعي التحليلية والتوليدية، بما في ذلك معالجة اللغة الطبيعية، والتعرف على الفيديو والصور، ونظام التوصية، والبحث، وما إلى ذلك. على سبيل المثال، يمكنك استخدام قاعدة بيانات متجهة من أجل:
- تحديد الصور والمستندات والأغاني المماثلة استنادا إلى محتوياتها ونسقها والمشاعر وأنماطها
- تحديد منتجات مماثلة استنادا إلى خصائصها وميزاتها ومجموعات المستخدمين
- التوصية بمحتويات أو منتجات أو خدمات استنادا إلى تفضيلات الأفراد
- التوصية بمحتويات أو منتجات أو خدمات استنادا إلى أوجه التشابه بين مجموعات المستخدمين
- تحديد الخيارات المحتملة الأنسب من مجموعة كبيرة من الخيارات لتلبية المتطلبات المعقدة
- تحديد الحالات الشاذة للبيانات أو الأنشطة الاحتيالية التي تختلف عن الأنماط السائدة أو العادية
- تنفيذ الذاكرة الثابتة لعوامل الذكاء الاصطناعي
تلميح
بالإضافة إلى حالات الاستخدام النموذجية لقواعد بيانات المتجهات، تعد قاعدة بيانات المتجهات المتكاملة لدينا أيضا حلا مثاليا للتخزين المؤقت لأجهزة LLM على مستوى الإنتاج بفضل زمن الانتقال المنخفض وقابلية التوسع العالية وقابلية الوصول العالية.
من الشائع بشكل خاص استخدام قواعد بيانات المتجهات لتمكين الجيل المعزز باسترداد (RAG) الذي يسخر LLMs والبيانات المخصصة أو المعلومات الخاصة بالمجال. يسمح لك هذا النهج ب:
- إنشاء استجابات دقيقة ذات صلة بالسياق لمطالبات المستخدم من نماذج الذكاء الاصطناعي
- التغلب على حدود رموز LLMs المميزة
- تقليل التكاليف من الضبط المتكرر للبيانات المحدثة
تتضمن هذه العملية استخراج المعلومات ذات الصلة من مصدر بيانات مخصص ودمجها في طلب النموذج من خلال الهندسة الفورية. قبل إرسال طلب إلى LLM، يتم أيضا تحويل إدخال/استعلام/طلب المستخدم إلى تضمين، ويتم استخدام تقنيات البحث المتجه لتحديد موقع التضمينات الأكثر مماثلة داخل قاعدة البيانات. تتيح هذه التقنية تحديد سجلات البيانات الأكثر صلة في قاعدة البيانات. ثم يتم توفير هذه السجلات المستردة كمدخل لطلب LLM باستخدام الهندسة الفورية.
المفاهيم المتعلقة بقاعدة بيانات المتجهات
عمليات التضمين
التضمين هو تنسيق خاص لتمثيل البيانات يمكن لنماذج التعلم الآلي والخوارزميات استخدامه بسهولة. التضمين هو تمثيل كثيف للمعلومات للمعنى الدلالي لجزء من النص. كل تضمين هو متجه من أرقام الفاصلة العائمة، بحيث ترتبط المسافة بين تضمينين في مساحة المتجه بالتشابه الدلالي بين إدخالين بالتنسيق الأصلي. على سبيل المثال، إذا كان نصان متشابهين، يجب أن تكون تمثيلات المتجهات متشابهة أيضاً. يضمن ملحق قاعدة بيانات المتجهات الذي يسمح لك بتخزين عمليات التضمين ببياناتك الأصلية تناسق البيانات ومقياسها وأدائها. [الرجوع إلى الخلف]
البحث عن المتجهات
البحث عن المتجهات هو أسلوب يساعدك على العثور على عناصر مماثلة استنادا إلى خصائص البيانات الخاصة بها بدلا من التطابقات الدقيقة في حقل الخاصية. هذه التقنية مفيدة في التطبيقات مثل البحث عن نص مشابه أو العثور على الصور ذات الصلة أو تقديم التوصيات أو حتى اكتشاف الحالات الشاذة. يعمل عن طريق أخذ تمثيلات المتجهات (قوائم الأرقام) لبياناتك التي قمت بإنشائها باستخدام نموذج التعلم الآلي باستخدام واجهة برمجة تطبيقات التضمينات، مثل تضمين Azure OpenAI أو عناق الوجه على Azure. ثم يقيس المسافة بين متجهات البيانات ومتجه الاستعلام. متجهات البيانات الأقرب إلى متجه الاستعلام هي تلك التي تم العثور عليها على أنها متشابهة دلاليا. يوفر استخدام ميزة البحث عن المتجهات الأصلية طريقة فعالة لتخزين بيانات المتجهات عالية الأبعاد وفهرستها والبحث فيها مباشرة جنبا إلى جنب مع بيانات التطبيق الأخرى. يزيل هذا النهج ضرورة ترحيل بياناتك إلى قواعد بيانات متجهات بديلة أكثر تكلفة ويوفر تكاملا سلسا للتطبيقات المستندة إلى الذكاء الاصطناعي. [الرجوع إلى الخلف]
المطالبات وهندسة المطالبة
تشير المطالبة إلى نص أو معلومات محددة يمكن أن تكون بمثابة إرشادات ل LLM، أو كبيانات سياقية يمكن ل LLM البناء عليها. يمكن أن تتخذ المطالبة أشكالا مختلفة، مثل سؤال أو عبارة أو حتى قصاصة برمجية. يمكن أن تكون المطالبات بمثابة:
- توفر التعليمات توجيهات إلى LLM
- المحتوى الأساسي: يعطي معلومات إلى LLM للمعالجة
- أمثلة: تعليمات حول حالة النموذج إلى مهمة أو عملية معينة
- الإشارات: توجيه إخراج LLM في الاتجاه الصحيح
- محتوى الدعم: يمثل معلومات تكميلية يمكن ل LLM استخدامها لإنشاء الإخراج
تسمى عملية إنشاء مطالبات جيدة لسيناريو هندسة المطالبة. لمزيد من المعلومات حول المطالبات وأفضل الممارسات لهندسة المطالبة، راجع تقنيات الهندسة الموجهة لخدمة Azure OpenAI. [الرجوع إلى الخلف]
الرموز المميزة
الرموز المميزة هي أجزاء صغيرة من النص تم إنشاؤها عن طريق تقسيم نص الإدخال إلى مقاطع أصغر. يمكن أن تكون هذه المقاطع إما كلمات أو مجموعات من الأحرف، وتتفاوت في الطول من حرف واحد إلى كلمة بأكملها. على سبيل المثال، سيتم تقسيم كلمة الهامبرغر إلى رموز مميزة مثل ham و bur و ger بينما تعتبر كلمة قصيرة ومشتركة مثل الكمثرى رمزا مميزا واحدا. تقوم LLMs مثل ChatGPT أو GPT-3.5 أو GPT-4 بتقسيم الكلمات إلى رموز مميزة للمعالجة. [الرجوع إلى الخلف]
الجيل المعزز باسترداد
يعد الجيل المعزز باسترداد (RAG) بنية تزيد من قدرات LLMs مثل ChatGPT أو GPT-3.5 أو GPT-4 عن طريق إضافة نظام استرداد معلومات مثل البحث في المتجهات الذي يوفر بيانات الأساس، مثل تلك المخزنة في قاعدة بيانات متجه. يسمح هذا الأسلوب ل LLM الخاص بك بإنشاء استجابات دقيقة ذات صلة بالسياق استنادا إلى بياناتك المخصصة المستمدة من المستندات المتجهة والصور والصوت والفيديو وما إلى ذلك.
يمكن أن يكون نمط RAG البسيط باستخدام Azure Cosmos DB ل NoSQL:
- التسجيل في معاينة Azure Cosmos DB NoSQL Vector Index
- إعداد قاعدة بيانات وحاوية باستخدام نهج متجه حاوية وفهرس متجه.
- إدراج البيانات في قاعدة بيانات وحاوية Azure Cosmos DB ل NoSQL
- إنشاء عمليات تضمين من خاصية بيانات باستخدام تضمينات Azure OpenAI
- ربط Azure Cosmos DB ل NoSQL.
- إنشاء فهرس متجه عبر خصائص التضمينات
- إنشاء دالة لإجراء بحث عن تشابه المتجهات استنادا إلى مطالبة المستخدم
- تنفيذ الإجابة على الأسئلة عبر البيانات باستخدام نموذج إكمال Azure OpenAI
يخدم نمط RAG، مع الهندسة الفورية، الغرض من تعزيز جودة الاستجابة من خلال تقديم مزيد من المعلومات السياقية للنموذج. تمكن RAG النموذج من تطبيق قاعدة المعارف (KB) أوسع من خلال دمج مصادر خارجية ذات صلة في عملية الإنشاء، ما يؤدي إلى استجابات أكثر شمولا واستنارة. لمزيد من المعلومات حول "أساس" LLMs، راجع LLة LLMs. [الرجوع إلى الخلف]
فيما يلي طرق متعددة لتنفيذ RAG على بياناتك باستخدام وظائف قاعدة بيانات المتجهات المتكاملة:
كيفية تنفيذ وظائف قاعدة بيانات المتجهات المتكاملة
يمكنك تنفيذ وظائف قاعدة بيانات المتجهات المتكاملة لواجهات برمجة تطبيقات Azure Cosmos DB التالية:
واجهة برمجة تطبيقات NoSQL
Azure Cosmos DB ل NoSQL هي أول قاعدة بيانات متجه NoSQL بلا خادم في العالم. قم بتخزين المتجهات والبيانات معا في Azure Cosmos DB ل NoSQL مع قدرات قاعدة بيانات متجهات متكاملة حيث يمكنك إنشاء فهرس متجه استنادا إلى DiskANN، وهي مجموعة من خوارزميات فهرسة المتجهات عالية الأداء التي طورتها Microsoft Research.
يمكنك DiskANN من إجراء استعلامات دقيقة للغاية وزمن انتقال منخفض على أي نطاق مع الاستفادة من جميع فوائد Azure Cosmos DB ل NoSQL مثل 99.999٪ SLA (مع تمكين قابلية الوصول العالية)، والنسخ المتماثل الجغرافي، والانتقال السلس من معدل النقل بلا خادم إلى معدل النقل المقدم (RU) كل ذلك في مخزن بيانات واحد.
الارتباطات والعينات
- ما هي قاعدة البيانات خلف ChatGPT؟ - ميكانيكا Microsoft
- فهرسة المتجهات في Azure Cosmos DB ل NoSQL
- استعلامات NoSQL لوظيفة نظام VectorDistance
- كيفية إعداد قدرات قاعدة بيانات المتجهات في Azure Cosmos DB NoSQL
- Python - البرنامج التعليمي لدفتر الملاحظات
- C# - بناء Copilot Complete Solution Accelerator الخاص بك باستخدام AKS وKernel الدلالي
- C# - إنشاء تطبيق نموذج Copilot الخاص بك والمختبر العملي
- Python - Movie Chatbot
قاعدة بيانات Azure Cosmos لـ MongoDB
استخدم قاعدة بيانات المتجهات المتكاملة أصلا في Azure Cosmos DB ل MongoDB (بنية vCore)، والتي توفر طريقة فعالة لتخزين بيانات المتجهات عالية الأبعاد وفهرستها والبحث عنها مباشرة جنبا إلى جنب مع بيانات التطبيق الأخرى. يزيل هذا النهج ضرورة ترحيل بياناتك إلى قواعد بيانات متجهات بديلة أكثر تكلفة ويوفر تكاملا سلسا للتطبيقات المستندة إلى الذكاء الاصطناعي.
نماذج التعليمات البرمجية
- إنشاء Copilot الخاص بك ل Azure Cosmos DB ل MongoDB في C# باستخدام Kernel الدلالي
- البرنامج التعليمي .NET - روبوت الدردشة الوصفة
- نمط C# RAG - دمج OpenAI Services مع Cosmos
- نمط Python RAG - روبوت دردشة منتج Azure
- Python Notebook - تكامل قاعدة بيانات المتجهات من خلال البرنامج التعليمي LangChain
- Python Notebook - تكامل التخزين المؤقت LLM من خلال البرنامج التعليمي LangChain
- Python - تكامل LlamaIndex
- Python - تكامل ذاكرة Kernel الدلالية
- Python Notebook - Movie Chatbot
واجهة برمجة التطبيقات ل PostgreSQL
استخدم قاعدة بيانات المتجهات المتكاملة أصلا في Azure Cosmos DB ل PostgreSQL، والتي توفر طريقة فعالة لتخزين بيانات المتجهات عالية الأبعاد وفهرستها والبحث فيها مباشرة جنبا إلى جنب مع بيانات التطبيق الأخرى. يزيل هذا النهج ضرورة ترحيل بياناتك إلى قواعد بيانات متجهات بديلة أكثر تكلفة ويوفر تكاملا سلسا للتطبيقات المستندة إلى الذكاء الاصطناعي.
Code sample
الخطوة التالية
إصدار تجريبي مجاني لمدة 30 يوما دون اشتراك Azure