الذكاء الاصطناعي التوليدية باستخدام قاعدة بيانات Azure ل PostgreSQL

تشير الذكاء الاصطناعي التوليدية إلى فئة من خوارزميات الذكاء الاصطناعي التي يمكنها التعلم من محتوى الوسائط المتعددة الموجود وإنتاج محتوى جديد. يمكنك تخصيص المحتوى المولد من خلال تقنيات مثل التعليمات والضبط الدقيق. تستخدم خوارزميات الذكاء الاصطناعي التوليدي نماذج تعلم آلي محددة:

  • المحولات والشبكات العصبية المتكررة (RNNs) لإنشاء النص
  • شبكات التخاصم التوليدية (GANs) والمبرمجات التلقائية للتباينات (VAEs) لإنشاء الصور

يتم استخدام الذكاء الاصطناعي التوليدية في تركيب الصور والموسيقى وفي الرعاية الصحية، جنبا إلى جنب مع المهام الشائعة مثل الإكمال التلقائي للنص وتلخيص النص والترجمة. تمكن تقنيات الذكاء الاصطناعي التوليدي ميزات في البيانات مثل التجميع والتقسيم، البحث الدلالي والتوصيات، نمذجة المقالات، الإجابة على الأسئلة، واكتشاف الشذوذات.

يوضح الفيديو التالي استخدام الذكاء الاصطناعي التوليدي مع Azure Database لصالح PostgreSQL والامتدادpgvector. يمكن أن يساعدك ذلك على فهم المفاهيم الواردة في هذا المقال.

OpenAI

OpenAI هي مؤسسة بحثية وشركة تكنولوجيا معروفة بعملها الرائد في مجال الذكاء الاصطناعي والتعلم الآلي. وتتمثل مهمتها في ضمان أن الذكاء العام الاصطناعي، الذي يشير إلى أنظمة الذكاء الاصطناعي مستقلة للغاية يمكن أن تتفوق على البشر في العمل الأكثر قيمة من الناحية الاقتصادية، يفيد البشرية جمعاء. جلب OpenAI إلى السوق أحدث النماذج التوليدية مثل GPT-3 وGPT-3.5 وGPT-4.

Azure OpenAI هو عرض خدمة Microsoft للمساعدة في إنشاء تطبيقات الذكاء الاصطناعي إنشاء باستخدام Azure. يمنح Azure OpenAI العملاء لغة متقدمة الذكاء الاصطناعي مع نماذج OpenAI GPT-4 وGPT-3 وCodex وDALL-E وSsons، مع إمكانات الأمان والمؤسسة في Azure. يقوم Azure OpenAI بتكوين واجهات برمجة التطبيقات مع OpenAI لضمان التوافق والانتقال السلس من واحد إلى آخر.

باستخدام Azure OpenAI، يحصل العملاء على قدرات الأمان الخاصة بمايكروسوفت أزور أثناء تشغيل نفس نماذج OpenAI. يوفر Azure OpenAI شبكات خاصة وتوافر إقليمي وتصفية محتوى الذكاء الاصطناعي مسؤول.

تعرف على المزيد حول Azure OpenAI.

نموذج لغة كبيرة

نموذج اللغة الكبيرة (LLM) هو نوع من نماذج الذكاء الاصطناعي المدرب على كميات هائلة من البيانات النصية لفهم وتوليد لغة شبيهة بالبشر. عادة ما تستخدم نماذج اللغة الكبيرة بنى التعلم العميق، مثل المحولات. وهم معروفون بقدرتهم على أداء مجموعة واسعة من فهم اللغة الطبيعية ومهام الإنشاء. تعد خدمة Azure OpenAI وChatGPT من OpenAI أمثلة على عروض LLM.

تشمل الخصائص والقدرات الرئيسية ل LLMs ما يلي:

  • المقياس: تستخدم نماذج اللغة الكبيرة هياكل ذات مقياس ضخم من حيث عدد المعلمات. تحتوي نماذج مثل GPT-3 على مئات الملايين إلى تريليونات من المعلمات، ما يسمح لها بالتقاط أنماط معقدة في اللغة.
  • التدريب المسبق: يتم تدريب نماذج اللغة الكبيرة على مجموعة كبيرة من البيانات النصية من الإنترنت. يمكنهم هذا التدريب المسبق من تعلم التدقيق النحوي وبناء الجملة ودلالات ومجموعة واسعة من المعرفة حول اللغة والعالم.
  • الضبط الدقيق: بعد التدريب المسبق، يمكنك ضبط نماذج اللغة الكبيرة على مهام أو مجالات محددة باستخدام مجموعات بيانات أصغر وخاصة بالمهام. تسمح عملية الضبط هذه لهم بالتكيف مع المهام الأكثر تخصصا، مثل تصنيف النص والترجمة والتلخيص والإجابة على الأسئلة.

جي بي تي

يرمز GPT إلى المحول التوليدي المدرب مسبقا، ويشير إلى سلسلة من نماذج اللغة الكبيرة التي طورها OpenAI. نماذج GPT هي شبكات عصبية دربتها OpenAI مسبقا على كميات هائلة من البيانات من الإنترنت، لذا فهي قادرة على فهم وتوليد نصوص شبيهة بالبشر.

فيما يلي نظرة عامة على نماذج GPT الرئيسية وخصائصها الرئيسية:

  • GPT-3: تم إصداره في يونيو 2020 ونموذج معروف في سلسلة GPT. لديها 175 مليار معلمة، ما يجعلها واحدة من أكبر وأقوى نماذج اللغة الموجودة.

    يحقق GPT-3 أداء ملحوظا في مجموعة واسعة من مهام الفهم وتوليد اللغة الطبيعية. يمكنه تنفيذ مهام مثل إكمال النص والترجمة والإجابة على الأسئلة بطلاقة على مستوى الإنسان.

    يتم تقسيم GPT-3 إلى أحجام نماذج مختلفة، تتراوح من أصغر (125 مليون معلمة) إلى الأكبر (175 مليار معلمة).

  • GPT-4: أحدث نموذج GPT من OpenAI. لديها 1.76 تريليون معلمة.

الخطوط المتجهة

المتجه هو مفهوم رياضي يستخدم في الجبر الخطي والهندسة لتمثيل الكميات التي لها كل من الحجم والاتجاه. في سياق تعلم الآلة، استخدم المتجهات لتمثيل نقاط البيانات أو الميزات.

تتضمن السمات والعمليات الرئيسية للخطوط المتجهة ما يلي:

  • الحجم: يمثل طول أو حجم المتجه، الذي يشار إليه غالبا على أنه معياره، حجم البيانات. إنه رقم حقيقي غير سالب.
  • الاتجاه: يشير الاتجاه إلى اتجاه أو زاوية الكمية التي يمثلها، فيما يتعلق بنقطة مرجعية أو نظام إحداثيات.
  • المكونات: يمكن تحليل المتجه إلى مكوناته على طول محاور أو أبعاد مختلفة. في نظام إحداثيات الديكارتية 2D، يمكن تمثيل المتجه على أنه (x، y)، حيث xوy هما مكوناه على طول المحور س والمحور ص، على التوالي. المتجه في أبعاد n هو n-tuple ({x1, x2... xn}).
  • الجمع والضرب القياسي: جمع المتجهات معا لتكوين متجهات جديدة، وضربها في العدد القياسي (الأعداد الحقيقية).
  • الضربات النقطية والضربات المتقاطعة: يجمع بين المتجهات عبر الضربات النقطية (الضربات العددية) والضربات المتقاطعة (الضربات المتجهية).

قواعد بيانات المتجهات

قاعدة بيانات المتجهات، والمعروفة أيضا باسم نظام إدارة قاعدة بيانات المتجهات (DBMS)، هي نوع من نظام قاعدة البيانات المصمم لتخزين البيانات المتجهة وإدارتها والاستعلام عنها بكفاءة. تعالج قواعد البيانات الارتباطية التقليدية في المقام الأول البيانات المنظمة في الجداول، بينما يتم تحسين قواعد بيانات المتجهات لتخزين نقاط البيانات متعددة الأبعاد واستردادها ممثلة كخطوط متجهة. تعد قواعد البيانات هذه مفيدة للتطبيقات التي تشارك فيها عمليات مثل عمليات البحث عن التشابه والبيانات الجغرافية المكانية وأنظمة التوصية وتكوين المجموعات.

تتضمن الخصائص الرئيسية لقواعد بيانات المتجهات ما يلي:

  • تخزين المتجهات: تخزن قواعد بيانات المتجهات نقاط البيانات كخطوط متجهة ذات أبعاد متعددة. يمثل كل بعد ميزة أو سمة لنقطة البيانات. يمكن أن تمثل هذه المتجهات مجموعة واسعة من أنواع البيانات، بما في ذلك البيانات الرقمية والقاطعة والنصية.
  • عمليات المتجهات الفعالة: يتم تحسين قواعد بيانات المتجهات لتنفيذ عمليات المتجهات، مثل إضافة المتجهات والطرح والمنتجات النقطة وحسابات التشابه (على سبيل المثال، تشابه التمام أو مسافة إقليدي).
  • البحث الفعال: تعد آليات الفهرسة الفعالة أمرا بالغ الأهمية للاسترداد السريع للخطوط المتجهة المماثلة. تستخدم قواعد بيانات المتجهات آليات فهرسة مختلفة لتمكين الاسترداد السريع.
  • لغات الاستعلام: توفر قواعد بيانات المتجهات لغات الاستعلام وواجهات برمجة التطبيقات المصممة لعمليات المتجه وعمليات البحث عن التشابه. تسمح لغات الاستعلام هذه للمستخدمين بالتعبير عن معايير البحث الخاصة بهم بكفاءة.
  • بحث التشابه: تتفوق قواعد بيانات المتجهات في عمليات البحث عن التشابه، والتي تسمح للمستخدمين بالعثور على نقاط بيانات مشابهة لنقطة استعلام متوفرة. هذه الخاصية قيمة في أنظمة البحث والتوصية.
  • معالجة البيانات الجغرافية المكانية: تم تصميم بعض قواعد بيانات المتجهات للبيانات الجغرافية المكانية، لذلك فهي مناسبة تماما للتطبيقات مثل الخدمات المستندة إلى الموقع وأنظمة المعلومات الجغرافية (GISs) والمهام المتعلقة بالخريطة.
  • دعم أنواع البيانات المتنوعة: يمكن لقواعد بيانات المتجهات تخزين وإدارة أنواع مختلفة من البيانات، مثل المتجهات والصور والنص.

يمكن ل PostgreSQL الحصول على قدرات قاعدة بيانات متجهة باستخدام الامتدادpgvector.

Embeddings

التضمين هو مفهوم في التعلم الآلي ومعالجة اللغة الطبيعية. تمثل هذه الكائنات كأشياء مثل الكلمات أو المستندات أو الكيانات كمتجهات في فضاء متعدد الأبعاد.

غالبا ما تكون هذه المتجهات كثيفة، مما يعني أن لها عددا كبيرا من الأبعاد. تتعلمها من خلال تقنيات مختلفة، بما في ذلك الشبكات العصبية. تهدف التضمينات إلى التقاط العلاقات الدلالية والتشابهات بين الكائنات في مساحة متجه مستمرة.

تتضمن الأنواع الشائعة من عمليات التضمين ما يلي:

  • Word: في معالجة اللغة الطبيعية، تمثل تضمينات الكلمات الكلمات كخطوط متجهة. كل كلمة تربط بمتجه في فضاء عالي الأبعاد، حيث تقع الكلمات ذات المعاني أو السياقات المشابهة أقرب لبعضها البعض. Word2Vec وهي GloVe تقنيات شائعة لتضمين الكلمات.
  • المستند: تمثل تضمينات المستندات المستندات كخطوط متجهة. Doc2Vec شائع لإنشاء تضمينات المستندات.
  • الصورة: يمكنك تمثيل الصور كتضمينات لالتقاط الميزات البصرية لمهام مثل التعرف على الكائنات.

تعتبر عمليات التضمين أساسية لتمثيل البيانات المعقدة وعالية الأبعاد في شكل يمكن لنماذج التعلم الآلي معالجتها بسهولة. يمكنك تدريبهم على مجموعات بيانات كبيرة ثم استخدامها كميزات لمهام مختلفة. تستخدمها LLMs.

يمكن أن يكتسب PostgreSQL قدرات إنشاء تضمينات المتجهات باستخدام تكامل OpenAI لملحق Azure الذكاء الاصطناعي.

Scenarios

تمتلك الذكاء الاصطناعي التوليدية مجموعة واسعة من التطبيقات عبر مختلف المجالات والصناعات، بما في ذلك التكنولوجيا والرعاية الصحية والترفيه والتمويل والتصنيع والمزيد. إليك بعض المهام الشائعة التي يمكنك إنجازها باستخدام الذكاء الاصطناعي التوليدي:

  • البحث الدلالي:
    • تتيح الذكاء الاصطناعي التوليدية البحث الدلالي على البيانات بدلا من البحث المعجمي. يبحث هذا الأخير عن مطابقات دقيقة للاستعلامات، بينما يبحث البحث الدلالي عن المحتوى الذي يفي بهدف استعلام البحث.
  • روبوتات الدردشة والمساعدين الظاهريين:
    • طور روبوتات دردشة يمكنها المشاركة في محادثات طبيعية واعية للسياق، مثل تطبيق المساعدة الذاتية للعملاء.
  • أنظمة التوصية:
    • تحسين خوارزميات التوصية عن طريق إنشاء تضمينات أو تمثيلات للعناصر أو المستخدمين.
  • التجميع والتجزئة:
    • تسمح عمليات التضمين التي تم إنشاؤها الذكاء الاصطناعي الإنشاء لخوارزميات التجميع بتجميع البيانات بحيث يتم تجميع البيانات المماثلة معا. يتيح هذا التجميع سيناريوهات مثل تجزئة العملاء، ما يسمح للمعلنين باستهداف عملائهم بشكل مختلف استنادا إلى سماتهم.
  • إنشاء المحتوى:
    • قم بإنشاء نصوص شبيهة بالبشر لتطبيقات مثل روبوتات الدردشة، وإنشاء الروايات والشعر، وفهم اللغة الطبيعية.
    • إنشاء صور أو أعمال فنية أو تصميمات واقعية للرسومات والترفيه والإعلانات.
    • إنشاء مقاطع فيديو أو حركات أو تأثيرات فيديو للأفلام والألعاب والتسويق.
    • إنشاء موسيقى.
  • ترجمة:
    • تترجم النص من لغة إلى أخرى.
  • تلخيص:
    • تلخيص المقالات أو المستندات الطويلة لاستخراج المعلومات الرئيسية.
  • زيادة البيانات:
    • إنشاء عينات بيانات إضافية لتوسيع مجموعات بيانات التدريب وتحسينها لنماذج التعلم الآلي.
    • إنشاء بيانات اصطناعية للسيناريوهات التي يصعب جمعها أو باهظة الثمن في العالم الحقيقي، مثل التصوير الطبي.
  • اكتشاف المخدرات:
    • توليد الهياكل الجزيئية والتنبؤ بالأدوية المرشحة المحتملة للبحث الصيدلاني.
  • تطوير اللعبة:
    • إنشاء محتوى اللعبة، بما في ذلك المستويات والأحرف والمادة.
    • إنشاء بيئات واقعية داخل اللعبة والمناظر الطبيعية.
  • إلغاء تحديد البيانات واكتمالها:
    • قم بتنظيف البيانات صاخبة عن طريق إنشاء عينات بيانات نظيفة.
    • املأ البيانات المفقودة أو غير المكتملة في مجموعات البيانات.