الذكاء الاصطناعي والتعلم الآلي على Databricks
توضح هذه المقالة الأدوات التي يوفرها الذكاء الاصطناعي الفسيفساء (المعروف سابقا باسم Databricks التعلم الآلي) لمساعدتك في بناء أنظمة الذكاء الاصطناعي وML. يوضح الرسم التخطيطي كيف تساعدك المنتجات المختلفة على النظام الأساسي Databricks على تنفيذ مهام سير العمل من طرف إلى طرف لإنشاء أنظمة الذكاء الاصطناعي وML وتوزيعها
الذكاء الاصطناعي التوليدية على Databricks
توحد الذكاء الاصطناعي الفسيفساء دورة حياة الذكاء الاصطناعي من جمع البيانات وإعدادها، إلى تطوير النماذج و LLMOps، إلى الخدمة والمراقبة. تم تحسين الميزات التالية خصيصا لتسهيل تطوير تطبيقات الذكاء الاصطناعي التوليدية:
- كتالوج Unity للحوكمة والاكتشاف وتعيين الإصدار والتحكم في الوصول للبيانات والميزات والنماذج والوظائف.
- MLflow لتتبع تطوير النموذج.
- الفسيفساء الذكاء الاصطناعي خدمة النموذج لنشر LLMs. يمكنك تكوين نقطة نهاية خدمة نموذج خصيصا للوصول إلى نماذج الذكاء الاصطناعي التوليدية:
- أحدث إصدارات LLMs المفتوحة باستخدام واجهات برمجة تطبيقات نموذج الأساس.
- نماذج الجهات الخارجية المستضافة خارج Databricks. راجع النماذج الخارجية في الفسيفساء الذكاء الاصطناعي خدمة النموذج.
- يوفر البحث عن متجهات الفسيفساء الذكاء الاصطناعي قاعدة بيانات متجهات قابلة للاستعلام تخزن متجهات التضمين ويمكن تكوينها للمزامنة تلقائيا مع قاعدة المعارف (KB).
- Lakehouse Monitoring لمراقبة البيانات وتتبع جودة تنبؤ النموذج والانجراف باستخدام تسجيل الحمولة التلقائية مع جداول الاستدلال.
- الذكاء الاصطناعي Playground لاختبار نماذج الذكاء الاصطناعي التوليدية من مساحة عمل Databricks. يمكنك المطالبة والمقارنة وضبط الإعدادات مثل موجه النظام ومعلمات الاستدلال.
- الفسيفساء الذكاء الاصطناعي تدريب النموذج (سابقا Foundation Model Training) لتخصيص نموذج أساسي باستخدام بياناتك الخاصة لتحسين أدائه لتطبيقك المحدد.
- الفسيفساء الذكاء الاصطناعي إطار عمل العامل لبناء وتوزيع عوامل جودة الإنتاج مثل استرداد تطبيقات الجيل المعزز (RAG).
- الفسيفساء الذكاء الاصطناعي تقييم العامل لتقييم جودة وتكلفة وزمن انتقال تطبيقات الذكاء الاصطناعي التوليدية، بما في ذلك تطبيقات وسلاسل RAG.
ما هو الذكاء الاصطناعي التوليدي؟
الذكاء الاصطناعي التوليدي هو نوع من الذكاء الاصطناعي يركز على قدرة أجهزة الكمبيوتر على استخدام النماذج لإنشاء محتوى مثل الصور والنص والرمز والبيانات الاصطناعية.
يتم إنشاء تطبيقات الذكاء الاصطناعي التوليدية على رأس نماذج الذكاء الاصطناعي التوليدية: نماذج اللغة الكبيرة (LLMs) والنماذج الأساسية.
- LLMs هي نماذج التعلم العميق التي تستهلك وتتدرب على مجموعات البيانات الضخمة للتفوق في مهام معالجة اللغة. وهي تنشئ مجموعات جديدة من النص تحاكي اللغة الطبيعية استنادا إلى بيانات التدريب الخاصة بها.
- نماذج الذكاء الاصطناعي التوليدية أو النماذج الأساسية هي نماذج التعلم الآلي الكبيرة المدربة مسبقا بهدف ضبطها لفهم اللغة ومهام الإنشاء بشكل أكثر تحديدا. تستخدم هذه النماذج لتمييز الأنماط داخل بيانات الإدخال.
بعد أن تكمل هذه النماذج عمليات التعلم الخاصة بها، فإنها تولد معا مخرجات محتملة إحصائيا عند مطالبتها ويمكن استخدامها لإنجاز مهام مختلفة، بما في ذلك:
- إنشاء صورة استنادا إلى تلك الموجودة أو استخدام نمط صورة واحدة لتعديل صورة جديدة أو إنشائها.
- مهام الكلام مثل النسخ والترجمة وإنشاء الأسئلة/الإجابات وتفسير هدف النص أو معناه.
هام
في حين أن العديد من LLMs أو نماذج الذكاء الاصطناعي التوليدية الأخرى لديها ضمانات، فإنها لا تزال قادرة على توليد معلومات ضارة أو غير دقيقة.
تحتوي الذكاء الاصطناعي التوليدية على أنماط التصميم التالية:
- هندسة المطالبة: صياغة مطالبات متخصصة لتوجيه سلوك LLM
- استرداد الجيل المعزز (RAG): الجمع بين LLM واسترجاع المعرفة الخارجية
- الضبط الدقيق: تكييف LLM مدرب مسبقا مع مجموعات بيانات محددة من المجالات
- التدريب المسبق: تدريب LLM من البداية
التعلم الآلي على Databricks
مع الذكاء الاصطناعي الفسيفساء، تخدم منصة واحدة كل خطوة من خطوات تطوير ونشر التعلم الآلي، من البيانات الأولية إلى جداول الاستدلال التي تحفظ كل طلب واستجابة لنموذج يخدم. يمكن لعلماء البيانات ومهندسي البيانات ومهندسي التعلم الآلي وDevOps القيام بعملهم باستخدام نفس مجموعة الأدوات ومصدر واحد للحقيقة للبيانات.
توحد الذكاء الاصطناعي الفسيفساء طبقة البيانات ومنصة التعلم الآلي. جميع أصول البيانات والبيانات الاصطناعية، مثل النماذج والوظائف، قابلة للاكتشاف والحوكمة في كتالوج واحد. استخدام نظام أساسي واحد للبيانات والنماذج يجعل من الممكن تتبع دورة حياة البيانات من البيانات الأولية إلى نموذج الإنتاج. توفر مراقبة البيانات والنماذج المضمنة مقاييس الجودة إلى الجداول المخزنة أيضا في النظام الأساسي، ما يسهل تحديد السبب الجذري لمشاكل أداء النموذج. لمزيد من المعلومات حول كيفية دعم Databricks لدورة حياة التعلم الآلي الكاملة وMLOps، راجع سير عمل MLOps على Azure Databricks وMLOps Stacks: عملية تطوير النموذج كتعليمة برمجية.
بعض المكونات الرئيسية للنظام الأساسي لذكاء البيانات هي:
المهام | المكون |
---|---|
التحكم في البيانات والميزات والنماذج والوظائف وإدارتها. أيضا الاكتشاف وتعيين الإصدارات والنضال. | كتالوج Unity |
تعقب التغييرات في البيانات وجودة البيانات وجودة التنبؤ بالنموذج | Lakehouse Monitoring، جداول الاستدلال |
تطوير الميزات وإدارتها | هندسة الميزات وتقديم الخدمات. |
نماذج التدريب | دفاتر ملاحظات فسيفساء AutoML وDatabricks |
تطوير نموذج المسار | تتبع تدفق MLflow |
خدمة النماذج المخصصة | الفسيفساء الذكاء الاصطناعي خدمة النموذج. |
إنشاء مهام سير عمل تلقائية ومسارات ETL جاهزة للإنتاج | وظائف Databricks |
تكامل Git | مجلدات Databricks Git |
التعلم العميق على Databricks
قد يكون تكوين البنية الأساسية لتطبيقات التعلم العميق أمرا صعبا. يهتم وقت تشغيل Databricks ل التعلم الآلي بذلك نيابة عنك، مع المجموعات التي تحتوي على إصدارات متوافقة مضمنة من مكتبات التعلم العميق الأكثر شيوعا مثل TensorFlow وPyTorch وKeras.
تتضمن مجموعات التعلم الآلي من Databricks Runtime أيضا دعم GPU المكون مسبقا مع برامج التشغيل والمكتبات الداعمة. كما أنه يدعم مكتبات مثل Ray لموازاة معالجة الحوسبة لتوسيع نطاق مهام سير عمل التعلم الآلي وتطبيقات التعلم الآلي.
تتضمن مجموعات التعلم الآلي من Databricks Runtime أيضا دعم GPU المكون مسبقا مع برامج التشغيل والمكتبات الداعمة. تتيح خدمة نموذج الفسيفساء الذكاء الاصطناعي إنشاء نقاط نهاية GPU قابلة للتطوير لنماذج التعلم العميق دون تكوين إضافي.
بالنسبة لتطبيقات التعلم الآلي، توصي Databricks باستخدام نظام مجموعة يقوم بتشغيل Databricks Runtime التعلم الآلي. راجع إنشاء نظام مجموعة باستخدام Databricks Runtime ML.
للبدء في التعلم العميق على Databricks، راجع:
- أفضل الممارسات للتعلم العميق على Azure Databricks
- التعلم العميق على Databricks
- حلول مرجعية للتعلم العميق
الخطوات التالية
للبدء، راجع:
للحصول على سير عمل MLOps موصى به على الذكاء الاصطناعي Databricks Mosaic، راجع:
للتعرف على ميزات الذكاء الاصطناعي Databricks الفسيفساء الرئيسية، راجع: