البرنامج التعليمي: إنشاء وتوزيع فسيفساء الذكاء الاصطناعي تشغيل تدريب النموذج
هام
هذه الميزة موجودة في المعاينة العامة في المناطق التالية: centralus
وeastus2
eastus
northcentralus
.westus
توضح هذه المقالة كيفية إنشاء وتكوين تشغيل باستخدام واجهة برمجة تطبيقات تدريب نموذج الذكاء الاصطناعي الفسيفساء (المعروف سابقا ب Foundation Model Training)، ثم مراجعة النتائج ونشر النموذج باستخدام واجهة مستخدم Databricks وFasics الذكاء الاصطناعي Model Serving.
المتطلبات
- مساحة عمل في إحدى مناطق Azure التالية:
centralus
،eastus
،eastus2
،northcentralus
،westcentralus
،westus
.westus3
- Databricks Runtime 12.2 LTS ML أو أعلى.
- يجب تشغيل هذا البرنامج التعليمي في دفتر ملاحظات Databricks.
- بيانات التدريب بالتنسيق المقبول. راجع إعداد البيانات لتدريب نموذج الذكاء الاصطناعي الفسيفساء.
الخطوة 1: إعداد بياناتك للتدريب
راجع إعداد البيانات لتدريب نموذج الذكاء الاصطناعي الفسيفساء.
الخطوة 2: تثبيت databricks_genai
SDK
استخدم ما يلي لتثبيت databricks_genai
SDK.
%pip install databricks_genai
بعد ذلك، قم باستيراد المكتبة foundation_model
:
dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm
الخطوة 3: إنشاء تشغيل تدريب
إنشاء تشغيل تدريب باستخدام وظيفة تدريب نموذج create()
الفسيفساء الذكاء الاصطناعي. تعتبر المعلمات التالية مطلوبة:
model
: النموذج الذي تريد تدريبه.train_data_path
: موقع مجموعة بيانات التدريب.register_to
: كتالوج ومخطط كتالوج Unity حيث تريد حفظ نقاط التحقق فيه.
على سبيل المثال:
run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
register_to='main.my-directory',
training_duration='1ep')
run
الخطوة 4: عرض حالة التشغيل
يعتمد الوقت المستغرق لإكمال تشغيل التدريب على عدد الرموز المميزة والنموذج وتوافر وحدة معالجة الرسومات. للحصول على تدريب أسرع، توصي Databricks باستخدام الحوسبة المحجوزة. تواصل مع فريق حساب Databricks للحصول على التفاصيل.
بعد تشغيل التشغيل الخاص بك، يمكنك مراقبة حالة ذلك باستخدام get_events()
.
run.get_events()
الخطوة 5: عرض المقاييس والمخرجات
اتبع هذه الخطوات لعرض النتائج في واجهة مستخدم Databricks:
- في مساحة عمل Databricks، انقر فوق التجارب في شريط التنقل الأيسر.
- حدد تجربتك من القائمة.
- راجع مخططات المقاييس في علامة التبويب مخططات . يتم إنشاء مقاييس التدريب لكل تشغيل تدريب ويتم إنشاء مقاييس التقييم فقط إذا تم توفير مسار بيانات تقييم.
- مقياس التدريب الأساسي الذي يظهر التقدم هو الخسارة. يمكن استخدام فقدان التقييم لمعرفة ما إذا كان النموذج الخاص بك مفرطا في احتواء بيانات التدريب الخاصة بك. ومع ذلك، لا ينبغي الاعتماد على الخسارة بالكامل لأنه في مهام التدريب الخاضعة للإشراف، يمكن أن تبدو خسارة التقييم مبالغا فيها بينما يستمر النموذج في التحسن.
- كلما ارتفعت الدقة كلما كان نموذجك أفضل، ولكن ضع في اعتبارك أن الدقة القريبة من 100٪ قد تظهر فرط الملائمة.
- تظهر المقاييس التالية في MLflow بعد التشغيل:
LanguageCrossEntropy
يحسب الإدخالات المتقاطعة على مخرجات نمذجة اللغة. درجة أقل أفضل.LanguagePerplexity
يقيس نموذج اللغة مدى توقع الكلمة أو الحرف التالي في كتلة نص استنادا إلى الكلمات أو الأحرف السابقة. درجة أقل أفضل.TokenAccuracy
يحسب دقة مستوى الرمز المميز لنمذجة اللغة. درجة أعلى أفضل.
- في علامة التبويب هذه، يمكنك أيضا عرض إخراج مطالبات التقييم إذا حددتها.
الخطوة 6: تقييم نموذج مخصص متعدد باستخدام MLflow LLM Evaluate قبل التوزيع
راجع تقييم نماذج اللغات الكبيرة باستخدام MLflow مفتوح المصدر.
الخطوة 7: نشر النموذج الخاص بك
يقوم تشغيل التدريب تلقائيا بتسجيل النموذج الخاص بك في كتالوج Unity بعد اكتماله. يتم تسجيل النموذج استنادا إلى ما حددته في register_to
الحقل في أسلوب التشغيل create()
.
لنشر النموذج للخدمة، اتبع الخطوات التالية:
- انتقل إلى النموذج في كتالوج Unity.
- انقر فوق خدمة هذا النموذج.
- انقر فوق Create serving endpoint.
- في حقل الاسم ، أدخل اسما لنقطة النهاية.
- انقر فوق Create.
الموارد الإضافية
- إنشاء تشغيل تدريب باستخدام واجهة برمجة تطبيقات تدريب نموذج الفسيفساء الذكاء الاصطناعي
- تدريب نموذج الفسيفساء الذكاء الاصطناعي للنماذج الأساسية
- نموذج يخدم مع Azure Databricks
- راجع دفتر الملاحظات التجريبي للضبط الدقيق للتعليمات: التعرف على الكيان المسمى للحصول على مثال لضبط التعليمات الذي يستعرض إعداد البيانات وتكوين تشغيل التدريب الدقيق ونشره.