البرنامج التعليمي: إنشاء وتوزيع فسيفساء الذكاء الاصطناعي تشغيل تدريب النموذج

هام

هذه الميزة موجودة في المعاينة العامة في المناطق التالية: centralusوeastus2eastusnorthcentralus.westus

توضح هذه المقالة كيفية إنشاء وتكوين تشغيل باستخدام واجهة برمجة تطبيقات تدريب نموذج الذكاء الاصطناعي الفسيفساء (المعروف سابقا ب Foundation Model Training)، ثم مراجعة النتائج ونشر النموذج باستخدام واجهة مستخدم Databricks وFasics الذكاء الاصطناعي Model Serving.

المتطلبات

  • مساحة عمل في إحدى مناطق Azure التالية: centralus، eastus، eastus2، northcentralus، westcentralus، westus. westus3
  • Databricks Runtime 12.2 LTS ML أو أعلى.
  • يجب تشغيل هذا البرنامج التعليمي في دفتر ملاحظات Databricks.
  • بيانات التدريب بالتنسيق المقبول. راجع إعداد البيانات لتدريب نموذج الذكاء الاصطناعي الفسيفساء.

الخطوة 1: إعداد بياناتك للتدريب

راجع إعداد البيانات لتدريب نموذج الذكاء الاصطناعي الفسيفساء.

الخطوة 2: تثبيت databricks_genai SDK

استخدم ما يلي لتثبيت databricks_genai SDK.

%pip install databricks_genai

بعد ذلك، قم باستيراد المكتبة foundation_model :

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

الخطوة 3: إنشاء تشغيل تدريب

إنشاء تشغيل تدريب باستخدام وظيفة تدريب نموذج create() الفسيفساء الذكاء الاصطناعي. تعتبر المعلمات التالية مطلوبة:

  • model: النموذج الذي تريد تدريبه.
  • train_data_path: موقع مجموعة بيانات التدريب.
  • register_to: كتالوج ومخطط كتالوج Unity حيث تريد حفظ نقاط التحقق فيه.

على سبيل المثال:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

الخطوة 4: عرض حالة التشغيل

يعتمد الوقت المستغرق لإكمال تشغيل التدريب على عدد الرموز المميزة والنموذج وتوافر وحدة معالجة الرسومات. للحصول على تدريب أسرع، توصي Databricks باستخدام الحوسبة المحجوزة. تواصل مع فريق حساب Databricks للحصول على التفاصيل.

بعد تشغيل التشغيل الخاص بك، يمكنك مراقبة حالة ذلك باستخدام get_events().

run.get_events()

الخطوة 5: عرض المقاييس والمخرجات

اتبع هذه الخطوات لعرض النتائج في واجهة مستخدم Databricks:

  1. في مساحة عمل Databricks، انقر فوق التجارب في شريط التنقل الأيسر.
  2. حدد تجربتك من القائمة.
  3. راجع مخططات المقاييس في علامة التبويب مخططات . يتم إنشاء مقاييس التدريب لكل تشغيل تدريب ويتم إنشاء مقاييس التقييم فقط إذا تم توفير مسار بيانات تقييم.
    1. مقياس التدريب الأساسي الذي يظهر التقدم هو الخسارة. يمكن استخدام فقدان التقييم لمعرفة ما إذا كان النموذج الخاص بك مفرطا في احتواء بيانات التدريب الخاصة بك. ومع ذلك، لا ينبغي الاعتماد على الخسارة بالكامل لأنه في مهام التدريب الخاضعة للإشراف، يمكن أن تبدو خسارة التقييم مبالغا فيها بينما يستمر النموذج في التحسن.
    2. كلما ارتفعت الدقة كلما كان نموذجك أفضل، ولكن ضع في اعتبارك أن الدقة القريبة من 100٪ قد تظهر فرط الملائمة.
    3. تظهر المقاييس التالية في MLflow بعد التشغيل:
      • LanguageCrossEntropy يحسب الإدخالات المتقاطعة على مخرجات نمذجة اللغة. درجة أقل أفضل.
      • LanguagePerplexity يقيس نموذج اللغة مدى توقع الكلمة أو الحرف التالي في كتلة نص استنادا إلى الكلمات أو الأحرف السابقة. درجة أقل أفضل.
      • TokenAccuracy يحسب دقة مستوى الرمز المميز لنمذجة اللغة. درجة أعلى أفضل.
    4. في علامة التبويب هذه، يمكنك أيضا عرض إخراج مطالبات التقييم إذا حددتها.

الخطوة 6: تقييم نموذج مخصص متعدد باستخدام MLflow LLM Evaluate قبل التوزيع

راجع تقييم نماذج اللغات الكبيرة باستخدام MLflow مفتوح المصدر.

الخطوة 7: نشر النموذج الخاص بك

يقوم تشغيل التدريب تلقائيا بتسجيل النموذج الخاص بك في كتالوج Unity بعد اكتماله. يتم تسجيل النموذج استنادا إلى ما حددته في register_to الحقل في أسلوب التشغيل create() .

لنشر النموذج للخدمة، اتبع الخطوات التالية:

  1. انتقل إلى النموذج في كتالوج Unity.
  2. انقر فوق خدمة هذا النموذج.
  3. انقر فوق Create serving endpoint.
  4. في حقل الاسم ، أدخل اسما لنقطة النهاية.
  5. انقر فوق Create.

الموارد الإضافية