البنية المرجعية للدردشة الأساسية OpenAI من طرف إلى طرف

Azure OpenAI Service
Azure Machine Learning
Azure App Service
Azure Key Vault
Azure Monitor

يمكن لتطبيقات الدردشة على مستوى المؤسسة تمكين الموظفين من خلال التفاعل مع المحادثة. هذا صحيح بشكل خاص بسبب التقدم المستمر لنماذج اللغة، مثل نماذج GPT الخاصة ب OpenAI ونماذج LLaMA الخاصة ب Meta. تتكون تطبيقات الدردشة هذه من واجهة مستخدم الدردشة (UI)، ومستودعات البيانات التي تحتوي على معلومات خاصة بالمجال ذات صلة باستفسارات المستخدم، ونماذج اللغة التي تتسبب في البيانات الخاصة بالمجال لإنتاج استجابة ذات صلة، ومنسق يشرف على التفاعل بين هذه المكونات.

توفر هذه المقالة بنية أساسية لإنشاء تطبيقات دردشة المؤسسة التي تستخدم نماذج لغة خدمة Azure OpenAI ونشرها. تستخدم البنية Azure التعلم الآلي تدفق المطالبة لإنشاء تدفقات قابلة للتنفيذ. تنسق هذه التدفقات القابلة للتنفيذ سير العمل من المطالبات الواردة إلى مخازن البيانات لجلب بيانات الأساس لنماذج اللغة، جنبا إلى جنب مع منطق Python المطلوب الآخر. يتم نشر التدفق القابل للتنفيذ إلى مجموعة حساب التعلم الآلي خلف نقطة نهاية مدارة عبر الإنترنت.

تتبع استضافة واجهة مستخدم الدردشة المخصصة (UI) إرشادات تطبيق الويب لخدمات التطبيقات الأساسية لنشر تطبيق ويب آمن ومكرر للمنطقة ومتاح بشكل كبير على Azure App Services. في هذه البنية، تتصل App Service بحل النظام الأساسي Azure كخدمة (PaaS) من خلال تكامل الشبكة الظاهرية عبر نقاط النهاية الخاصة. تتصل خدمة تطبيق واجهة مستخدم الدردشة بنقطة النهاية المدارة عبر الإنترنت للتدفق عبر نقطة نهاية خاصة. تم تعطيل الوصول العام إلى مساحة عمل التعلم الآلي.

هام

لا تناقش المقالة المكونات أو قرارات البنية من تطبيق ويب App Service الأساسي. اقرأ هذه المقالة للحصول على إرشادات معمارية حول كيفية استضافة واجهة مستخدم الدردشة.

يتم تكوين مساحة عمل التعلم الآلي مع عزل الشبكة الظاهرية المدارة التي تتطلب الموافقة على جميع الاتصالات الصادرة. مع هذا التكوين، يتم إنشاء شبكة ظاهرية مدارة، جنبا إلى جنب مع نقاط النهاية الخاصة المدارة التي تمكن الاتصال بالموارد الخاصة، مثل مساحة عمل Azure Storage وAzure Container Registry وAzure OpenAI. يتم استخدام هذه الاتصالات الخاصة أثناء تأليف التدفق واختباره، ومن خلال التدفقات التي يتم نشرها على التعلم الآلي الحوسبة.

تلميح

شعار GitHub. يتم دعم هذه المقالة من خلال تنفيذ مرجعي يعرض تنفيذ دردشة أساسية شاملة على Azure. يمكنك استخدام هذا التنفيذ كأساس لتطوير الحلول المخصصة في خطوتك الأولى نحو الإنتاج.

بناء الأنظمة

رسم تخطيطي يوضح بنية دردشة أساسية شاملة مع OpenAI.

قم بتنزيل ملف Visio لهذه البنية.

المكونات

العديد من مكونات هذه البنية هي نفس الموارد في بنية تطبيق ويب App Service الأساسي لأن الأسلوب الذي تستخدمه لاستضافة واجهة مستخدم الدردشة هو نفسه في كلا الهيكلين. تركز المكونات المميزة في هذا القسم على المكونات المستخدمة لإنشاء تدفقات الدردشة وخدمات البيانات والخدمات التي تعرض نماذج اللغة وتنسيقها.

  • التعلم الآلي هي خدمة سحابية مدارة يمكنك استخدامها لتدريب نماذج التعلم الآلي ونشرها وإدارتها. تستخدم هذه البنية العديد من الميزات الأخرى التعلم الآلي التي تستخدم لتطوير ونشر تدفقات قابلة للتنفيذ لتطبيقات الذكاء الاصطناعي التي يتم تشغيلها بواسطة نماذج اللغة:

    • التعلم الآلي تدفق المطالبة هو أداة تطوير يمكنك استخدامها لإنشاء وتقييم ونشر التدفقات التي تربط مطالبات المستخدم والإجراءات من خلال التعليمات البرمجية ل Python والمكالمات إلى نماذج تعلم اللغة. يتم استخدام تدفق المطالبة في هذه البنية كطبقة تنسق التدفقات بين المطالبة ومخازن البيانات المختلفة ونموذج اللغة.

    • تتيح لك نقاط النهاية المدارة عبر الإنترنت نشر تدفق للاستدلال في الوقت الحقيقي. في هذه البنية، يتم استخدامها كنقطة نهاية PaaS لواجهة مستخدم الدردشة لاستدعاء تدفقات المطالبة التي تستضيفها التعلم الآلي.

  • يتم استخدام التخزين لاستمرار ملفات مصدر تدفق المطالبة لتطوير تدفق المطالبة.

  • يتيح لك Container Registry إنشاء صور الحاوية والبيانات الاصطناعية وتخزينها وإدارتها في سجل خاص لجميع أنواع عمليات نشر الحاويات. في هذه البنية، يتم حزم التدفقات كصور حاوية وتخزينها في Container Registry.

  • Azure OpenAI هي خدمة مدارة بالكامل توفر وصول REST API إلى نماذج لغة Azure OpenAI، بما في ذلك GPT-4 وGPT-3.5-Turbo ومجموعة التضمينات من النماذج. في هذه البنية، بالإضافة إلى الوصول إلى النموذج، يتم استخدامه لإضافة ميزات المؤسسة الشائعة مثل الشبكة الظاهرية والارتباط الخاص ودعم الهوية المدارة وتصفية المحتوى.

  • Azure الذكاء الاصطناعي Search هي خدمة بحث سحابية تدعم البحث في النص الكامل والبحث الدلالي والبحث المتجه والبحث المختلط. يتم تضمين الذكاء الاصطناعي Search في البنية لأنها خدمة شائعة تستخدم في التدفقات خلف تطبيقات الدردشة. يمكن استخدام الذكاء الاصطناعي Search لاسترداد البيانات ذات الصلة باستعلامات المستخدم وفهرستها. ينفذ تدفق المطالبة نمط RAG Retrieval Augmented Generation لاستخراج الاستعلام المناسب من المطالبة والاستعلام الذكاء الاصطناعي Search واستخدام النتائج كبيانات أساس لنموذج Azure OpenAI.

التعلم الآلي تدفق المطالبة

تتبع النهاية الخلفية لتطبيقات دردشة المؤسسة بشكل عام نمطا مشابها للتدفق التالي:

  • يدخل المستخدم مطالبة في واجهة مستخدم دردشة مخصصة (UI).
  • يتم إرسال هذه المطالبة إلى النهاية الخلفية بواسطة التعليمات البرمجية للواجهة.
  • يتم استخراج هدف المستخدم، إما السؤال أو التوجيه، من المطالبة بواسطة النهاية الخلفية.
  • اختياريا، تحدد النهاية الخلفية مخازن البيانات التي تحتوي على البيانات ذات الصلة بمطالبة المستخدم
  • يستعلم الطرف الخلفي عن مخازن البيانات ذات الصلة.
  • ترسل النهاية الخلفية الهدف وبيانات الأساس ذات الصلة وأي محفوظات مقدمة في المطالبة إلى نموذج اللغة.
  • ترجع النهاية الخلفية النتيجة بحيث يمكن عرضها على واجهة المستخدم.

يمكن تنفيذ النهاية الخلفية بأي عدد من اللغات ونشرها في خدمات Azure المختلفة. تستخدم هذه البنية تدفق المطالبة التعلم الآلي لأنها توفر تجربة مبسطة لإنشاء التدفقات التي تنسق بين المطالبات ومخازن البيانات الخلفية ونماذج اللغة واختبارها ونشرها.

أوقات تشغيل تدفق المطالبة

يمكن التعلم الآلي استضافة نوعين مباشرة من أوقات تشغيل تدفق المطالبة.

  • وقت التشغيل التلقائي: خيار حساب بلا خادم يدير دورة الحياة وخصائص الأداء للحساب ويسمح بتخصيص البيئة المستندة إلى التدفق.

  • وقت تشغيل مثيل الحوسبة: خيار حساب دائم حيث يجب على فريق حمل العمل تحديد خصائص الأداء. يوفر وقت التشغيل هذا المزيد من التخصيص والتحكم في البيئة.

يمكن أيضا استضافة تدفقات المطالبة الخارجية لحساب التعلم الآلي على الأنظمة الأساسية لمضيف الحاوية المضيفة. تستخدم هذه البنية App Service لإظهار الاستضافة الخارجية.

الشبكات

جنبا إلى جنب مع الوصول المستند إلى الهوية، يكون أمان الشبكة في صميم بنية الدردشة الأساسية الشاملة التي تستخدم OpenAI. من مستوى عال، تضمن بنية الشبكة ما يلي:

  • نقطة دخول واحدة وآمنة فقط لحركة مرور واجهة مستخدم الدردشة.
  • تتم تصفية حركة مرور الشبكة.
  • البيانات المتنقلة مشفرة من طرف إلى طرف باستخدام بروتوكول أمان طبقة النقل (TLS).
  • يتم تصغير تسرب البيانات باستخدام Private Link للحفاظ على نسبة استخدام الشبكة في Azure.
  • يتم تجميع موارد الشبكة منطقيا وعزلها عن بعضها البعض من خلال تجزئة الشبكة.

تدفقات الشبكة

رسم تخطيطي يوضح بنية دردشة أساسية شاملة مع OpenAI مع أرقام التدفق.

يتم تغطية تدفقين في هذا الرسم التخطيطي في بنية تطبيق ويب App Service الأساسي: التدفق الوارد من المستخدم النهائي إلى واجهة مستخدم الدردشة (1) والتدفق من App Service إلى خدمات Azure PaaS (2). يركز هذا القسم على تدفق نقطة النهاية التعلم الآلي عبر الإنترنت. ينتقل التدفق التالي من واجهة مستخدم الدردشة التي يتم تشغيلها في تطبيق ويب App Service الأساسي إلى التدفق المنشور إلى التعلم الآلي الحوسبة:

  1. يتم توجيه المكالمة من واجهة مستخدم الدردشة المستضافة على App Service من خلال نقطة نهاية خاصة إلى نقطة النهاية التعلم الآلي عبر الإنترنت.
  2. توجه نقطة النهاية عبر الإنترنت الاستدعاء إلى خادم يقوم بتشغيل التدفق المنشور. تعمل نقطة النهاية عبر الإنترنت كموازن تحميل وجهاز توجيه.
  3. يتم توجيه الاستدعاءات إلى خدمات Azure PaaS المطلوبة من قبل التدفق المنشور من خلال نقاط النهاية الخاصة المدارة.

الدخول إلى التعلم الآلي

في هذه البنية، يتم تعطيل الوصول العام إلى مساحة عمل التعلم الآلي. يمكن للمستخدمين الوصول إلى مساحة العمل عبر الوصول الخاص لأن البنية تتبع نقطة النهاية الخاصة لتكوين مساحة العمل التعلم الآلي. في الواقع، يتم استخدام نقاط النهاية الخاصة في جميع أنحاء هذه البنية لاستكمال الأمان المستند إلى الهوية. على سبيل المثال، يمكن لواجهة مستخدم الدردشة المستضافة على App Service الاتصال بخدمات PaaS التي لا تتعرض للإنترنت العام، بما في ذلك نقاط النهاية التعلم الآلي.

مطلوب أيضا الوصول إلى نقطة النهاية الخاصة للاتصال بمساحة عمل التعلم الآلي لتأليف التدفق.

رسم تخطيطي يظهر مستخدما يتصل بمساحة عمل التعلم الآلي من خلال مربع انتقال سريع لتأليف تدفق OpenAI مع أرقام التدفق.

يظهر الرسم التخطيطي مؤلف تدفق موجه يتصل من خلال Azure Bastion بمربع انتقال سريع للجهاز الظاهري. من مربع الانتقال هذا، يمكن للمؤلف الاتصال بمساحة عمل التعلم الآلي من خلال نقطة نهاية خاصة في نفس الشبكة مثل مربع الانتقال السريع. يمكن أيضا تحقيق الاتصال بالشبكة الظاهرية من خلال بوابات ExpressRoute أو VPN ونظير الشبكة الظاهرية.

التدفق من الشبكة الظاهرية المدارة التعلم الآلي إلى خدمات Azure PaaS

نوصي بتكوين مساحة عمل التعلم الآلي لعزل الشبكة الظاهرية المدارة التي تتطلب الموافقة على جميع الاتصالات الصادرة. تتبع هذه البنية تلك التوصية. هناك نوعان من القواعد الصادرة المعتمدة. القواعد الصادرة المطلوبة هي للموارد المطلوبة لكي يعمل الحل، مثل سجل الحاوية والتخزين. القواعد الصادرة المعرفة من قبل المستخدم هي للموارد المخصصة، مثل Azure OpenAI أو الذكاء الاصطناعي Search، التي سيستخدمها سير العمل الخاص بك. يجب تكوين القواعد الصادرة المعرفة من قبل المستخدم. يتم تكوين القواعد الصادرة المطلوبة عند إنشاء الشبكة الظاهرية المدارة.

يمكن أن تكون القواعد الصادرة نقاط نهاية خاصة أو علامات خدمة أو أسماء مجالات مؤهلة بالكامل (FQDNs) لنقاط النهاية العامة الخارجية. في هذه البنية، يتم توصيل الاتصال بخدمات Azure مثل سجل الحاويات والتخزين وAzure Key Vault وAzure OpenAI والبحث الذكاء الاصطناعي من خلال ارتباط خاص. على الرغم من عدم وجودها في هذه البنية، فإن بعض العمليات الشائعة التي قد تتطلب تكوين قاعدة صادرة FQDN هي تنزيل حزمة pip، أو استنساخ مستودع GitHub، أو تنزيل صور الحاوية الأساسية من المستودعات الخارجية.

تجزئة الشبكة الظاهرية وأمانها

تحتوي الشبكة في هذه البنية على شبكات فرعية منفصلة للأغراض التالية:

  • Application Gateway
  • مكونات تكامل App Service
  • نقاط النهاية الخاصة
  • Azure Bastion
  • جهاز ظاهري لمربع الانتقال
  • التدريب - غير مستخدم للتدريب النموذجي في هذه البنية
  • سجل

تحتوي كل شبكة فرعية على مجموعة أمان شبكة (NSG) تحد من نسبة استخدام الشبكة الواردة والصادرة لتلك الشبكات الفرعية إلى ما هو مطلوب فقط. يعرض الجدول التالي طريقة عرض مبسطة لقواعد NSG التي يضيفها الأساس إلى كل شبكة فرعية. يوفر الجدول اسم القاعدة والدالة.

الشبكة الفرعية وارد صادر
snet-appGateway البدلات لمستخدمي واجهة مستخدم الدردشة لدينا عناوين IP المصدر (مثل الإنترنت العام)، بالإضافة إلى العناصر المطلوبة للخدمة. الوصول إلى نقطة النهاية الخاصة لخدمة التطبيقات، بالإضافة إلى العناصر المطلوبة للخدمة.
snet-PrivateEndpoints السماح بنسبة استخدام الشبكة فقط من الشبكة الظاهرية. السماح بنسبة استخدام الشبكة إلى الشبكة الظاهرية فقط.
snet-AppService السماح بنسبة استخدام الشبكة فقط من الشبكة الظاهرية. السماح بالوصول إلى نقاط النهاية الخاصة وAzure Monitor.
AzureBastionSubnet راجع الإرشادات في العمل مع وصول NSG وAzure Bastion. راجع الإرشادات في العمل مع وصول NSG وAzure Bastion.
snet-jumpbox السماح ببروتوكول سطح المكتب البعيد الوارد (RDP) وSSH من الشبكة الفرعية لمضيف Azure Bastion. السماح بالوصول إلى نقاط النهاية الخاصة
snet-agents السماح بنسبة استخدام الشبكة فقط من الشبكة الظاهرية. السماح بنسبة استخدام الشبكة إلى الشبكة الظاهرية فقط.
التدريب على الشبكة السماح بنسبة استخدام الشبكة فقط من الشبكة الظاهرية. السماح بنسبة استخدام الشبكة إلى الشبكة الظاهرية فقط.
تسجيل نقاط الشبكة السماح بنسبة استخدام الشبكة فقط من الشبكة الظاهرية. السماح بنسبة استخدام الشبكة إلى الشبكة الظاهرية فقط.

يتم رفض جميع حركة المرور الأخرى بشكل صريح.

ضع في اعتبارك النقاط التالية عند تنفيذ تجزئة الشبكة الظاهرية والأمان.

  • تمكين حماية DDoS للشبكة الظاهرية باستخدام شبكة فرعية تشكل جزءا من بوابة تطبيق بعنوان IP عام.

  • أضف NSG إلى كل شبكة فرعية حيثما أمكن ذلك. استخدم القواعد الأكثر صرامة التي تمكن وظائف الحل الكامل.

  • استخدم مجموعات أمان التطبيقات لتجميع مجموعات أمان الشبكة. تجميع مجموعات أمان الشبكة يجعل إنشاء القواعد أسهل للبيئات المعقدة.

تصفية المحتوى ومراقبة إساءة استخدامه

يتضمن Azure OpenAI نظام تصفية المحتوى الذي يستخدم مجموعة من نماذج التصنيف للكشف عن فئات معينة من المحتوى الذي يحتمل أن يكون ضارا ومنعها في كل من مطالبات الإدخال وإكمال الإخراج. وتشمل فئات هذا المحتوى الذي يحتمل أن يكون ضارا الكراهية والجنسية وإيذاء النفس والعنف والألفاظ النابية والهروب من السجن (المحتوى المصمم لتجاوز قيود نموذج اللغة). يمكنك تكوين صرامة ما تريد تصفية المحتوى لكل فئة، مع وجود خيارات منخفضة أو متوسطة أو عالية. تعتمد هذه البنية المرجعية نهجا صارما. اضبط الإعدادات وفقا لمتطلباتك.

بالإضافة إلى تصفية المحتوى، ينفذ Azure OpenAI ميزات مراقبة إساءة الاستخدام. مراقبة إساءة الاستخدام هي عملية غير متزامنة مصممة للكشف عن مثيلات المحتوى المتكرر أو السلوكيات التي تقترح استخدام الخدمة بطريقة قد تنتهك قواعد سلوك Azure OpenAI والتخفيف منها. يمكنك طلب استثناء من مراقبة إساءة الاستخدام والمراجعة البشرية إذا كانت بياناتك حساسة للغاية أو إذا كانت هناك سياسات داخلية أو لوائح قانونية قابلة للتطبيق تمنع معالجة البيانات للكشف عن إساءة الاستخدام.

الموثوقيه

تركز بنية تطبيق ويب App Service الأساسية على التكرار النطاقي للخدمات الإقليمية الرئيسية. مناطق التوفر هي مواقع منفصلة فعليا داخل المنطقة. وهي توفر التكرار داخل منطقة لدعم الخدمات عند نشر مثيلين أو أكثر عبرها. عندما تواجه منطقة واحدة وقت تعطل، قد لا تتأثر المناطق الأخرى داخل المنطقة. تضمن البنية أيضا مثيلات كافية من خدمات Azure وتكوين هذه الخدمات ليتم نشرها عبر مناطق التوفر. لمزيد من المعلومات، راجع الأساس لمراجعة هذا التوجيه.

يتناول هذا القسم الموثوقية من منظور المكونات في هذه البنية التي لم تتم معالجتها في أساس App Service، بما في ذلك التعلم الآلي وAzure OpenAI وبحث الذكاء الاصطناعي.

التكرار النطاقي لنشر التدفق

عادة ما تتطلب عمليات نشر المؤسسة التكرار النطاقي. لتحقيق التكرار النطاقي في Azure، يجب أن تدعم الموارد مناطق التوفر ويجب نشر ثلاثة مثيلات على الأقل من المورد أو تمكين دعم النظام الأساسي عندما لا يتوفر التحكم في المثيل. حاليا، لا يقدم حساب التعلم الآلي الدعم لمناطق التوفر. للتخفيف من التأثير المحتمل لكارثة على مستوى مركز البيانات على مكونات التعلم الآلي، من الضروري إنشاء مجموعات في مناطق مختلفة جنبا إلى جنب مع نشر موازن تحميل لتوزيع المكالمات بين هذه المجموعات. يمكنك استخدام فحوصات السلامة للمساعدة في ضمان توجيه المكالمات فقط إلى المجموعات التي تعمل بشكل صحيح.

لا يقتصر نشر تدفقات المطالبة على مجموعات الحوسبة التعلم الآلي. يمكن نشر التدفق القابل للتنفيذ، كونه تطبيقا في حاوية، إلى أي خدمة Azure متوافقة مع الحاويات. تتضمن هذه الخيارات خدمات مثل Azure Kubernetes Service (AKS) وAzure Functions وAzure Container Apps وApp Service. تدعم كل من هذه الخدمات مناطق التوفر. لتحقيق التكرار النطاقي لتنفيذ التدفق الفوري، دون التعقيد الإضافي للتوزيع متعدد المناطق، يجب نشر تدفقاتك إلى إحدى هذه الخدمات.

يوضح الرسم التخطيطي التالي بنية بديلة حيث يتم نشر تدفقات المطالبة إلى App Service. يتم استخدام App Service في هذه البنية لأن حمل العمل يستخدمه بالفعل لواجهة مستخدم الدردشة ولن يستفيد من إدخال تقنية جديدة في حمل العمل. يجب على فرق حمل العمل الذين لديهم خبرة في AKS التفكير في النشر في تلك البيئة، خاصة إذا كان يتم استخدام AKS للمكونات الأخرى في حمل العمل.

رسم تخطيطي يوضح بنية دردشة أساسية شاملة مع OpenAI مع نشر تدفق المطالبة إلى App Service.

تم ترقيم الرسم التخطيطي للمناطق البارزة في هذه البنية:

  1. لا تزال التدفقات تؤلف في تدفق المطالبة التعلم الآلي ولم تتغير بنية الشبكة التعلم الآلي. لا يزال مؤلفو التدفق يتصلون بتجربة تأليف مساحة العمل من خلال نقطة نهاية خاصة، ويتم استخدام نقاط النهاية الخاصة المدارة للاتصال بخدمات Azure عند اختبار التدفقات.

  2. يشير هذا الخط المنقط إلى دفع التدفقات القابلة للتنفيذ في حاويات إلى Container Registry. لا يظهر في الرسم التخطيطي المسارات التي تقوم بتعبئة التدفقات في حاويات ودفعها إلى Container Registry.

  3. هناك تطبيق ويب آخر تم نشره في نفس خطة App Service التي تستضيف بالفعل واجهة مستخدم الدردشة. يستضيف تطبيق الويب الجديد تدفق المطالبة المستضاف في حاويات، والموزع على نفس خطة App Service التي تعمل بالفعل على ثلاثة مثيلات على الأقل، تنتشر عبر مناطق التوفر. تتصل مثيلات App Service هذه ب Container Registry عبر نقطة نهاية خاصة عند تحميل صورة حاوية تدفق المطالبة.

  4. تحتاج حاوية تدفق المطالبة إلى الاتصال بجميع الخدمات التابعة لتنفيذ التدفق. في هذه البنية، تتصل حاوية تدفق المطالبة الذكاء الاصطناعي Search وAzure OpenAI. تحتاج خدمات PaaS التي تم عرضها فقط إلى الشبكة الفرعية لنقطة النهاية الخاصة المدارة التعلم الآلي الآن إلى الكشف عنها في الشبكة الظاهرية بحيث يمكن إنشاء خط الرؤية من App Service.

Azure OpenAI - الموثوقية

لا يدعم Azure OpenAI حاليا مناطق التوفر. للتخفيف من التأثير المحتمل لكارثة على مستوى مركز البيانات على عمليات نشر النموذج في Azure OpenAI، من الضروري نشر Azure OpenAI في مناطق مختلفة جنبا إلى جنب مع نشر موازن تحميل لتوزيع المكالمات بين المناطق. يمكنك استخدام فحوصات السلامة للمساعدة في ضمان توجيه المكالمات فقط إلى المجموعات التي تعمل بشكل صحيح.

لدعم مثيلات متعددة بشكل فعال، نوصي بإضفاء الطابع الخارجي على ملفات الضبط الدقيقة، مثل حساب تخزين متكرر جغرافيا. يقلل هذا الأسلوب من الحالة المخزنة في Azure OpenAI لكل منطقة. لا يزال يتعين عليك ضبط الملفات لكل مثيل لاستضافة نشر النموذج.

من المهم مراقبة معدل النقل المطلوب من حيث الرموز المميزة في الدقيقة (TPM) والطلبات في الدقيقة (RPM). تأكد من تعيين وحدة TPM u كافية من الحصة النسبية الخاصة بك لتلبية الطلب على عمليات النشر الخاصة بك ومنع اختناق المكالمات إلى النماذج المنشورة. يمكن نشر بوابة مثل Azure API Management أمام خدمة أو خدمات OpenAI ويمكن تكوينها لإعادة المحاولة إذا كانت هناك أخطاء عابرة وتقييد. يمكن أيضا استخدام APIM ك قاطع دائرة لمنع الخدمة من الارتباك مع المكالمة، ما يتجاوز حصتها.

الذكاء الاصطناعي Search - الموثوقية

انشر الذكاء الاصطناعي Search باستخدام مستوى التسعير القياسي أو أعلى في منطقة تدعم مناطق التوفر، وانشر ثلاث نسخ متماثلة أو أكثر. تنتشر النسخ المتماثلة تلقائيا بالتساوي عبر مناطق التوفر.

ضع في اعتبارك الإرشادات التالية لتحديد العدد المناسب من النسخ المتماثلة والأقسام:

  • مراقبة الذكاء الاصطناعي Search.

  • استخدم مقاييس المراقبة والسجلات وتحليل الأداء لتحديد العدد المناسب من النسخ المتماثلة لتجنب التقييد والأقسام المستندة إلى الاستعلام ولتجنب التقييد المستند إلى الفهرس.

التعلم الآلي - الموثوقية

إذا قمت بالنشر لحساب المجموعات خلف نقطة النهاية عبر الإنترنت المدارة التعلم الآلي، ففكر في الإرشادات التالية فيما يتعلق بالتحجيم:

  • قم بتحجيم نقاط النهاية عبر الإنترنت تلقائيا لضمان توفر سعة كافية لتلبية الطلب. إذا لم تكن إشارات الاستخدام في الوقت المناسب كافية بسبب استخدام الاندفاع، ففكر في الإفراط في التوفير لمنع التأثير على الموثوقية من توفر عدد قليل جدا من المثيلات.

  • ضع في اعتبارك إنشاء قواعد التحجيم استنادا إلى مقاييس التوزيع مثل تحميل وحدة المعالجة المركزية ومقاييس نقطة النهاية مثل زمن انتقال الطلب.

  • يجب نشر ما لا يقل عن ثلاثة مثيلات لنشر إنتاج نشط.

  • تجنب عمليات التوزيع مقابل المثيلات قيد الاستخدام. بدلا من ذلك، قم بالنشر إلى نشر جديد وتحويل نسبة استخدام الشبكة بعد أن يكون النشر جاهزا لتلقي نسبة استخدام الشبكة.

إشعار

تنطبق نفس إرشادات قابلية توسع App Service من البنية الأساسية إذا قمت بنشر التدفق الخاص بك إلى App Service.

الأمان

تنفذ هذه البنية كلا من الشبكة ومحيط أمان الهوية. من منظور الشبكة، الشيء الوحيد الذي يجب أن يكون متاحا من الإنترنت هو واجهة مستخدم الدردشة عبر بوابة التطبيق. من منظور الهوية، يجب على واجهة مستخدم الدردشة مصادقة الطلبات وتخويلها. يتم استخدام الهويات المدارة، حيثما أمكن، لمصادقة التطبيقات على خدمات Azure.

يصف هذا القسم الهوية وإدارة الوصول واعتبارات الأمان لتناوب المفاتيح وضبط نموذج Azure OpenAI.

إدارة الهوية والوصول

يوسع الإرشادات التالية إرشادات إدارة الهوية والوصول في أساس App Service:

  • إنشاء هويات مدارة منفصلة لموارد التعلم الآلي التالية، حيثما ينطبق ذلك:
    • مساحات العمل لتأليف التدفق وإدارته
    • حساب المثيلات لاختبار التدفقات
    • نقاط النهاية عبر الإنترنت في التدفق المنشور إذا تم نشر التدفق إلى نقطة نهاية مدارة عبر الإنترنت
  • تنفيذ عناصر التحكم في الوصول إلى الهوية لواجهة مستخدم الدردشة باستخدام معرف Microsoft Entra

التعلم الآلي أدوار الوصول المستندة إلى الأدوار

هناك خمسة أدوار افتراضية يمكنك استخدامها لإدارة الوصول إلى مساحة عمل التعلم الآلي: AzureML Data Scientist وعامل تشغيل حساب AzureML والقارئ والمساهم والمالك. جنبا إلى جنب مع هذه الأدوار الافتراضية، هناك قارئ أسرار اتصال مساحة عمل التعلم AzureML ومستخدم سجل AzureML الذي يمكنه منح حق الوصول إلى موارد مساحة العمل مثل أسرار مساحة العمل والتسجيل.

تتبع هذه البنية مبدأ الامتياز الأقل عن طريق تعيين أدوار للهويات السابقة حيث تكون مطلوبة فقط. خذ بعين الاعتبار تعيينات الدور التالية.

الهوية المُدارة النطاق تعيينات الأدوار
الهوية المدارة لمساحة العمل مجموعة الموارد مساهم
الهوية المدارة لمساحة العمل حساب تخزين مساحة العمل المساهم في بيانات مخزن البيانات الثنائية الكبيرة
الهوية المدارة لمساحة العمل حساب تخزين مساحة العمل مساهم متميز لبيانات ملف التخزين
الهوية المدارة لمساحة العمل مخزن مفاتيح مساحة العمل مسؤول Key Vault
الهوية المدارة لمساحة العمل سجل حاوية مساحة العمل AcrPush
الهوية المدارة لنقطة النهاية عبر الإنترنت سجل حاوية مساحة العمل AcrPull
الهوية المدارة لنقطة النهاية عبر الإنترنت حساب تخزين مساحة العمل قارئ بيانات مخزن البيانات الثنائية الكبيرة
الهوية المدارة لنقطة النهاية عبر الإنترنت مساحة عمل التعلم الآلي قارئ أسرار اتصال مساحة عمل AzureML
الهوية المدارة لمثيل الحساب سجل حاوية مساحة العمل AcrPull
الهوية المدارة لمثيل الحساب حساب تخزين مساحة العمل قارئ بيانات مخزن البيانات الثنائية الكبيرة

دوران المفتاح

هناك خدمتان في هذه البنية تستخدمان المصادقة المستندة إلى المفتاح: Azure OpenAI ونقطة النهاية المدارة عبر الإنترنت التعلم الآلي. نظرا لأنك تستخدم المصادقة المستندة إلى المفتاح لهذه الخدمات، فمن المهم:

  • تخزين المفتاح في مخزن آمن، مثل Key Vault، للوصول عند الطلب من العملاء المعتمدين، مثل Azure Web App الذي يستضيف حاوية تدفق المطالبة.

  • تنفيذ استراتيجية تدوير المفتاح. إذا قمت بتدوير المفاتيح يدويا، فبادر بإنشاء نهج انتهاء صلاحية المفتاح واستخدم نهج Azure لمراقبة ما إذا كان قد تم تدوير المفتاح أم لا.

ضبط نموذج OpenAI بشكل جيد

إذا قمت بضبط نماذج OpenAI في التنفيذ الخاص بك، ففكر في الإرشادات التالية:

  • إذا قمت بتحميل بيانات التدريب للضبط الدقيق، ففكر في استخدام مفاتيح يديرها العميل لتشفير تلك البيانات.

  • إذا قمت بتخزين بيانات التدريب في مخزن مثل Azure Blob Storage، ففكر في استخدام مفتاح مدار من قبل العميل لتشفير البيانات، وهوية مدارة للتحكم في الوصول إلى البيانات، ونقطة نهاية خاصة للاتصال بالبيانات.

الحوكمة من خلال السياسة

للمساعدة في ضمان التوافق مع الأمان، ضع في اعتبارك استخدام نهج Azure ونهج الشبكة بحيث تتوافق عمليات التوزيع مع متطلبات حمل العمل. يقلل استخدام أتمتة النظام الأساسي من خلال النهج من عبء خطوات التحقق اليدوي ويضمن الحوكمة حتى إذا تم تجاوز المسارات. ضع في اعتبارك نهج الأمان التالية:

  • تعطيل الوصول إلى المفتاح أو المصادقة المحلية الأخرى في خدمات مثل خدمات Azure الذكاء الاصطناعي وKey Vault.
  • تتطلب تكوينا محددا لقواعد الوصول إلى الشبكة أو مجموعات أمان الشبكة.
  • يتطلب التشفير، مثل استخدام المفاتيح التي يديرها العميل.

تحسين التكلفة

يركز تحسين التكلفة على البحث عن طرق للحد من النفقات غير الضرورية وتحسين الكفاءة التشغيلية. لمزيد من المعلومات، راجع قائمة اختيار مراجعة التصميم لتحسين التكلفة.

للاطلاع على مثال تسعير لهذا السيناريو، استخدم حاسبة تسعير Azure. تحتاج إلى تخصيص المثال لمطابقة استخدامك لأن هذا المثال يتضمن فقط المكونات المضمنة في البنية. أغلى المكونات في السيناريو هي واجهة مستخدم الدردشة وحوسبة تدفق المطالبة والبحث الذكاء الاصطناعي. قم بتحسين هذه الموارد لتوفير أكبر تكلفة.

Compute

يدعم تدفق المطالبة التعلم الآلي خيارات متعددة لاستضافة التدفقات القابلة للتنفيذ. تتضمن الخيارات نقاط النهاية المدارة عبر الإنترنت في التعلم الآلي وAKS وApp Service وAzure Kubernetes Service. كل خيار من هذه الخيارات له نموذج الفوترة الخاص به. يؤثر اختيار الحساب على التكلفة الإجمالية للحل.

Azure OpenAI

Azure OpenAI هي خدمة قائمة على الاستهلاك، وكما هو الحال مع أي خدمة قائمة على الاستهلاك، فإن التحكم في الطلب مقابل العرض هو عنصر التحكم الأساسي في التكلفة. للقيام بذلك في Azure OpenAI على وجه التحديد، تحتاج إلى استخدام مجموعة من الأساليب:

  • التحكم في العملاء. طلبات العميل هي المصدر الأساسي للتكلفة في نموذج الاستهلاك، لذا فإن التحكم في سلوك العميل أمر بالغ الأهمية. يجب على جميع العملاء:

    • تمت الموافقة. تجنب تعريض الخدمة بطريقة تدعم الوصول المجاني للجميع. تقييد الوصول من خلال عناصر التحكم في الشبكة والهوية، مثل المفاتيح أو التحكم في الوصول استنادا إلى الدور (RBAC).

    • أن تكون ذاتية التحكم. مطالبة العملاء باستخدام قيود تحديد الرمز المميز التي توفرها استدعاءات واجهة برمجة التطبيقات، مثل max_tokens max_completions.

    • استخدم الإرسال في دفعات، حيثما كان ذلك عمليا. راجع العملاء للتأكد من أنهم يقومون بتجميع المطالبات بشكل مناسب.

    • تحسين طول الإدخال والاستجابة الفورية. تستهلك المطالبات الأطول المزيد من الرموز المميزة، ما يرفع التكلفة، ولكن المطالبات التي تفتقد سياقا كافيا لا تساعد النماذج على تحقيق نتائج جيدة. إنشاء مطالبات موجزة توفر سياقا كافيا للسماح للنموذج بإنشاء استجابة مفيدة. وبالمثل، تأكد من تحسين حد طول الاستجابة.

  • يجب أن يكون استخدام ملعب Azure OpenAI ضروريا وعلى مثيلات ما قبل الإنتاج، بحيث لا تتكبد هذه الأنشطة تكاليف الإنتاج.

  • حدد نموذج الذكاء الاصطناعي الصحيح. يلعب اختيار النموذج أيضا دورا كبيرا في التكلفة الإجمالية ل Azure OpenAI. جميع النماذج لها نقاط القوة والضعف ويتم تسعيرها بشكل فردي. استخدم النموذج الصحيح لحالة الاستخدام للتأكد من أنك لا تفرط في الإنفاق على نموذج أكثر تكلفة عندما ينتج عن نموذج أقل تكلفة نتائج مقبولة. في تنفيذ مرجع الدردشة هذا، تم اختيار GPT 3.5-turbo عبر GPT-4 لتوفير ترتيب حجم تكاليف توزيع النموذج مع تحقيق نتائج كافية.

  • فهم نقاط توقف الفوترة. يتم فرض رسوم على الضبط الدقيق في الساعة. لكي تكون الأكثر كفاءة، تريد استخدام أكبر قدر من الوقت المتاح لكل ساعة لتحسين نتائج الضبط مع تجنب الانزلاق فقط في فترة الفوترة التالية. وبالمثل، فإن تكلفة 100 صورة من إنشاء الصور هي نفسها تكلفة صورة واحدة. تكبير نقاط فواصل الأسعار لمصلحتك.

  • فهم نماذج الفوترة. يتوفر Azure OpenAI أيضا في نموذج فوترة قائم على الالتزام من خلال عرض معدل النقل المقدم. بعد أن يكون لديك أنماط استخدام يمكن التنبؤ بها، ضع في اعتبارك التبديل إلى نموذج الفوترة قبل الشراء هذا إذا كان أكثر فعالية من حيث التكلفة في حجم الاستخدام الخاص بك.

  • تعيين حدود التوفير. تأكد من تخصيص جميع حصص التوفير فقط للنماذج التي يتوقع أن تكون جزءا من حمل العمل، على أساس كل نموذج. لا يقتصر معدل النقل إلى النماذج المنشورة بالفعل على هذه الحصة النسبية المقدمة أثناء تمكين الحصة النسبية الديناميكية. لا تعين الحصة النسبية التكاليف مباشرة وقد تختلف هذه التكلفة.

  • مراقبة استخدام الدفع أولا بأول. إذا كنت تستخدم تسعير الدفع أولا بأول، فراقب استخدام TPM وRPM. استخدم هذه المعلومات لإبلاغ قرارات التصميم المعماري مثل النماذج التي يجب استخدامها، وتحسين أحجام المطالبة.

  • مراقبة استخدام معدل النقل المقدم. إذا كنت تستخدم معدل النقل المقدم، فراقب الاستخدام المدار بواسطة التوفير للتأكد من أنك لا تستخدم معدل النقل المقدم الذي اشتريته.

  • إدارة التكاليف. اتبع الإرشادات المتعلقة باستخدام ميزات إدارة التكاليف مع OpenAI لمراقبة التكاليف، وتعيين الميزانيات لإدارة التكاليف، وإنشاء تنبيهات لإعلام أصحاب المصلحة بالمخاطر أو الحالات الشاذة.

التميز التشغيلي

يحدد التميز التشغيلي العمليات التي تنشر تطبيقا وتبقيه قيد التشغيل في الإنتاج. لمزيد من المعلومات، راجع قائمة اختيار مراجعة التصميم للتميز التشغيلي.

التعلم الآلي - أوقات تشغيل تدفق المطالبة المضمنة

لتقليل العبء التشغيلي، يعد وقت التشغيل التلقائي خيار حساب بلا خادم ضمن التعلم الآلي يبسط إدارة الحوسبة ويفوض معظم تكوين تدفق المطالبة إلى ملف التطبيق requirements.txt قيد التشغيل وتكوينهflow.dag.yaml. وهذا يجعل هذا الاختيار منخفض الصيانة والزوال والمحرك للتطبيق. يتطلب استخدام وقت تشغيل مثيل الحوسبة أو الحوسبة الخارجية، كما هو الحال في هذه البنية، دورة حياة مدارة بواسطة فريق العمل أكثر للحساب، ويجب تحديدها عندما تتجاوز متطلبات حمل العمل قدرات التكوين لخيار وقت التشغيل التلقائي.

مراقبة‬

يتم تكوين التشخيصات لجميع الخدمات. يتم تكوين جميع الخدمات ولكن التعلم الآلي وخدمة التطبيقات لالتقاط جميع السجلات. يتم تكوين تشخيصات التعلم الآلي لالتقاط سجلات التدقيق التي هي جميع سجلات الموارد التي تسجل تفاعلات العملاء مع البيانات أو إعدادات الخدمة. تم تكوين App Service لالتقاط AppServiceHTTPLogs وAppServiceConsoleLogs وAppServiceAppLogs وAppServicePlatformLogs.

تقييم إنشاء تنبيهات مخصصة للموارد في هذه البنية مثل تلك الموجودة في تنبيهات أساس Azure Monitor. على سبيل المثال:

عمليات نموذج اللغة

يجب أن يتبع النشر لحلول الدردشة المستندة إلى Azure OpenAI مثل هذه البنية الإرشادات في LLMOps مع التدفق السريع مع Azure DevOps وGitHub. بالإضافة إلى ذلك، يجب أن تفكر في أفضل الممارسات للتكامل المستمر والتسليم المستمر (CI/CD) والبنيات المؤمنة بالشبكة. تتناول الإرشادات التالية تنفيذ التدفقات والبنية الأساسية المرتبطة بها استنادا إلى توصيات LLMOps. لا تتضمن إرشادات النشر هذه عناصر تطبيق الواجهة الأمامية، والتي لم تتغير من بنية تطبيق الويب المتكررة للمنطقة الأساسية المتوفرة بشكل كبير.

التطوير

يوفر تدفق المطالبة التعلم الآلي تجربة تأليف مستندة إلى المستعرض في استوديو التعلم الآلي أو من خلال ملحق Visual Studio Code. يخزن كلا الخيارين التعليمات البرمجية للتدفق كملفات. عند استخدام التعلم الآلي studio، يتم تخزين الملفات في حساب تخزين. عند العمل في Microsoft Visual Studio Code، يتم تخزين الملفات في نظام الملفات المحلي.

من أجل اتباع أفضل الممارسات للتطوير التعاوني، يجب الاحتفاظ بالملفات المصدر في مستودع التعليمات البرمجية المصدر عبر الإنترنت مثل GitHub. يسهل هذا الأسلوب تعقب جميع تغييرات التعليمات البرمجية والتعاون بين مؤلفي التدفق والتكامل مع تدفقات التوزيع التي تختبر جميع تغييرات التعليمات البرمجية وتتحقق من صحتها.

لتطوير المؤسسة، استخدم ملحق Microsoft Visual Studio Code وSDK /CLI للتدفق السريع للتطوير. يمكن لمؤلفي التدفق السريع إنشاء واختبار تدفقاتهم من Microsoft Visual Studio Code ودمج الملفات المخزنة محليا مع نظام التحكم بالمصادر عبر الإنترنت والتدفقات. في حين أن التجربة المستندة إلى المتصفح مناسبة تماما للتطوير الاستكشافي، مع بعض العمل، يمكن دمجها مع نظام التحكم بالمصادر. يمكن تنزيل مجلد التدفق من صفحة التدفق في Files اللوحة، وفك ضغطه، ودفعه إلى نظام التحكم بالمصادر.

التقييم

اختبر التدفقات المستخدمة في تطبيق الدردشة تماما كما تختبر أدوات البرامج الأخرى. من الصعب تحديد وتأكيد إجابة واحدة "صحيحة" لمخرجات نموذج اللغة، ولكن يمكنك استخدام نموذج لغة نفسه لتقييم الاستجابات. ضع في اعتبارك تنفيذ التقييمات التلقائية التالية لتدفقات نموذج اللغة:

  • دقة التصنيف: تقييم ما إذا كان نموذج اللغة يعطي درجة "صحيحة" أو "غير صحيحة" ويجمع النتائج لإنتاج درجة دقة.

  • الاتساق: يقيم مدى جودة كتابة الجمل في الإجابة المتوقعة للنموذج وكيفية تواصلها بشكل متسق مع بعضها البعض.

  • الطلاقة: يقيم إجابة النموذج المتوقعة لدقته النحوية واللغوية.

  • التأريض على السياق: يقيم مدى جودة إجابات النموذج المتوقعة على السياق الذي تم تكوينه مسبقا. حتى إذا كانت استجابات نموذج اللغة صحيحة، إذا تعذر التحقق من صحتها مقابل السياق المحدد، فلن يتم سند هذه الاستجابات.

  • الصلة: تقيم مدى توافق الإجابات المتوقعة للنموذج مع السؤال المطروح.

ضع في اعتبارك الإرشادات التالية عند تنفيذ التقييمات التلقائية:

  • إنتاج درجات من التقييمات وقياسها مقابل عتبة نجاح محددة مسبقا. استخدم هذه الدرجات للإبلاغ عن نجاح/فشل الاختبار في البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك.

  • تتطلب بعض هذه الاختبارات إدخالات بيانات مكونة مسبقا للأسئلة والسياق والحقيقة الأساسية.

  • قم بتضمين أزواج الأسئلة والأجوبة الكافية لضمان موثوقية نتائج الاختبارات، مع الموصى به بما لا يقل عن 100-150 زوجا. يشار إلى أزواج الأسئلة والأجوبة هذه باسم "مجموعة البيانات الذهبية". قد تكون هناك حاجة إلى عدد أكبر من السكان اعتمادا على حجم مجموعة البيانات ومجالها.

  • تجنب استخدام نماذج اللغة لإنشاء أي من البيانات في مجموعة البيانات الذهبية الخاصة بك.

تدفق التوزيع

رسم تخطيطي يوضح تدفق النشر لتدفق المطالبة.

  1. يفتح مهندس المطالبة/عالم البيانات فرع ميزة حيث يعملون على مهمة أو ميزة معينة. يكرر مهندس المطالبة/ عالم البيانات التدفق باستخدام تدفق المطالبة ل Microsoft Visual Studio Code، ويلتزم بالتغييرات بشكل دوري ويدفع هذه التغييرات إلى فرع الميزات.

  2. بمجرد اكتمال التطوير والتجريب المحليين، يفتح مهندس/عالم البيانات المطالبة طلب سحب من فرع الميزات إلى الفرع الرئيسي. يقوم طلب السحب (PR) بتشغيل مسار PR. يقوم هذا المسار بإجراء فحوصات جودة سريعة يجب أن تتضمن:

    • تنفيذ تدفقات التجريب
    • تنفيذ اختبارات الوحدة المكونة
    • تجميع قاعدة التعليمات البرمجية
    • تحليل التعليمات البرمجية الثابتة
  3. يمكن أن تحتوي البنية الأساسية لبرنامج ربط العمليات التجارية على خطوة تتطلب من عضو فريق واحد على الأقل الموافقة يدويا على طلب السحب قبل الدمج. لا يمكن أن يكون الموافق هو الملتزم ولديه خبرة تدفق فورية وإلمام بمتطلبات المشروع. إذا لم تتم الموافقة على طلب السحب، يتم حظر الدمج. إذا تمت الموافقة على طلب السحب، أو لم تكن هناك خطوة موافقة، يتم دمج فرع الميزات في الفرع الرئيسي.

  4. يؤدي الدمج إلى Main إلى تشغيل عملية الإنشاء والإصدار لبيئة التطوير. على وجه التحديد:

    1. يتم تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية CI من الدمج إلى Main. تنفذ البنية الأساسية لبرنامج ربط العمليات التجارية CI جميع الخطوات التي تم إجراؤها في مسار PR، والخطوات التالية:
    • تدفق التجريب
    • تدفق التقييم
    • تسجيل التدفقات في سجل التعلم الآلي عند الكشف عن التغييرات
    1. يتم تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية CD بعد الانتهاء من البنية الأساسية لبرنامج ربط العمليات التجارية CI. ينفذ هذا التدفق الخطوات التالية:
    • نشر التدفق من سجل التعلم الآلي إلى نقطة نهاية التعلم الآلي عبر الإنترنت
    • تشغيل اختبارات التكامل التي تستهدف نقطة النهاية عبر الإنترنت
    • تشغيل اختبارات الدخان التي تستهدف نقطة النهاية عبر الإنترنت
  5. يتم تضمين عملية الموافقة في عملية الترويج للإصدار - عند الموافقة، يتم وصف عمليات التكامل المستمر والتسليم المستمر الموضحة في الخطوات 4.a. تتكرر 4.b. وتستهدف بيئة الاختبار. الخطوتان أ. و ب. متشابهتان، باستثناء أن اختبارات قبول المستخدم يتم تشغيلها بعد اختبارات الدخان في بيئة الاختبار.

  6. عمليات التكامل المستمر والتسليم المستمر الموضحة في الخطوات 4.a. يتم تشغيل 4.b. للترويج للإصدار إلى بيئة الإنتاج بعد التحقق من بيئة الاختبار والموافقة عليها.

  7. بعد الإصدار في بيئة مباشرة، تحدث المهام التشغيلية لمراقبة مقاييس الأداء وتقييم نماذج اللغة المنشورة. يتضمن ذلك على سبيل المثال لا الحصر:

    • الكشف عن انحرافات البيانات
    • مراقبة البنية الأساسية
    • إدارة التكاليف
    • توصيل أداء النموذج إلى المساهمين

توزيع الإرشادات

يمكنك استخدام نقاط النهاية التعلم الآلي لنشر النماذج بطريقة تمكن المرونة عند الإصدار للإنتاج. ضع في اعتبارك الاستراتيجيات التالية لضمان أفضل أداء النموذج وجودته:

  • عمليات النشر الزرقاء/الخضراء: باستخدام هذه الاستراتيجية، يمكنك نشر الإصدار الجديد من خدمة الويب بأمان إلى مجموعة محدودة من المستخدمين أو الطلبات قبل توجيه جميع نسبة استخدام الشبكة إلى النشر الجديد.

  • اختبار A/B: لا تكون عمليات النشر الزرقاء/الخضراء فعالة فقط لنشر التغييرات بأمان، بل يمكن استخدامها أيضا لنشر سلوك جديد يسمح لمجموعة فرعية من المستخدمين بتقييم تأثير التغيير.

  • تضمين تحليل ملفات Python التي تعد جزءا من تدفق المطالبة في البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. يتحقق التحليل من التوافق مع معايير الأنماط والأخطاء وتعقيد التعليمات البرمجية وعمليات الاستيراد غير المستخدمة وتسمية المتغير.

  • عند نشر تدفقك إلى مساحة عمل التعلم الآلي المعزولة عن الشبكة، استخدم عامل مستضاف ذاتيا لنشر البيانات الاصطناعية إلى موارد Azure.

  • يجب تحديث سجل نموذج التعلم الآلي فقط عند وجود تغييرات على النموذج.

  • يجب أن تكون نماذج اللغة والتدفقات وواجهة مستخدم العميل مقترنة بشكل فضفاض. يمكن إجراء تحديثات على التدفقات وواجهة مستخدم العميل ويجب أن تكون قادرة على إجراؤها دون التأثير على النموذج والعكس بالعكس.

  • عند تطوير ونشر تدفقات متعددة، يجب أن يكون لكل تدفق دورة حياته الخاصة، ما يسمح بتجربة مقترنة بشكل غير محكم عند تعزيز التدفقات من التجريب إلى الإنتاج.

البنية الأساسية

عند نشر مكونات الدردشة الأساسية من طرف إلى طرف في Azure OpenAI، تكون بعض الخدمات المقدمة أساسية ودائمة داخل البنية، بينما تكون المكونات الأخرى أكثر زوالا في طبيعتها، فإن وجودها مرتبط بالنشر.

المكونات الأساسية

توجد بعض المكونات في هذه البنية مع دورة حياة تتجاوز أي تدفق موجه فردي أو أي توزيع نموذج. عادة ما يتم نشر هذه الموارد مرة واحدة كجزء من النشر الأساسي من قبل فريق حمل العمل، ويتم الاحتفاظ بها بصرف النظر عن الجديد أو إزالتها أو التحديثات إلى تدفقات المطالبة أو عمليات نشر النموذج.

  • مساحة عمل التعلم الآلي
  • حساب التخزين لمساحة عمل التعلم الآلي
  • Container Registry
  • بحث الذكاء الاصطناعي
  • Azure OpenAI
  • Azure Application Insights
  • Azure Bastion
  • جهاز Azure الظاهري لمربع الانتقال السريع
مكونات سريعة الزوال

تقترن بعض موارد Azure بشكل أكثر إحكاما بتصميم تدفقات مطالبة محددة. يسمح هذا النهج لهذه الموارد أن تكون مرتبطة لدورة حياة المكون وتصبح سريعة الزوال في هذه البنية. تتأثر موارد Azure عند تطور حمل العمل، مثل عند إضافة التدفقات أو إزالتها أو عند تقديم نماذج جديدة. تتم إعادة إنشاء هذه الموارد وإزالة المثيلات السابقة. بعض هذه الموارد هي موارد Azure مباشرة وبعضها مظاهر مستوى البيانات داخل الخدمة التي تحتوي عليها.

  • يجب تحديث النموذج في سجل نموذج التعلم الآلي، إذا تم تغييره، كجزء من البنية الأساسية لبرنامج ربط العمليات التجارية CD.

  • يجب تحديث صورة الحاوية في سجل الحاوية كجزء من مسار CD.

  • يتم إنشاء نقطة نهاية التعلم الآلي عند نشر تدفق مطالبة إذا كان التوزيع يشير إلى نقطة نهاية غير موجودة. يجب تحديث نقطة النهاية هذه لإيقاف تشغيل الوصول العام.

  • يتم تحديث عمليات نشر نقطة النهاية التعلم الآلي عند نشر تدفق أو حذفه.

  • يجب تحديث مخزن المفاتيح لواجهة مستخدم العميل بالمفتاح إلى نقطة النهاية عند إنشاء نقطة نهاية جديدة.

كفاءة الأداء

كفاءة الأداء هي قدرة حمل العمل الخاص بك على التوسع بكفاءة لتلبية الطلبات التي يضعها المستخدمون عليه. لمزيد من المعلومات، راجع قائمة اختيار مراجعة التصميم لكفاءة الأداء.

يصف هذا القسم كفاءة الأداء من منظور Azure Search وAzure OpenAI التعلم الآلي.

Azure Search - كفاءة الأداء

اتبع الإرشادات لتحليل الأداء في الذكاء الاصطناعي Search.

Azure OpenAI - كفاءة الأداء

  • حدد ما إذا كان التطبيق الخاص بك يتطلب معدل نقل تم توفيره أو الاستضافة المشتركة، أو الاستهلاك، النموذج. يضمن معدل النقل المتوفر سعة معالجة محجوزة لتوزيع نموذج OpenAI الخاص بك، والذي يوفر أداء ومعدل نقل يمكن التنبؤ به لنماذجك. نموذج الفوترة هذا يختلف عن نموذج الاستضافة المشتركة أو الاستهلاك. نموذج الاستهلاك هو أفضل جهد وقد يكون عرضة لجيران صاخبة أو ضغوط أخرى على النظام الأساسي.

  • مراقبة الاستخدام المدار بواسطة التزويد لمعدل النقل المقدم.

التعلم الآلي - كفاءة الأداء

إذا قمت بالنشر إلى التعلم الآلي نقاط النهاية عبر الإنترنت:

  • اتبع الإرشادات حول كيفية التحجيم التلقائي لنقطة نهاية عبر الإنترنت. قم بذلك للبقاء متوافقا بشكل وثيق مع الطلب دون الإفراط في التوفير، خاصة في فترات الاستخدام المنخفض.

  • اختر SKU للجهاز الظاهري المناسب لنقطة النهاية عبر الإنترنت لتلبية أهداف الأداء الخاصة بك. اختبر أداء كل من عدد المثيلات الأقل ووحدات SKU الأكبر مقابل عدد المثيلات الأكبر ووحدات SKU الأصغر للعثور على التكوين الأمثل.

نشر هذا السيناريو

لنشر وتشغيل التنفيذ المرجعي، اتبع الخطوات الواردة في تنفيذ المرجع الأساسي من طرف إلى طرف ل OpenAI.

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

لمشاهدة ملفات تعريف LinkedIn غير العامة، سجل الدخول إلى LinkedIn.

الخطوة التالية