هندسة الميزات وتقديمها

تغطي هذه الصفحة ميزات الهندسة وإمكانيات الخدمة لمساحات العمل التي تم تمكينها ل كتالوج Unity. إذا لم يتم تمكين مساحة العمل الخاصة بك للكتالوج Unity، فشاهد مخزن ميزات مساحة العمل (قديم).

لماذا تستخدم Databricks كمخزن للميزات؟

مع Databricks Data Intelligence Platform، يتم سير عمل تدريب النموذج بأكمله على نظام أساسي واحد:

  • البنية الأساسية لبرنامج ربط العمليات التجارية للبيانات التي استيعاب البيانات الأولية، وإنشاء جداول الميزات، وتدريب النماذج، وتنفيذ الاستدلال الدفعي. عند تدريب نموذج وتسجيله باستخدام هندسة الميزات في كتالوج Unity، يتم حزم النموذج ببيانات تعريف الميزة. عند استخدام النموذج لتسجيل الدفعات أو الاستدلال عبر الإنترنت، فإنه يسترد قيم الميزات تلقائيا. لا يحتاج المتصل إلى معرفة ذلك أو تضمين منطق للبحث عن ميزات أو الانضمام إليها لتسجيل بيانات جديدة.
  • نماذج وميزات تخدم نقاط النهاية المتوفرة بنقرة واحدة والتي توفر ميلي ثانية من زمن الانتقال.
  • مراقبة البيانات والنماذج.

بالإضافة إلى ذلك، يوفر النظام الأساسي ما يلي:

  • اكتشاف الميزات. يمكنك الاستعراض والبحث عن الميزات في واجهة مستخدم Databricks.
  • الإدارة. تخضع جداول الميزات والوظائف والنماذج كلها إلى كتالوج Unity. عند تدريب نموذج، فإنه يرث الأذونات من البيانات التي تم تدريبه عليها.
  • دورة حياة البيانات. عند إنشاء جدول ميزات في Azure Databricks، يتم حفظ مصادر البيانات المستخدمة لإنشاء جدول الميزات ويمكن الوصول إليها. لكل ميزة في جدول الميزات، يمكنك أيضا الوصول إلى النماذج ودفاتر الملاحظات والمهام ونقاط النهاية التي تستخدم الميزة.
  • الوصول عبر مساحة العمل. تتوفر جداول الميزات والوظائف والنماذج تلقائيا في أي مساحة عمل لديها حق الوصول إلى الكتالوج.

المتطلبات

  • يجب تمكين مساحة العمل الخاصة بك ل Unity Catalog.
  • تتطلب هندسة الميزات في كتالوج Unity Databricks Runtime 13.3 LTS أو أعلى.

إذا كانت مساحة العمل الخاصة بك لا تفي بهذه المتطلبات، فشاهد مخزن ميزات مساحة العمل (قديم) لمعرفة كيفية استخدام مخزن ميزات مساحة العمل.

كيف تعمل هندسة الميزات على Databricks؟

يتبع سير عمل التعلم الآلي النموذجي باستخدام هندسة الميزات على Databricks هذا المسار:

  1. اكتب التعليمات البرمجية لتحويل البيانات الأولية إلى ميزات وإنشاء Spark DataFrame يحتوي على الميزات المطلوبة.
  2. إنشاء جدول Delta في كتالوج Unity. أي جدول Delta مع مفتاح أساسي هو جدول ميزات تلقائيا.
  3. تدريب نموذج وتسجيله باستخدام جدول الميزات. عند القيام بذلك، يخزن النموذج مواصفات الميزات المستخدمة للتدريب. عند استخدام النموذج للاستدلال، فإنه ينضم تلقائيا إلى الميزات من جداول الميزات المناسبة.
  4. سجل النموذج في Model Registry.

يمكنك الآن استخدام النموذج لإجراء تنبؤات على بيانات جديدة. بالنسبة لحالات استخدام الدفعات، يسترد النموذج تلقائيا الميزات التي يحتاجها من 'متجر الميزات'.

سير عمل 'متجر الميزات' لحالات استخدام التعلم الآلي الدفعي.

بالنسبة لحالات الاستخدام في الوقت الحقيقي، انشر الميزات إلى جدول عبر الإنترنت. كما يتم دعم متاجر الجهات الخارجية عبر الإنترنت. راجع متاجر الجهات الخارجية عبر الإنترنت.

في وقت الاستدلال، يقرأ النموذج الميزات المحسوبة مسبقا من المتجر عبر الإنترنت ويربطها بالبيانات المقدمة في طلب العميل إلى نقطة نهاية خدمة النموذج.

تدفق مخزن الميزات لنماذج التعلم الآلي التي يتم تقديمها.

بدء استخدام هندسة الميزات — أمثلة على دفاتر الملاحظات

للبدء، جرب أمثلة دفاتر الملاحظات هذه. يرشدك دفتر الملاحظات الأساسي إلى كيفية إنشاء جدول ميزات واستخدامه لتدريب نموذج، ثم إجراء تسجيل الدفعات باستخدام البحث التلقائي عن الميزات. كما يقدم لك واجهة مستخدم هندسة الميزات ويوضح كيف يمكنك استخدامه للبحث عن الميزات وفهم كيفية إنشاء الميزات واستخدامها.

هندسة الميزات الأساسية في دفتر ملاحظات مثال كتالوج Unity

الحصول على دفتر الملاحظات

يوضح دفتر ملاحظات مثال سيارة الأجرة عملية إنشاء الميزات وتحديثها واستخدامها لتدريب النموذج والاستدلال الدفعي.

ميزة الهندسة في دفتر ملاحظات مثال سيارة أجرة كتالوج Unity

الحصول على دفتر الملاحظات

أنواع البيانات المعتمدة

تدعم هندسة الميزات في كتالوج Unity ومخزن ميزات مساحة العمل أنواع بيانات PySpark التالية:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType، DecimalTypeو، و MapType مدعومة في جميع إصدارات هندسة الميزات في كتالوج Unity وفي Workspace Feature Store v0.3.5 أو أعلى. [2] StructType مدعوم في هندسة الميزات v0.6.0 أو أعلى.

تدعم أنواع البيانات المذكورة أعلاه أنواع الميزات الشائعة في تطبيقات التعلم الآلي. على سبيل المثال:

  • يمكنك تخزين المتجهات الكثيفة والموترات والتضمينات ك ArrayType.
  • يمكنك تخزين المتجهات المتناثرة والموترات والتضمينات ك MapType.
  • يمكنك تخزين النص ك StringType.

عند النشر إلى المتاجر عبر الإنترنت، ArrayType MapType يتم تخزين الميزات بتنسيق JSON.

تعرض واجهة مستخدم 'متجر الميزات' بيانات التعريف على أنواع بيانات الميزات:

مثال على أنواع البيانات المعقدة

مزيد من المعلومات

لمزيد من المعلومات حول أفضل الممارسات، قم بتنزيل الدليل الشامل إلى مخازن الميزات.