إعداد البيانات للتنبؤ

توضح هذه المقالة كيفية إعداد AutoML للبيانات للتدريب على التنبؤ وتصف إعدادات البيانات القابلة للتكوين. يمكنك ضبط هذه الخيارات أثناء إعداد التجربة في واجهة مستخدم AutoML.

لتكوين هذه الإعدادات باستخدام واجهة برمجة تطبيقات AutoML، راجع مرجع واجهة برمجة تطبيقات AutoML Python.

أنواع ميزات البيانات المدعومة

يتم دعم أنواع الميزات المدرجة أدناه فقط. على سبيل المثال، الصور غير معتمدة.

أنواع الميزات التالية مدعومة:

رقمية (ByteTypeو IntegerTypeShortTypeو LongTypeو FloatTypeو وDoubleType)
Boolean
سلسلة (نص فئوي أو إنجليزي)
الطوابع الزمنية (TimestampType، DateType)
ArrayType[Numeric] (Databricks Runtime 10.4 LTS ML وما فوق)
DecimalType (Databricks Runtime 11.3 LTS ML وما فوق)

إسناد القيم المفقودة

في Databricks Runtime 10.4 LTS ML وما فوق، يمكنك تحديد كيفية تسجيل القيم الخالية. في واجهة المستخدم، حدد أسلوبا من القائمة المنسدلة في العمود Impute with في مخطط الجدول. في واجهة برمجة التطبيقات، استخدم المعلمة imputers . لمزيد من المعلومات، راجع مرجع AutoML Python API.

بشكل افتراضي، يحدد AutoML أسلوبا للاقتراض استنادا إلى نوع العمود والمحتوى.

إشعار

إذا قمت بتحديد أسلوب غير افتراضي للاعتداء، لا يقوم AutoML بإجراء الكشف عن النوع الدلالي.

تقسيم بيانات التنبؤ إلى مجموعات التدريب والتحقق من الصحة والاختبار

يقسم AutoML بياناتك إلى ثلاثة تقسيمات للتدريب والتحقق من الصحة والاختبار.

بالنسبة إلى مهام التنبؤ، يستخدم AutoML التحقق من صحة السلاسل الزمنية. تعمل هذه الطريقة بشكل متزايد على توسيع مجموعة بيانات التدريب زمنيا وإجراء التحقق من الصحة على النقاط الزمنية اللاحقة. يوفر التحقق المشترك تقييما قويا لأداء النموذج عبر أجزاء مختلفة من الوقت. ويضمن اختبار نموذج التنبؤ بدقة مقابل البيانات المستقبلية غير المرئية، مع الحفاظ على أهمية التنبؤات ودقتها.

يعتمد عدد طيات التحقق التبادلي على خصائص جدول الإدخال مثل عدد السلاسل الزمنية ووجود الكوفاريات وطول السلسلة الزمنية.

تجميع السلاسل الزمنية

بالنسبة إلى مشاكل التنبؤ، عندما تكون هناك قيم متعددة لطوابع زمنية في سلسلة زمنية، يستخدم AutoML متوسط القيم.

لاستخدام المجموع بدلا من ذلك، قم بتحرير دفتر ملاحظات التعليمات البرمجية المصدر الذي تم إنشاؤه بواسطة تشغيل الإصدار التجريبي. في الخلية تجميع البيانات حسب ... ، قم بالتغيير .agg(y=(target_col, "avg")) إلى .agg(y=(target_col, "sum"))، كما هو موضح:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })

الملاحظات

هل كانت هذه الصفحة مفيدة؟

Last updated on 2024-11-19