إعداد البيانات قبل إنشاء التنبؤات
كلما قمت بتطبيق نموذج على بيانات جديدة، فإن أهم شيء هو التأكد من أن مخطط بيانات الإدخال يتماشى مع توقعات النموذج لبيانات الإدخال.
وبشكل أكثر تحديدا، تحتاج إلى التحقق من أن أنواع بيانات أعمدة الإدخال هي نفسها كما هو محدد في توقيع النموذج. أولا، لنحصل على البيانات التي تريد إنشاء تنبؤات عليها.
العمل مع البيانات في جداول Delta
لتطبيق نموذج على بيانات جديدة في Microsoft Fabric، يجب تخزين البيانات الجديدة كجدول Delta في مستودع.
تلميح
تعرف على المزيد حول كيفية استيعاب البيانات في مستودع Microsoft Fabric.
يمكنك تخزين إطار df بيانات PySpark كبحيرة new_table Delta في بحيرة باستخدام التعليمات البرمجية التالية:
df.write.format("delta").save(f"Tables/new_table")
عندما تريد قراءة البيانات من جدول Delta، يمكنك استخدام التعليمات البرمجية التالية:
df = spark.read.format("delta").load(f"Tables/new_table")
فهم أنواع البيانات في توقيع النموذج
عند تعقب نموذج التعلم الآلي وتحديد التوقيع في MLmodel الملف، يكون لديك خياران لوصف المدخلات والمخرجات المتوقعة للنموذج. يمكن أن يكون توقيع النموذج:
- المستندة إلى العمود - مثالية للبيانات الجدولية التي يتم تنظيمها حسب الأعمدة.
- المستندة إلى Tensor - مثالية لبيانات الإدخال التي تريد تمريرها كصفائف، مثل الصور.
في Microsoft Fabric، من المحتمل أن تعمل مع البيانات الجدولية، وهذا هو السبب في أنه من الأكثر شيوعا العمل مع التواقيع المستندة إلى الأعمدة. إن وجود تواقيع مستندة إلى الأعمدة يسهل محاذاة أعمدة الإدخال الفعلية مع أعمدة الإدخال المتوقعة للنموذج.
عند تعريف توقيع النموذج، تحتاج إلى استخدام أنواع بيانات MLflow لتحديد مخطط البيانات. أنواع البيانات الأكثر استخداما هي:
-
منطقي: البيانات المنطقية (
TrueأوFalse) -
التاريخ والوقت: بيانات التاريخ والوقت 64b (على سبيل المثال
2023-10-23 14:30:00). -
مزدوج: أرقام الفاصلة العائمة 64 ب (على سبيل المثال
3.14159265359). -
Float: أرقام الفاصلة العائمة 32b (على سبيل المثال
3.14). -
عدد صحيح: 32 ب أرقام صحيحة موقعة (على سبيل المثال
42). -
طويل: 64b عدد صحيح موقع (على سبيل المثال
1234567890). -
السلسلة: البيانات النصية (على سبيل المثال
Amsterdam).
تعيين أنواع بيانات بيانات الإدخال
بعد استيعاب البيانات في Delta lake وفهم توقيع النموذج، تحتاج إلى التأكد من أن أنواع بيانات البيانات متوافقة مع الإدخال المتوقع للنموذج.
يمكنك استخدام بياناتك في دفتر ملاحظات للتحقق من أن أنواع البيانات لكل عمود كما هو متوقع وإجراء تغييرات إذا لزم الأمر.
لسرد أنواع البيانات لكل عمود من إطار dfالبيانات، استخدم التعليمات البرمجية التالية:
df.dtypes
إذا كنت تريد تغيير نوع البيانات لعمود معين، يمكنك استخدام التعليمات البرمجية التالية:
from pyspark.sql.types import IntegerType, DoubleType
df = df.withColumn("S1", df["S1"].cast(IntegerType()))
df = df.withColumn("S2", df["S2"].cast(DoubleType()))
عند تعيين أنواع بيانات بيانات الإدخال لتتوافق مع المدخلات المتوقعة للنموذج، يمكنك حفظ البيانات إلى جدول Delta جديد. الجدول الجديد جاهز الآن للاستخدام لإنشاء تنبؤات الدفعات.