‏‫اختبر مَعلومَاتك - Training

1.

فريق بيانات يرغب في تشغيل استعلامات Spark SQL في دفتر PySpark. ما الذي يحتاجون لإضافته في أعلى الخلية لتشغيل SQL؟

%spark

%%sql

%%pyspark

2.

يحتاج مهندس التحليلات إلى استبدال القيم الصفرية في عمود خصم باستخدام PySpark. ما هو الأسلوب الذي يجب أن يستخدموه؟

df.dropna(subset=["discount"])

df.fillna({"discount": 0})

df.filter(col("discount").isNotNull())

3.

يكتب الفريق تحويلا ليليا يستبدل كل البيانات في جدول الطبقة الذهبية بنتائج معالجة حديثة. أي وضع كتابة يجب أن يستخدموا؟

append

overwrite

merge

4.

ما الذي توفره دالة النافذة ولا توفره دالة GROUP BY القياسية؟

يحسب القيم المجمعة مع الحفاظ على تفاصيل الصف الفردية.

يعمل أسرع من GROUP BY على مجموعات البيانات الكبيرة.

يدعم وظائف تجميع أكثر من GROUP BY.

5.

نما الجدول ليحتوي على العديد من ملفات باركيه الصغيرة بعد أسابيع من الإضافات التدريجية. أي أمر يقوم بدمج هذه الملفات لتحسين أداء الاستعلام؟

VACUUM

OPTIMIZE

ANALYZE TABLE

الملاحظات