تنظيف وتحويل وتحميل البيانات إلى كتالوج Unity

متوسط
مهندس بيانات
Azure Databricks

تتطلب هندسة البيانات تحويل البيانات الخام إلى صيغ نظيفة ومنظمة جيدا جاهزة للتحليل. تستكشف هذه الوحدة تقنيات تحليل جودة البيانات، واختيار أنواع الأعمدة المناسبة، وحل التكرارات والقيم الفارغة، وتطبيق التحويلات والتجميع، ودمج مجموعات البيانات مع الروابط ومشغلي المجموعات، وإعادة تشكيل البيانات من خلال التحويل وإزالة التطبيع، وتحميل البيانات المحولة باستخدام استراتيجيات الإضافة، والكتابة فوق الكتابة، والدمج.

الأهداف التعليمية

في نهاية هذه الوحدة، ستتمكن من:

  • بيانات الملف الشخصي باستخدام أوامر SQL وميزات تحليل البيانات لتقييم جودة البيانات
  • اختر أنواع بيانات الأعمدة المناسبة لتحسين التخزين وضمان سلامة البيانات
  • تحديد وحل القيم المكررة والمفقودة والفارغة في مجموعات البيانات
  • تطبيق عمليات التصفية، والتجميع، والتجميع لتحويل البيانات
  • اجمع مجموعات البيانات باستخدام الروابط وعوامل المجموعات مثل الاتحاد وINTERSECT وEXCEPT
  • إعادة تشكيل البيانات باستخدام تقنيات التباطؤ، والمحور، وإلغاء المحور
  • تحميل البيانات المحولة إلى جداول فهرس الوحدة باستخدام عمليات الإدراج والدمج والكتابة

المتطلبات الأساسية

يجب استكمال المتطلبات المسبقة التالية:

  • الفهم الأساسي لمفاهيم Azure Databricks وUnity Catalog
  • الإلمام بالبرمجة بلغة SQL وبايثون
  • معرفة مفاهيم هندسة البيانات مثل جودة البيانات وتحولاتها