تحضير ومعالجة البيانات باستخدام Azure Databricks
في لمح البصر
-
المستوى
-
المهارة
-
منتج
-
الدور
-
الموضوع
أتقن المهارات الأساسية لبناء حلول هندسة بيانات قوية وقابلة للتوسع مع Azure Databricks وUnity Catalog. تعلم تصميم نماذج بيانات فعالة، واستيعاب البيانات من مصادر متنوعة، وتحويل البيانات الخام إلى صيغ جاهزة للتحليلات، وضمان جودة البيانات عبر بنية بيت البحيرة الخاص بك.
في هذا المسار التعليمي، ستتعلم كيفية بناء سير عمل هندسة البيانات باستخدام Azure Databricks وUnity Catalog. بدءا من مفاهيم نمذجة البيانات الأساسية، ستصمم مخططات واستراتيجيات تقسيم محسنة لأعباء العمل التحليلية. بعد ذلك ستستكشف أنماط إدخال متعددة — من الموصلات المدارة إلى خطوط أنابيب البث — لجلب البيانات إلى منزلك البحيري. بعد ذلك، ستطبق تقنيات التحويل لتنقية وإعادة تشكيل البيانات لاستخدامها في الأعمال. وأخيرا، ستنفذ ضوابط جودة للحفاظ على سلامة البيانات في جميع خطوط الأنابيب الخاصة بك. في النهاية، ستكون لديك المهارات العملية لتصميم وبناء حلول بيانات جاهزة للإنتاج في كتالوج Unity.
المتطلبات الأساسية
- فهم جيد لمساحات العمل في Azure Databricks ومفاهيم كتالوج Unity
- الإلمام بالبرمجة بلغة SQL وبايثون
- معرفة بأساسيات هندسة البيانات ومفاهيم مستودعات البيانات
رمز الإنجاز
هل ترغب في طلب رمز إنجاز؟
الوحدات النمطية في مسار التعلم هذا
تشكل النمذجة الفعالة للبيانات أساس منصة بيانات فعالة وقابلة للصيانة. تستكشف هذه الوحدة كيفية تصميم منطق الدخول، واختيار الأدوات وصيغ الجداول المناسبة، وتنفيذ مخططات التقسيم، وإدارة الأبعاد المتغيرة ببطء، واختيار التفصيل المناسب للبيانات، وتحسين أداء الجداول من خلال استراتيجيات التجميع في Azure Databricks مع كتالوج Unity.
استيراد البيانات هو قدرة أساسية لأي منصة بيانات. تستكشف هذه الوحدة المجموعة الشاملة من التقنيات المتاحة في Azure Databricks لتحميل البيانات في جداول فهرس Unity. ستتعلم كيفية استخدام الموصلات المدارة مع Lakeflow Connect، وكتابة كود إدخال مخصص في دفاتر الملاحظات، وتطبيق أوامر SQL لتحميل الملفات دفعات، ومعالجة تغذيات تغيير البيانات، وتكوين تدفق الرسائل من ناقلات الرسائل، وإعداد Auto Loader للكشف التلقائي عن الملفات، وتنظيم سير عمل الإدخال باستخدام خطوط أنابيب Lakeflow Spark الإعلانية.
تتطلب هندسة البيانات تحويل البيانات الخام إلى صيغ نظيفة ومنظمة جيدا جاهزة للتحليل. تستكشف هذه الوحدة تقنيات تحليل جودة البيانات، واختيار أنواع الأعمدة المناسبة، وحل التكرارات والقيم الفارغة، وتطبيق التحويلات والتجميع، ودمج مجموعات البيانات مع الروابط ومشغلي المجموعات، وإعادة تشكيل البيانات من خلال التحويل وإزالة التطبيع، وتحميل البيانات المحولة باستخدام استراتيجيات الإضافة، والكتابة فوق الكتابة، والدمج.
تستكشف هذه الوحدة استراتيجيات للحفاظ على جودة بيانات عالية في Azure Databricks. ستتعلم كيفية تنفيذ فحوصات التحقق، وفرض المخططات، وإدارة انحراف المخطط، واستخدام توقعات خطوط الأنابيب لضمان سلامة البيانات في جميع خطوط أنابيب بياناتك.