إدخال البيانات إلى كتالوج Unity

متوسط
مهندس بيانات
Azure Databricks

استيراد البيانات هو قدرة أساسية لأي منصة بيانات. تستكشف هذه الوحدة المجموعة الشاملة من التقنيات المتاحة في Azure Databricks لتحميل البيانات في جداول فهرس Unity. ستتعلم كيفية استخدام الموصلات المدارة مع Lakeflow Connect، وكتابة كود إدخال مخصص في دفاتر الملاحظات، وتطبيق أوامر SQL لتحميل الملفات دفعات، ومعالجة تغذيات تغيير البيانات، وتكوين تدفق الرسائل من ناقلات الرسائل، وإعداد Auto Loader للكشف التلقائي عن الملفات، وتنظيم سير عمل الإدخال باستخدام خطوط أنابيب Lakeflow Spark الإعلانية.

الأهداف التعليمية

في نهاية هذه الوحدة، ستتمكن من:

  • تكوين Lakeflow Connect لاستقبال البيانات من مصادر خارجية باستخدام الموصلات المدارة
  • استيعاب بيانات الدفعات والتدفق باستخدام دفاتر ملاحظات تحتوي على DataFrames وStructured Streaming
  • استخدم أوامر SQL مثل COPY INTO وCREATE TABLE AS SELECT للإدخال القائم على الملفات
  • تغذية التقاط بيانات تغيير العمليات باستخدام واجهة برمجة تطبيقات CDC التلقائية
  • تكوين Spark Structured Streaming لاستقبال البيانات في الوقت الحقيقي من Kafka وEvent Hubs
  • قم بإعداد Auto Loader لاكتشاف ومعالجة الملفات الجديدة تلقائيا باستخدام تطور المخطط
  • تنسيق سير عمل استيعاب البيانات باستخدام خطوط أنابيب Lakeflow Spark التصريحية

المتطلبات الأساسية

يجب استكمال المتطلبات المسبقة التالية:

  • الفهم الأساسي لمفاهيم Azure Databricks وUnity Catalog
  • الإلمام بالبرمجة بلغة SQL وبايثون
  • معرفة مفاهيم هندسة البيانات مثل معالجة الدفعات والبث