مقدمة
تحتاج المؤسسات المعتمدة على البيانات إلى طرق موثوقة لتحويل البيانات الخام إلى صيغ نظيفة ومنظمة جاهزة للتحليل. في Microsoft Fabric، توفر أجهزة الكمبيوتر المحمولة بيئة تفاعلية قائمة على الشيفرة مدعومة من Apache Spark. يمكنك استخدام دفاتر القراءة والكتابة إلى بيوت البحيرات، بالإضافة إلى المستودعات، وقواعد بيانات KQL، والمصادر الخارجية. الدفاتر تمنحك أداة تحويل واحدة تمتد عبر منصة Fabric.
افترض أنك تعمل في شركة تحليلات تجزئة تجمع معاملات المبيعات، وسجلات العملاء، وبيانات المنتجات من أنظمة متعددة في متجر بحيرة Fabric. تحتوي البيانات الخام على تناقضات: قيم مفقودة في سجلات العملاء، صفوف معاملات مكررة، وجداول منفصلة يجب ربطها قبل أن يتمكن المحللون من بناء تقارير ذات معنى. الأدوات منخفضة الكود تتعامل مع التحويلات البسيطة، لكن فريقك يحتاج إلى وصلات معقدة عبر جداول متعددة، ودوال نافذة لترتيب وتشغيل الإجماليات، ومنطق أعمال مخصص لاستخلاص مقاييس جديدة. تحتاج منظمتك إلى نهج قابل للتوسع وقابل للتكرار يبني على مهارات SQL الحالية لفريقك.
تتيح دفاتر Fabric معالجة هذه التحديات باستخدام Spark SQL، الذي يوسع صياغة SQL المألوفة للعمل مع مجموعات البيانات الكبيرة. عندما تحتاج إلى مرونة برمجية أكبر، يوفر PySpark واجهة برمجة تطبيقات DataFrame لنفس التحولات. كلتا اللغتين تعملان على نفس محرك Spark، لذا يمكنك اختيار النهج الذي يناسب كل مهمة.
تستكشف كيف تعمل دفاتر Fabric، وأي مخازن البيانات تتصل بها، وأنماط التطوير الشائعة. كما تتعلم تشكيل وتنظيف البيانات من خلال تصفية الصفوف، والتعامل مع النقاط الصفرية، وإضافة أعمدة محسوبة. تقوم بدمج وتجميع البيانات باستخدام الانضمامات، والتجميع، ودوال النوافذ. وأخيرا، تكتب نتائجك المحولة إلى جداول دلتا بالحجم المناسب.
بنهاية هذه الوحدة، يمكنك تحويل البيانات باستخدام Spark SQL و PySpark في دفاتر Fabric.