ترحيل مستودع البيانات إلى مستودع Databricks

توضح هذه المقالة بعض الاعتبارات والمحاذير التي يجب مراعاتها عند استبدال مستودع بيانات المؤسسة الخاص بك ب Databricks lakehouse. يمكن تشغيل معظم أحمال العمل والاستعلامات ولوحات المعلومات المحددة في مستودعات بيانات المؤسسة بأقل قدر من إعادة بناء التعليمات البرمجية بمجرد إكمال المسؤولين لترحيل البيانات الأولية وتكوين الحوكمة. لا يتعلق ترحيل أحمال عمل تخزين البيانات إلى Azure Databricks بالقضاء على تخزين البيانات، بل توحيد النظام البنائي للبيانات. لمزيد من المعلومات حول تخزين البيانات على Databricks، راجع ما هو تخزين البيانات على Azure Databricks؟.

تستخرج العديد من أحمال عمل Apache Spark البيانات وتحويلها وتحميلها (ETL) من أنظمة المصدر إلى مستودعات البيانات لتشغيل تحليلات انتقال البيانات من الخادم. إن استبدال مستودع بيانات المؤسسة الخاص بك بمستودع بحيرة يمكن المحللين وعلماء البيانات ومهندسي البيانات من العمل مقابل نفس الجداول في نفس النظام الأساسي، ما يقلل من التعقيد العام ومتطلبات الصيانة والتكلفة الإجمالية للملكية. راجع ما هو مستودع البيانات؟. لمزيد من المعلومات حول تخزين البيانات على Databricks، راجع ما هو تخزين البيانات على Azure Databricks؟.

تحميل البيانات في مستودع

يوفر Azure Databricks عددا من الأدوات والقدرات لتسهيل ترحيل البيانات إلى مستودع وتكوين مهام ETL لتحميل البيانات من مصادر بيانات متنوعة. تقدم المقالات التالية هذه الأدوات والخيارات:

كيف يختلف Databricks Data Intelligence Platform عن مستودع بيانات المؤسسة؟

تم إنشاء Databricks Data Intelligence Platform أعلى Apache Spark وUnity Catalog وData Lake، مما يوفر الدعم الأصلي لأحمال عمل البيانات الضخمة للتحليلات وML وهندسة البيانات. تحتوي جميع أنظمة بيانات المؤسسة على ضمانات معاملات مختلفة قليلا وأنماط الفهرسة والتحسين وبناء جملة SQL. تتضمن بعض أكبر الاختلافات التي قد تكتشفها ما يلي:

  • جميع المعاملات على مستوى الجدول. لا توجد معاملات أو أقفال أو ضمانات على مستوى قاعدة البيانات.
  • لا BEGIN توجد بنيات و END ، مما يعني أن كل عبارة أو استعلام يعمل كمعاملة منفصلة.
  • يستخدم catalog.schema.table مسار أسماء المستويات الثلاثة نمطا. المصطلحات database و schema مرادفات بسبب بناء جملة Apache Spark القديم.
  • قيود المفتاح الأساسي والمفتاح الخارجي إعلامية فقط. لا يمكن فرض القيود إلا على مستوى الجدول. راجع القيود على Azure Databricks.
  • قد تختلف أنواع البيانات الأصلية المدعومة في Azure Databricks و Delta Lake قليلا عن أنظمة المصدر. يجب الإشارة بوضوح إلى الدقة المطلوبة للأنوع الرقمية قبل اختيار الأنواع المستهدفة.

توفر المقالات التالية سياقا إضافيا حول الاعتبارات الهامة: