ترحيل تطبيقات البيانات إلى Azure Databricks

توفر هذه المقالة مقدمة لترحيل تطبيقات البيانات الموجودة إلى Azure Databricks. يوفر Azure Databricks نهجا موحدا يتيح لك العمل مع البيانات من العديد من أنظمة المصدر على نظام أساسي واحد.

للحصول على نظرة عامة حول قدرات النظام الأساسي، راجع ما هو Azure Databricks؟.

للحصول على معلومات حول الترحيل بين إصدارات وقت تشغيل Databricks، راجع دليل ترحيل وقت تشغيل Databricks.

ترحيل مهام ETL إلى Azure Databricks

يمكنك ترحيل وظائف Apache Spark المستخدمة لاستخراج البيانات وتحويلها وتحميلها من التطبيقات المحلية أو السحابية الأصلية إلى Azure Databricks ببضع خطوات فقط. راجع Adapt your exisiting Apache Spark code for Azure Databricks.

يوسع Azure Databricks وظائف Spark SQL من خلال عمليات تكامل مصدر مفتوح مسبقة التكوين وتكامل الشركاء وعروض منتجات المؤسسة. إذا كانت أحمال عمل ETL مكتوبة في SQL أو Hive، يمكنك الترحيل إلى Azure Databricks بأقل قدر من إعادة بناء التعليمات البرمجية. تعرف على المزيد حول عروض Azure Databricks SQL:

للحصول على إرشادات محددة حول الترحيل من أنظمة المصدر المختلفة إلى Azure Databricks، راجع ترحيل مسارات ETL إلى Azure Databricks.

استبدل مستودع بيانات المؤسسة بمستودع بحيرة

يوفر Azure Databricks القيمة والأداء الأمثل عندما تتوافق أحمال العمل مع البيانات المخزنة في المستودع. تتضمن العديد من مكدسات بيانات المؤسسة كلا من مستودع البيانات ومستودع بيانات المؤسسة، وتنشئ المؤسسات مهام سير عمل ETL معقدة لمحاولة الحفاظ على مزامنة هذه الأنظمة والبيانات. يسمح لك lakehouse باستخدام نفس البيانات، المخزنة في مستودع البيانات، عبر الاستعلامات والأنظمة التي تعتمد عادة على مستودع بيانات منفصل. لمزيد من المعلومات حول مخزن البحيرة، راجع ما هو مستودع البيانات؟. لمزيد من المعلومات حول تخزين البيانات على Databricks، راجع ما هو تخزين البيانات على Azure Databricks؟.

يتضمن الترحيل من مستودع بيانات المؤسسة إلى مستودع البيانات بشكل عام تقليل تعقيد بنية البيانات وسير العمل، ولكن هناك بعض التحذيرات وأفضل الممارسات التي يجب وضعها في الاعتبار أثناء إكمال هذا العمل. راجع ترحيل مستودع البيانات إلى مستودع Databricks.

توحيد التعلم الآلي وعلوم البيانات وأحمال العمل التحليلية

نظرا لأن lakehouse يوفر وصولا محسنا إلى ملفات البيانات المستندة إلى السحابة من خلال استعلامات الجدول أو مسارات الملفات، يمكنك إجراء التعلم الآلي وعلوم البيانات والتحليلات على نسخة واحدة من بياناتك. يسهل Azure Databricks نقل أحمال العمل من كل من الأدوات مصدر مفتوح والأدوات الخاصة، ويحافظ على الإصدارات المحدثة من العديد من مكتبات مصدر مفتوح المستخدمة من قبل المحللين وعلماء البيانات.

يمكن مزامنة أحمال عمل Pandas في دفاتر ملاحظات Jupyter وتشغيلها باستخدام مجلدات Databricks Git. يوفر Azure Databricks الدعم الأصلي ل pandas في جميع إصدارات Databricks Runtime، كما يقوم بتكوين العديد من مكتبات التعلم الآلي والتعلم العميق الشائعة في Databricks Runtime التعلم الآلي. إذا قمت بمزامنة أحمال العمل المحلية باستخدام ملفات Git ومساحة العمل في مجلدات Git، يمكنك استخدام نفس المسارات النسبية للبيانات وملفات libaries المخصصة الموجودة في بيئتك المحلية.

إشعار

بشكل افتراضي، يحتفظ Azure Databricks بملحقات .ipynb لدفاتر ملاحظات Jupyter المتزامنة مع مجلدات Databricks Git، ولكنه يحول تلقائيا دفاتر ملاحظات Jupyter إلى دفاتر ملاحظات Databricks عند استيرادها باستخدام واجهة المستخدم. تحفظ دفاتر ملاحظات Databricks بملحق .py ، وبالتالي يمكن أن تعيش جنبا إلى جنب مع دفاتر ملاحظات Jupyter في مستودع Git.