تحويل البيانات في Azure Data Factory وAzure Synapse Analytics Synapse

ينطبق على:Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

هام

سينتهي دعم Azure التعلم الآلي Studio (الكلاسيكي) في 31 أغسطس 2024. نوصي بالانتقال إلى Azure التعلم الآلي بحلول ذلك التاريخ.

اعتبارا من 1 ديسمبر 2021، لا يمكنك إنشاء موارد جديدة التعلم الآلي Studio (كلاسيكي) (مساحة العمل وخطة خدمة الويب). حتى 31 أغسطس 2024، يمكنك الاستمرار في استخدام تجارب التعلم الآلي Studio (الكلاسيكية) وخدمات الويب الحالية. لمزيد من المعلومات، راجع:

يتم إيقاف وثائق التعلم الآلي Studio (الكلاسيكي) وقد لا يتم تحديثها في المستقبل.

نظرة عامة

توضح هذه المقالة أنشطة تحويل البيانات في Azure Data Factory وتدفقات Synapse التي يمكنك استخدامها لتحويل بياناتك الأولية ومعالجتها إلى تنبؤات ومعلومات على نطاق واسع. وينفذ نشاط التحويل في بيئة حوسبة مثل Azure Databricks أو Azure HDInsight. وهو يوفر وصلات لمقالات مع معلومات مفصلة عن كل نشاط تحول.

تدعم الخدمة أنشطة تحويل البيانات التالية التي يمكن إضافتها إلى تدفقات إما بشكل فردي أو مرتبطة بنشاط آخر.

التحويل محليًا في Azure Data Factory وAzure Synapse Analytics باستخدام سير عمل البيانات

تعيين تدفق البيانات

تعيين تدفقات البيانات عبارة عن تحويلات بيانات مصممة بشكل مرئي في Azure Data Factory وAzure Synapse. وتسمح عمليات سير عمل البيانات لمهندسي البيانات بتطوير منطق تحويل البيانات الرسومية دون كتابة تعليمات برمجية. يتم تنفيذ عمليات سير عمل البيانات الناتجة كأنشطة داخل التدفقات التي تستخدم نظام مجموعات Spark الذي تم توسيعه أفقيًا. يمكن تفعيل أنشطة عمليات سير عمل البيانات من خلال إمكانيات الجدولة والتحكم وسير العمل والمراقبة الحالية داخل الخدمة. لمزيد من المعلومات، راجع تعيين عمليات سير عمل البيانات.

مشاحنات البيانات

يتيح Power Query في Azure Data Factory إمكانية مناقشة البيانات على نطاق السحابة، مما يسمح بإعداد البيانات بدون تعليمات برمجية على نطاق السحابة بشكل متكرر. وتتكامل ميزة مناقشة البيانات مع Power Query Online وتجعل وظائف Power Query M متاحة لمناقشة البيانات على نطاق سحابي عبر تنفيذ Spark. لمزيد من المعلومات، راجع مناقشة البيانات في Azure Data Factory.

إشعار

يتم دعم Power Query حاليًا في Azure Data Factory فقط، ولا يتم دعمه في Azure Synapse. للحصول على قائمة بالميزات المحددة المدعومة في كل خدمة، راجع الميزات المتوفرة في Azure Data Factory وتدفقات Azure Synapse Analytics.

التحويلات الخارجية

يمكنك اختياريًا كتابة تحويلات التعليمات البرمجية يدويًا وإدارة بيئة الحوسبة الخارجية بنفسك.

نشاط HDInsight Hive

ينفذ نشاط HDInsight Hive في التدفق استعلامات Apache Hive على نظام مجموعة HDInsight المستندة إلى نظام التشغيل Windows/Linux أو حسب الطلب. راجع مقالة نشاط Apache Hive للحصول على تفاصيل حول هذا النشاط.

نشاط HDInsight Pig

ينفذ نشاط HDInsight Pig في التدفق استعلامات Pig على نظام مجموعة HDInsight المستندة إلى نظام التشغيل Windows/Linux أو حسب الطلب. راجع مقالة نشاط Pig للحصول على تفاصيل حول هذا النشاط.

نشاط HDInsight MapReduce

يُنفذ نشاط HDInsight MapReduce في التدفق برامج MapReduce على نظام مجموعة HDInsight المستندة إلى Windows/Linux حسب الطلب. راجع مقالة نشاط MapReduce للحصول على تفاصيل حول هذا النشاط.

نشاط HDInsight Streaming

يُنفذ نشاط HDInsight Streaming في التدفق برامج Hadoop Streaming على نظام مجموعة HDInsight المستندة إلى نظام التشغيل Windows/Linux أو حسب الطلب. راجع مقالة نشاط HDInsight Streaming للحصول على تفاصيل حول هذا النشاط.

نشاط HDInsight Spark

يُنفذ HDInsight Spark في التدفق برامج Spark على نظام مجموعة HDInsight. لمزيد من التفاصيل، راجع استدعاء برامج Spark باستخدام Azure Data Factory أو Azure Synapse Analytics.

أنشطة ML Studio (الكلاسيكي)

هام

سينتهي دعم Azure التعلم الآلي Studio (الكلاسيكي) في 31 أغسطس 2024. نوصي بالانتقال إلى Azure التعلم الآلي بحلول ذلك التاريخ.

اعتبارا من 1 ديسمبر 2021، لا يمكنك إنشاء موارد جديدة التعلم الآلي Studio (كلاسيكي) (مساحة العمل وخطة خدمة الويب). حتى 31 أغسطس 2024، يمكنك الاستمرار في استخدام تجارب التعلم الآلي Studio (الكلاسيكية) وخدمات الويب الحالية. لمزيد من المعلومات، راجع:

يتم إيقاف وثائق التعلم الآلي Studio (الكلاسيكي) وقد لا يتم تحديثها في المستقبل.

تمكّنك الخدمة من إنشاء تدفقات بسهولة تستخدم خدمة الويب ML Studio (الكلاسيكي) المنشورة للتحليلات التنبؤية. باستخدام نشاط تنفيذ الدُفعات في التدفق، يمكنك استدعاء خدمة ويب Studio (الكلاسيكية) لعمل تنبؤات بشأن البيانات اليت تكون في دُفعة.

مع مرور الوقت، تحتاج النماذج التنبؤية في تجارب تسجيل Studio (الكلاسيكي) إلى إعادة تدريب باستخدام مجموعات بيانات إدخال جديدة. بعد الانتهاء من إعادة التدريب، تريد تحديث خدمة الويب التهديف مع نموذج التعلم الآلي إعادة تدريب. يمكنك استخدام Update Resource Activity لتحديث خدمة الويب بالنموذج المدرب حديثًا.

راجع استخدام أنشطة ML Studio (الكلاسيكي) للحصول على تفاصيل حول أنشطة Studio (الكلاسيكي) هذه.

نشاط إجراء مخزن

يمكنك استخدام نشاط "الإجراء المخزن" SQL Server في مسار Data Factory لاستدعاء إجراء مخزن في أحد مخازن البيانات التالية: قاعدة بيانات Azure SQL، أو تحليلات Azure Synapse، أو قاعدة بيانات SQL Server في المؤسسة أو جهاز Azure الظاهري. راجع مقالة نشاط الإجراء المخزن للحصول على مزيدٍ من التفاصيل.

Data Lake Analytics U-SQL activity

يشغل نشاط تحليلات مستودع بيانات U-SQL البرنامج النصي U-SQL نظام مجموعة تحليلات مستودع بيانات Azure. راجع مقالة نشاط Data Analytics U-SQL للحصول على مزيدٍ من التفاصيل.

نشاط دفتر ملاحظات Azure Synapse

يقوم نشاط دفتر ملاحظات Azure Synapse في تدفق Synapse بتشغيل دفتر ملاحظات Synapse في مساحة عمل Azure Synapse. راجع تحويل البيانات عن طريق تشغيل دفتر ملاحظات Azure Synapse.

نشاط Databricks Notebook

يُشغل نشاط دفتر ملاحظات Azure Databricks في عمليات تشغيل التدفق دفتر ملاحظات Databricks في مساحة عمل Azure Databricks. يُعد Azure Databricks نظاماً أساسياً مُداراً لتشغيل Apache Spark. راجع تحويل البيانات عن طريق تشغيل دفتر ملاحظات Databricks.

نشاط Databricks Jar

يُشغل نشاط Azure Databricks Jar في عمليات تشغيل التدفق Spark Jar في نظام مجموعة Azure Databricks الخاصة بك. يُعد Azure Databricks نظاماً أساسياً مُداراً لتشغيل Apache Spark. راجع تحويل البيانات عن طريق تشغيل نشاط Jar في Azure Databricks.

نشاط Databricks Python

يُشغل نشاط Azure Databricks Python في التدفق ملف Python في نظام مجموعة Azure Databricks. يُعد Azure Databricks نظاماً أساسياً مُداراً لتشغيل Apache Spark. راجع تحويل البيانات عن طريق تشغيل نشاط Python في Azure Databricks.

النشاط المخصص

إذا كنت بحاجة إلى تحويل البيانات بطريقة غير معتمدة من قبل Data Factory، يمكنك إنشاء نشاط مخصص بمنطق معالجة البيانات الخاص بك واستخدام النشاط الموجود في المسار. يمكنك تكوين نشاط Microsoft .NET المخصصة لتشغيل باستخدام خدمة دفعة Azure أو نظام مجموعة HDInsight Azure. راجع مقالة استخدام الأنشطة المخصصة للحصول على مزيدٍ من التفاصيل.

يمكنك إنشاء نشاط مخصص لتشغيل البرامج النصية R على مجموعة HDInsight الخاصة بك مع تثبيت R. راجع تشغيل البرنامج النصي R باستخدام Azure Data Factory وتدفقات Synapse.

بيئات الحساب في Azure

إنشاء خدمة مرتبطة لبيئة الحساب ثم استخدم الخدمة المرتبطة عند تحديد نشاط تحويل. هناك نوعان معتمدان من بيئات الحوسبة.

  • On-Demand: في هذه الحالة، تكون بيئة الحوسبة خدمة مدارة بشكل كامل بواسطة الخدمة. يتم إنشاؤها تلقائياً بواسطة الخدمة قبل إرسال المهمة لمعالجة البيانات وإزالتها عند اكتمال المهمة. يمكنك تكوين الإعدادات الدقيقة لبيئة الحساب عند الطلب للتحكم فيها لتنفيذ المهمة وإدارة نظام المجموعة وإجراءات التشغيل.
  • Bring Your Own: في هذه الحالة، يمكنك تسجيل بيئة الحوسبة الخاصة بك (على سبيل المثال نظام مجموعة HDInsight) كخدمة مرتبطة. تُدار بيئة الحوسبة بواسطتك وتستخدمها الخدمة لتنفيذ الأنشطة.

راجع مقالة خدمات الحوسبة المرتبطة للتعرف على خدمات الحوسبة المدعومة.

راجع البرنامج التعليمي التالي للحصول على مثال لاستخدام نشاط التحويل: البرنامج التعليمي: تحويل البيانات باستخدام Spark