Transform data in Azure Data Factory و Azure Synapse Analytics

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

Data Factory في Microsoft Fabric هو الجيل القادم من Azure Data Factory، مع بنية أبسط، وذكاء اصطناعي مدمج، وميزات جديدة. إذا كنت جديدا في تكامل البيانات، ابدأ مع Fabric Data Factory. يمكن لأعباء عمل ADF الحالية الترقية إلى Fabric للوصول إلى قدرات جديدة في علوم البيانات، والتحليلات اللحظية، والتقارير.

هام

سينتهي دعم Azure Machine Learning Studio (الكلاسيكي) في 31 أغسطس 2024. نوصي بالانتقال إلى Azure Machine Learning بحلول ذلك التاريخ.

اعتبارا من 1 ديسمبر 2021، لا يمكنك إنشاء موارد جديدة ل Machine Learning Studio (كلاسيك) (خطة مساحة العمل وخدمات الويب). حتى 31 أغسطس 2024، يمكنك الاستمرار في استخدام تجارب وخدمات الويب الحالية من Machine Learning Studio (الكلاسيكية). لمزيد من المعلومات، راجع:

توثيق Machine Learning Studio (الكلاسيكي) يتم إيقافه وقد لا يتم تحديثه في المستقبل.

نظرة عامة

تشرح هذه المقالة أنشطة تحويل البيانات في خطوط أنابيب Azure Data Factory وSynapse التي يمكنك استخدامها لتحويل ومعالجة بياناتك الخام إلى تنبؤات ورؤى على نطاق واسع. يتم تنفيذ نشاط تحويل في بيئة حوسبة مثل Azure Databricks أو Azure HDInsight. وهو يوفر وصلات لمقالات مع معلومات مفصلة عن كل نشاط تحول.

تدعم الخدمة أنشطة تحويل البيانات التالية التي يمكن إضافتها إلى تدفقات إما بشكل فردي أو مرتبطة بنشاط آخر.

transform native in Azure Data Factory و Azure Synapse Analytics with data flows

تعيين تدفق البيانات

تدفقات البيانات المتخصصة هي تحويلات بيانات مصممة بصريا في Azure Data Factory و Azure Synapse. وتسمح عمليات سير عمل البيانات لمهندسي البيانات بتطوير منطق تحويل البيانات الرسومية دون كتابة تعليمات برمجية. يتم تنفيذ عمليات سير عمل البيانات الناتجة كأنشطة داخل التدفقات التي تستخدم نظام مجموعات Spark الذي تم توسيعه أفقيًا. يمكن تفعيل أنشطة عمليات سير عمل البيانات من خلال إمكانيات الجدولة والتحكم وسير العمل والمراقبة الحالية داخل الخدمة. لمزيد من المعلومات، راجع تعيين عمليات سير عمل البيانات.

مشاحنات البيانات

يتيح Power Query في Azure Data Factory تنظيم البيانات على نطاق سحابي، مما يسمح لك بإعداد البيانات بدون كود على نطاق سحابي بشكل تكراري. يتكامل تنظيم البيانات مع Power Query Online ويجعل وظائف Power Query M متاحة لتنسيق البيانات على نطاق السحابة عبر تنفيذ الشرارة. لمزيد من المعلومات، راجع data wrangling في Azure Data Factory.

إشعار

Power Query مدعوم حاليا فقط في Azure Data Factory، وليس في Azure Synapse. للحصول على قائمة بالميزات المحددة المدعومة في كل خدمة، راجع الميزات المتوفرة في Azure Data Factory & Azure Synapse Analytics خطوط الأنابيب.

التحويلات الخارجية

يمكنك اختياريًا كتابة تحويلات التعليمات البرمجية يدويًا وإدارة بيئة الحوسبة الخارجية بنفسك.

نشاط HDInsight Hive

نشاط HDInsight Hive في خط الأنابيب ينفذ استعلامات Hive بشكل خاص أو على عنقود HDInsight المبني على Windows/Linux حسب الطلب. راجع مقالة نشاط Apache Hive للحصول على تفاصيل حول هذا النشاط.

نشاط HDInsight Pig

يقوم نشاط HDInsight Pig في خط الأنابيب بتنفيذ استعلامات Pig على عنقود HDInsight الخاص بك أو حسب الطلب على Windows/Linux. راجع مقالة نشاط Pig للحصول على تفاصيل حول هذا النشاط.

نشاط HDInsight MapReduce

خريطة HDInsight نشاط MapReduce في خط الأنابيب ينفذ برامج MapReduce بنفسك أو على عنقود HDInsight المعتمد على Windows/Linux عند الطلب. راجع مقالة نشاط MapReduce للحصول على تفاصيل حول هذا النشاط.

نشاط HDInsight Streaming

نشاط HDInsight Streaming في خط الأنابيب ينفذ برامج Hadoop Streaming بشكل خاص أو على عنقود HDInsight المعتمد على Windows/Linux عند الطلب. راجع مقالة نشاط HDInsight Streaming للحصول على تفاصيل حول هذا النشاط.

نشاط HDInsight Spark

يُنفذ HDInsight Spark في التدفق برامج Spark على نظام مجموعة HDInsight. للمزيد من التفاصيل، راجع Invoke Spark programs مع Azure Data Factory أو Azure Synapse Analytics.

أنشطة ML Studio (الكلاسيكي)

هام

سينتهي دعم Azure Machine Learning Studio (الكلاسيكي) في 31 أغسطس 2024. نوصي بالانتقال إلى Azure Machine Learning بحلول ذلك التاريخ.

اعتبارا من 1 ديسمبر 2021، لا يمكنك إنشاء موارد جديدة ل Machine Learning Studio (كلاسيك) (خطة مساحة العمل وخدمات الويب). حتى 31 أغسطس 2024، يمكنك الاستمرار في استخدام تجارب وخدمات الويب الحالية من Machine Learning Studio (الكلاسيكية). لمزيد من المعلومات، راجع:

توثيق Machine Learning Studio (الكلاسيكي) يتم إيقافه وقد لا يتم تحديثه في المستقبل.

تمكّنك الخدمة من إنشاء تدفقات بسهولة تستخدم خدمة الويب ML Studio (الكلاسيكي) المنشورة للتحليلات التنبؤية. باستخدام نشاط تنفيذ الدُفعات في التدفق، يمكنك استدعاء خدمة ويب Studio (الكلاسيكية) لعمل تنبؤات بشأن البيانات اليت تكون في دُفعة.

مع مرور الوقت، تحتاج النماذج التنبؤية في تجارب تسجيل Studio (الكلاسيكي) إلى إعادة تدريب باستخدام مجموعات بيانات إدخال جديدة. بعد الانتهاء من إعادة التدريب، تريد تحديث خدمة الويب التهديف مع نموذج التعلم الآلي إعادة تدريب. يمكنك استخدام Update Resource Activity لتحديث خدمة الويب بالنموذج المدرب حديثًا.

راجع استخدام أنشطة ML Studio (الكلاسيكي) للحصول على تفاصيل حول أنشطة Studio (الكلاسيكي) هذه.

نشاط إجراء مخزن

يمكنك استخدام نشاط SQL Server Stored Procedure في خط أنابيب Data Factory لاستدعاء إجراء مخزن في أحد مخازن البيانات التالية: Azure SQL Database، Azure Synapse Analytics، SQL Server Database في مؤسستك، أو جهاز افتراضي Azure. راجع مقالة نشاط الإجراء المخزن للحصول على مزيدٍ من التفاصيل.

نشاط Data Lake Analytics U-SQL

Data Lake Analytics U-SQL activity يشغل سكريبت U-SQL على مجموعة Azure Data Lake Analytics. راجع مقالة نشاط Data Analytics U-SQL للحصول على مزيدٍ من التفاصيل.

Azure Synapse Notebook activity

The Azure Synapse Notebook Activity in a Synapse pipeline runs a Synapse notebook in your Azure Synapse workspace. انظر تحويل البيانات بتشغيل دفتر ملاحظات Azure Synapse.

نشاط Databricks Notebook

The Azure Databricks Notebook Activity in a pipeline run a Databricks notebook in your Azure Databricks workspace. Azure Databricks هو منصة مدارة لتشغيل Apache Spark. راجع تحويل البيانات عن طريق تشغيل دفتر ملاحظات Databricks.

نشاط Databricks Jar

The Azure Databricks Jar Activity in a pipeline run a Spark Jar in your Azure Databricks cluster. Azure Databricks هو منصة مدارة لتشغيل Apache Spark. انظر تحويل البيانات عن طريق تشغيل نشاط جار في Azure Databricks.

نشاط Databricks Python

نشاط Azure Databricks Python في خط الأنابيب يشغل ملف Python في عنقود Azure Databricks الخاص بك. Azure Databricks هو منصة مدارة لتشغيل Apache Spark. انظر تحويل البيانات عن طريق تشغيل نشاط Python في Azure Databricks.

النشاط المخصص

إذا كنت بحاجة إلى تحويل البيانات بطريقة غير معتمدة من قبل Data Factory، يمكنك إنشاء نشاط مخصص بمنطق معالجة البيانات الخاص بك واستخدام النشاط الموجود في المسار. يمكنك تكوين نشاط .NET المخصص ليعمل إما باستخدام خدمة Azure Batch أو عنقود Azure HDInsight. راجع مقالة استخدام الأنشطة المخصصة للحصول على مزيدٍ من التفاصيل.

يمكنك إنشاء نشاط مخصص لتشغيل البرامج النصية R على مجموعة HDInsight الخاصة بك مع تثبيت R. انظر تشغيل سكريبت R باستخدام خطوط أنابيب Azure Data Factory وSynapse.

بيئات الحساب في Azure

إنشاء خدمة مرتبطة لبيئة الحساب ثم استخدم الخدمة المرتبطة عند تحديد نشاط تحويل. هناك نوعان معتمدان من بيئات الحوسبة.

  • On-Demand: في هذه الحالة، تكون بيئة الحوسبة خدمة مدارة بشكل كامل بواسطة الخدمة. يتم إنشاؤها تلقائياً بواسطة الخدمة قبل إرسال المهمة لمعالجة البيانات وإزالتها عند اكتمال المهمة. يمكنك تكوين الإعدادات الدقيقة لبيئة الحساب عند الطلب للتحكم فيها لتنفيذ المهمة وإدارة نظام المجموعة وإجراءات التشغيل.
  • Bring Your Own: في هذه الحالة، يمكنك تسجيل بيئة الحوسبة الخاصة بك (على سبيل المثال نظام مجموعة HDInsight) كخدمة مرتبطة. تُدار بيئة الحوسبة بواسطتك وتستخدمها الخدمة لتنفيذ الأنشطة.

راجع مقالة خدمات الحوسبة المرتبطة للتعرف على خدمات الحوسبة المدعومة.

راجع البرنامج التعليمي التالي للحصول على مثال لاستخدام نشاط التحويل: البرنامج التعليمي: تحويل البيانات باستخدام Spark