تحويل المصدر في تعيين تدفقات البيانات

ينطبق على: Azure Data Factory Azure Synapse Analytics

تلميح

جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!

تتوفر تدفقات البيانات في كل من Azure Data Factory وخطوط أنابيب Azure Synapse. تنطبق هذه المقالة على تعيين تدفقات البيانات. إذا كنت جديداً في مجال التحويلات، فيرجى الرجوع إلى المقالة التمهيدية تحويل البيانات باستخدام تدفق بيانات التعيين.

يقوم تحويل المصدر بتكوين مصدر البيانات الخاص بك لتدفق البيانات. عند تصميم تدفق البيانات، تكون خطوتك الأولى هي تكوين تحويل مصدر. لإضافة مصدر، حدد خانة "Add Source" في لوحة تدفق البيانات.

يتطلب كل تدفق بيانات تحويل مصدر واحد على الأقل، ولكن يمكنك إضافة أكبر عدد من المصادر حسب الضرورة لإكمال تحويلات البيانات. يمكنك الانضمام إلى هذه المصادر مع صلة أو بحث أو تحويل اتحاد.

كل تحويل مصدر مقترن بمجموعة بيانات واحدة أو خدمة مرتبطة. تحدد مجموعة البيانات وشكل البيانات التي تريد الكتابة إليها أو القراءة منها وموقعها. إذا كنت تستخدم مجموعة بيانات مستندة إلى ملف، يمكنك استخدام أحرف البدل وقوائم الملفات في المصدر للعمل مع أكثر من ملف واحد في المرة الواحدة.

مجموعات البيانات المضمنة

أول قرار تتخذه عند إنشاء تحويل مصدر هو ما إذا كان يتم تعريف معلومات المصدر داخل عناصر مجموعة بيانات أو ضمن تحويل المصدر. تتوفر معظم التنسيقات في تنسيق واحد فقط أو الآخر. لمعرفة كيفية استخدام موصل محدد، راجع مستند الموصل المناسب.

عندما يتم اعتماد تنسيق لكل من العناصر المضمنة وفي عنصر مجموعة البيانات، يكون هناك فوائد لكليهما. عناصر مجموعة البيانات هي عناصر قابلة لإعادة الاستخدام يمكن استخدامها في تدفقات البيانات والأنشطة الأخرى مثل النسخ "Copy". هذه الكيانات القابلة لإعادة الاستخدام مفيدة بشكل خاص عند استخدام مخطط محصَّن. لا تستند مجموعات البيانات إلى "Spark". في بعض الأحيان، قد تحتاج إلى تجاوز إعدادات معينة أو إسقاط مخطط في تحويل المصدر.

يوصى بمجموعات البيانات المضمنة عند استخدام مخططات مرنة أو مثيلات مصدر لمرة واحدة أو مصادر ذات معلمات. إذا كان المصدر الخاص بك ذات معلمات كبيرة، مجموعات البيانات المضمنة تسمح لك عدم إنشاء عناصر "وهمية". تستند مجموعات البيانات المضمنة في "Spark" وخصائصها الأصلية لتدفق البيانات.

لاستخدام مجموعة بيانات مضمنة، حدد التنسيق الذي تريده في محدد "Source type". بدلاً من تحديد مجموعة بيانات مصدر، حدد الخدمة المرتبطة التي تريد الاتصال بها.

خيارات المخطط

نظرا لتعريف مجموعة بيانات مضمنة داخل تدفق البيانات، لا يوجد مخطط محدد مقترن بمجموعة البيانات المضمنة. في علامة التبويب إسقاط، يمكنك استيراد مخطط البيانات المصدر وتخزين هذا المخطط كإسقاط المصدر. في علامة التبويب هذه، يمكنك العثور على زر "خيارات المخطط" الذي يسمح لك بتحديد سلوك خدمة اكتشاف مخطط ADF.

  • استخدام المخطط المتوقع: يكون هذا الخيار مفيدا عندما يكون لديك عدد كبير من الملفات المصدر التي يقوم ADF بفحصها كمصدر. السلوك الافتراضي لـ ADF هو اكتشاف مخطط كل ملف مصدر. ولكن إذا كان لديك إسقاط محدد مسبقا مخزن بالفعل في تحويل المصدر الخاص بك، يمكنك تعيين هذا إلى صحيح ويتخطى ADF الاكتشاف التلقائي لكل مخطط. مع تشغيل هذا الخيار، يمكن لتحويل المصدر قراءة جميع الملفات بطريقة أسرع بكثير، وتطبيق المخطط المحدد مسبقًا على كل ملف.
  • السماح بانحراف المخطط: قم بتشغيل انحراف المخطط بحيث يسمح تدفق البيانات بأعمدة جديدة لم يتم تعريفها بالفعل في المخطط المصدر.
  • التحقق من صحة المخطط: يؤدي تعيين هذا الخيار إلى فشل تدفق البيانات إذا كان أي عمود ونوع معرفين في الإسقاط لا يتطابقان مع المخطط المكتشف للبيانات المصدر.
  • استنتاج أنواع الأعمدة المنجرفة: عند تحديد أعمدة منجرفة جديدة بواسطة ADF، يتم تحويل هذه الأعمدة الجديدة إلى نوع البيانات المناسب باستخدام الاستدلال التلقائي لنوع ADF.

تعرض لقطة الشاشة مضمّنة محددة.

مساحة عمل قاعدة البيانات (مساحات عمل Synapse فقط)

في مساحات عمل Azure Synapse، يوجد خيار إضافي في تحويلات مصدر تدفق البيانات التي تسمى Workspace DB. يسمح لك هذا باختيار قاعدة بيانات مساحة عمل مباشرة من أي نوع متوفر كبيانات مصدر دون الحاجة إلى خدمات أو مجموعات بيانات مرتبطة إضافية. يمكن أيضا الوصول إلى قواعد البيانات التي تم إنشاؤها من خلال قوالب قاعدة بيانات Azure Synapse عند تحديد Workspace DB.

تعرض لقطة الشاشة workspacedb المحددة.

أنواع المصادر المدعومة

يتبع تعيين تدفق البيانات نهج استخراج وتحميل وتحويل (ELT) ويعمل مع مجموعات بيانات التقسيم المرحلي الموجودة جميعها في Azure. حالياً، يمكن استخدام مجموعات البيانات التالية في تحويل المصدر.

الموصل Format مجموعة البيانات/ المضمنة
Amazon S3 Avro
نص Delimited
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Appfigures (معاينة) -/✓
Asana (إصدار أولي) -/✓
مخزن البيانات الثنائية كبيرة الحجم لـ Azure Avro
نص Delimited
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
قاعدة بيانات Azure Cosmos لـ NoSQL ✓/-
Azure Data Lake Storage الجيل الأول Avro
نص Delimited
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Data Lake Storage Gen2 Avro
نموذج البيانات العامة
نص Delimited
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
-/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Database for MySQL ✓/✓
Azure Database for PostgreSQL ✓/✓
Azure Data Explorer ✓/✓
قاعدة بيانات Azure SQL ✓/✓
مثيل Azure SQL المدار ✓/✓
Azure Synapse Analytics ✓/✓
data.world (إصدار أولي) -/✓
Dataverse ✓/✓
Dynamics 365 ✓/✓
Dynamics CRM ✓/✓
أوراق Google (معاينة) -/✓
خلية -/✓
Quickbase (إصدار أولي) -/✓
SFTP Avro
نص Delimited
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Smartsheet (إصدار أولي) -/✓
البلورة الثلجية ✓/✓
SQL Server ✓/✓
REST ✓/✓
TeamDesk (إصدار أولي) -/✓
Twilio (إصدار أولي) -/✓
Zendesk (إصدار أولي) -/✓

الإعدادات الخاصة بهذه الموصلات موجودة في علامة التبويب "Source options" توجد أمثلة البرامج النصية لتدفق المعلومات والبيانات على هذه الإعدادات في وثائق الموصل.

Azure Data Factory والبنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بـ Synapse الوصول إلى أكثر من 90 من الموصلات الأصلية. لتضمين بيانات من تلك المصادر الأخرى في تدفق البيانات خاصتك، استخدم Copy Activity لتحميل تلك البيانات في إحدى مناطق التشغيل المرحلي المعتمدة.

إعدادات مصدر البيانات

بعد إضافة مصدر، قم بتكوينه عبر علامة التبويب "Source settings" هنا يمكنك اختيار أو إنشاء مجموعة بيانات نقاط المصدر في. يمكنك أيضاً تحديد خيارات المخطط وأخذ العينات للبيانات.

يمكن تكوين قيم التطوير لمعلمات مجموعة البيانات في إعداد تتبع الأخطاء. (يجب تشغيل وضع تتبع الأخطاء.)

لقطة شاشة تظهر صفحة الإعدادات.

اسم تدفق الإنتاج: اسم تحويل المصدر.

"Source type": اختر ما إذا كنت تريد استخدام مجموعة بيانات مضمنة أو كائن مجموعة بيانات موجود.

"Test connection": اختبار ما إذا كان يمكن بنجاح الاتصال بخدمة Spark لتدفق البيانات إلى الخدمة المرتبطة المستخدمة في مجموعة البيانات المصدر. يجب تشغيل وضع تتبع الأخطاء لتمكين هذه الميزة.

انحراف المخطط: انحراف المخطط هو قدرة الخدمة على التعامل بشكل أصلي مع المخططات المرنة في تدفقات البيانات الخاصة بك دون الحاجة إلى تحديد تغيير حالة العمود بشكل صريح.

  • حدد خانة الاختيار السماح بانحراف المخطط إذا كانت الأعمدة المصدر تتغير كثيرا. يسمح هذا الإعداد لجميع حقول المصدر الواردة بالتدفق خلال التحويلات إلى المصدر.

  • يؤدي تحديد "Infer drifted column types" إلى توجيه الخدمة للكشف عن أنواع البيانات وتعريفها لكل عمود جديد تم اكتشافه. مع إيقاف تشغيل هذه الميزة، تكون جميع الأعمدة المنجرفة من سلسلة النوع.

التحقق من صحة المخطط: إذا تم تحديد التحقق من صحة المخطط ، يفشل تدفق البيانات في التشغيل إذا لم تتطابق بيانات المصدر الواردة مع المخطط المحدد لمجموعة البيانات.

"Skip line count": يحدد الحقل تخطي عدد الأسطر عدد الأسطر التي يجب تجاهلها في بداية مجموعة البيانات.

"Sampling": تمكين "Sampling" للحد من عدد الصفوف من المصدر. استخدم هذا الإعداد عند اختبار أو أخذ عينة بيانات من المصدر لأغراض تتبع الأخطاء. يُعد ذلك مفيد جداً عند تنفيذ تدفق البيانات في وضع تتبع الأخطاء من البنية الأساسية لبرنامج ربط العمليات التجارية.

للتحقق من صحة المصدر الخاص بك تكوين بشكل صحيح، تشغيل وضع تتبع الأخطاء وجلب الإصدار الأولي للبيانات. لمزيد من المعلومات، انظر نمط تتبع الأخطاء.

إشعار

عند تشغيل وضع التصحيح، يقوم تكوين حد الصف في إعدادات تتبع الأخطاء بالكتابة فوق إعداد أخذ العينات في المصدر أثناء معاينة البيانات.

خيارات المصدر

تحتوي علامة التبويب "Source options" على إعدادات خاصة بالموصل والتنسيق المختار. لمزيد من المعلومات والأمثلة، راجع وثائق الموصلذات الصلة. يتضمن ذلك تفاصيل مثل مستوى العزل لمصادر البيانات هذه التي تدعمها (مثل خوادم SQL المحلية وقواعد بيانات Azure SQL ومثيلات Azure SQL المدارة)، وإعدادات مصدر البيانات الأخرى المحددة أيضا.

إسقاط

مثل المخططات في مجموعات البيانات، يحدد الإسقاط في مصدر أعمدة البيانات وأنواعها وتنسيقاتها من البيانات المصدر. بالنسبة لمعظم أنواع مجموعات البيانات، مثل SQL وParquet، يتم إصلاح الإسقاط في مصدر ليعكس المخطط المُحدد في مجموعة البيانات. عندما لا تكون الملفات المصدر مكتوبة بقوة (على سبيل المثال، ملفات .csv المسطحة بدلاً من ملفات Parquet)، يُمكنك تحديد أنواع البيانات لكل حقل في تحويل المصدر.

تعرض لقطة شاشة الإعدادات في علامة التبويب

إذا لم يتضمن الملف النصي مخططا محددا، فحدد Detect data type بحيث تقوم الخدمة بنماذج أنواع البيانات واستدلالها. حدد "Define default format" للانتقاء التلقائي لتنسيقات البيانات الافتراضية.

"Reset schema" إعادة تعيين الإسقاط إلى ما هو معرف في مجموعة البيانات المشار إليها.

يسمح لك الكتابة فوق المُخطط بتعديل أنواع البيانات المتوقعة هنا المصدر، والكتابة فوق أنواع البيانات المعرفة بالمخطط. يمكنك بدلاً من ذلك تعديل أنواع بيانات العمود في تحويل عمود مشتق من انتقال البيانات من الخادم. استخدم تحويل التحديد لتعديل أسماء الأعمدة.

استيراد مخطط

حدد الزر "Import schema" في علامة التبويب "Projection" لاستخدام نظام مجموعة تتبع الأخطاء نشط لإنشاء إسقاط مخطط. وهي متوفرة في كل نوع مصدر. يتجاوز استيراد المخطط هنا الإسقاط المحدد في مجموعة البيانات. لن يتم تغيير كائن مجموعة البيانات.

استيراد المخطط مفيد في مجموعات البيانات مثل Avro وAzure Cosmos DB التي تدعم بنيات البيانات المعقدة التي لا تتطلب وجود تعريفات المخطط في مجموعة البيانات. بالنسبة لمجموعات البيانات المُضمنة، يعد استيراد المخطط هو الطريقة الوحيدة للإشارة إلى بيانات تعريف الأعمدة دون انجراف المخطط.

تحسين تحويل المصدر

تسمح علامة التبويب "Optimize" بتحرير معلومات القسم في كل خطوة تحويل. في معظم الحالات، يتم تحسين استخدام التقسيم الحالي لبنية التقسيم المثالية لمصدر.

إذا كنت تقرأ من مصدر قاعدة بيانات Azure SQL، فمن المحتمل أن يقرأ تقسيم المصدر المخصص البيانات أسرع. تقرأ الخدمة استعلامات كبيرة عن طريق إجراء اتصالات بقاعدة البيانات الخاصة بك بالتوازي. يمكن إجراء هذا التقسيم المصدر على عمود أو باستخدام الاستعلام.

توضح لقطة الشاشة إعدادات قسم المصدر.

لمزيد من المعلومات حول التحسين ضمن تدفق بيانات التعيين، راجع "Optimize tab".

ابدأ في إنشاء تدفق البيانات الخاص بك مع تحويل عمود مشتق والتحويل المحدد.