البرنامج التعليمي: بناء المسار الأول لتحويل البيانات باستخدام نظام مجموعة Hadoop

ملاحظة

يطبق هذا البند على الإصدار 1 من Data Factory. إذا كنت تستخدم الإصدار الحالي من خدمةData Factory، فراجع التشغيل السريع: إنشاء مصنع بيانات باستخدام Azure Data Factory.

في هذا البرنامج التعليمي، يمكنك إنشاء أول مصنع بيانات Azure مع مسار البيانات. يحول المسار بيانات الإدخال عن طريق تشغيل برنامج نصي Apache Hive على نظام مجموعة Azure HDInsight (Hadoop) لإنتاج بيانات الإخراج.

توفر هذه المقالة نظرة عامة والمتطلبات الأساسية للبرنامج التعليمي. بعد إكمال المتطلبات الأساسية، يمكنك إجراء البرنامج التعليمي باستخدام واحدة من الأدوات التالية / SDKs: Visual Studio، PowerShell، وقالب Resource Manager، وREST API. حدد أحد الخيارات الموجودة في القائمة المنسدلة في البداية (أو) الارتباطات الموجودة في نهاية هذه المقالة لإجراء البرنامج التعليمي باستخدام أحد هذه الخيارات.

نظرة عامة على البرنامج التعليمي

في هذا البرنامج التعليمي، يمكنك تنفيذ الخطوات التالية:

  1. إنشاء data factory. يمكن لمصنع البيانات أن يحتوي على مسار واحد أو أكثر من المسارات التي تنقل البيانات وتحولها.

    في هذا البرنامج التعليمي، يمكنك إنشاء مسار واحد في مصنع البيانات.

  2. إنشاء مسار. يمكن أن يكون لمسار واحد أو أكثر من الأنشطة (أمثلة: نشاط النسخ، نشاط HDInsight Hive). يستخدم هذا النموذج نشاط HDInsight Hive الذي يقوم بتشغيل برنامج Apache Hive النصي على نظام مجموعةHDInsight Hadoop. يقوم البرنامج النصي أولاً بإنشاء جدول يشير إلى بيانات سجل الويب الخام المخزنة في مخزن Azure للكائنات الثنائية كبيرة الحجم ثم يقسم البيانات الأولية حسب السنة والشهر.

    في هذا البرنامج التعليمي، يستخدم المسار نشاط Apache Hive لتحويل البيانات عن طريق تشغيل استعلام Apache Hive على نظام مجموعة Azure HDInsight Hadoop.

  3. أنشئ الخدمة ذات الصلة. تقوم بإنشاء خدمة مرتبطة لربط مخزن بيانات أو خدمة حساب بمصنع البيانات. يحتفظ مخزن البيانات مثل تخزين Azure ببيانات الإدخال/الإخراج للأنشطة في المسار. خدمة حساب مثل عمليات مجموعة HDInsight Hadoop/تحويل البيانات.

    يمكنك في هذه البرنامج التعليمي، إنشاء اثنتين من الخدمات المرتبطة من Azure Storage وAzure HDInsight. تربط خدمة تخزين Azure المرتبطة بحساب تخزين Azure الذي يحتفظ ببيانات الإدخال/الإخراج بمصنع البيانات. تربط خدمة Azure HDInsight المرتبطة نظام مجموعة Azure HDInsight المستخدمة لتحويل البيانات إلى مصنع البيانات.

  4. إنشاء مجموعات بيانات إدخالات وإخراجات. تمثل مجموعة بيانات الإدخال إدخال نشاط في المسار وتمثل مجموعة بيانات الإخراج إخراج النشاط.

    في هذا البرنامج التعليمي، تحدد مجموعات بيانات الإدخال والإخراج مواقع بيانات الإدخال والإخراج في تخزين مخزن Azure للكائنات الثنائية كبيرة الحجم. تحدد الخدمة المرتبطة بتخزين Azure ما يتم استخدام حساب تخزين Azure. تحدد مجموعة بيانات الإدخال مكان وجود ملفات الإدخال وتحدد مجموعة بيانات الإخراج مكان وضع ملفات الإخراج.

راجع مقالة مقدمة إلى Azure Data Factory.للحصول على نظرة عامة مفصلة عن Azure Data Factory.

إليك عرض الرسم التخطيطي لعينة مصنع البيانات الذي أنشأته في هذا البرنامج التعليمي. يحتوي MyFirstPipeline على نشاط واحد من النوع Hive يستهلك مجموعة بيانات AzureBlobInput كإدخال وينتج مجموعة بيانات AzureBlobOutput كإخراج.

عرض الرسم التخطيطي في البرنامج التعليمي عن Data Factory

في هذا البرنامج التعليمي، يحتوي inputdata في مجلد adfgetstarted في حاوية مخزن Azure للكائنات الثنائية كبيرة الحجم على ملف واحد يسمى input.log. يحتوي ملف السجل هذا على إدخالات من ثلاثة أشهر: يناير، وفبراير، ومارس لعام 2016. فيما يلي عينات الصفوف لكل شهر في ملف الإدخال.

2016-01-01,02:01:09,SAMPLEWEBSITE,GET,/blogposts/mvc4/step2.png,X-ARR-LOG-ID=2ec4b8ad-3cf0-4442-93ab-837317ece6a1,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,53175,871
2016-02-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871
2016-03-01,02:01:10,SAMPLEWEBSITE,GET,/blogposts/mvc4/step7.png,X-ARR-LOG-ID=d7472a26-431a-4a4d-99eb-c7b4fda2cf4c,80,-,1.54.23.196,Mozilla/5.0+(Windows+NT+6.3;+WOW64)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/31.0.1650.63+Safari/537.36,-,http://weblogs.asp.net/sample/archive/2007/12/09/asp-net-mvc-framework-part-4-handling-form-edit-and-post-scenarios.aspx,\N,200,0,0,30184,871

عند معالجة الملف بواسطة مسار مع نشاط HDInsight Hive، يقوم النشاط بتشغيل برنامج Apache Hive النصي على نظام مجموعة HDInsight التي تقسم بيانات الإدخال حسب السنة والشهر. يقوم البرنامج النصي بإنشاء ثلاثة مجلدات إخراج التي تحتوي على ملف مع إدخالات من كل شهر.

adfgetstarted/partitioneddata/year=2016/month=1/000000_0
adfgetstarted/partitioneddata/year=2016/month=2/000000_0
adfgetstarted/partitioneddata/year=2016/month=3/000000_0

من عينة السطور الموضحة أعلاه، تتم كتابة الجلد الأول (مع 2016-01-01) في الملف 000000_0 في الشهر = مجلد واحد. وبالمثل، تتم كتابة المجلد الثاني إلى الملف في الشهر = مجلدين ويتم كتابة المجلد الثالث في الملف في الشهر = 3 مجلدات.

المتطلبات الأساسية

قبل أن تبدأ هذا البرنامج التعليمي، يجب أن يكون لديك المتطلبات الأساسية التالية:

  1. اشتراك Azure - إذا لم يكن لديك اشتراك على Azure، يمكنك إنشاء حساب تجريبي مجاني في غضون دقيقتين فقط. راجع المقالة تجربة مجانية حول كيفية الحصول على حساب تجريبي مجاني.
  2. تخزين Azure – يمكنك استخدام حساب تخزين Azure لتخزين البيانات في هذا البرنامج التعليمي. إذا لم يكن لديك حساب تخزين Azure للأغراض العامة، فيمكنك مراجعة مقالة إنشاء حساب تخزين. بعد إنشاء حساب التخزين، لاحظ أسفل اسم الحساب ومفتاح الوصول. للحصول على معلومات حول كيفية استرداد مفاتيح الوصول إلى حساب التخزين، راجع إدارة مفاتيح الوصول إلى حساب التخزين.
  3. قم بتنزيل ومراجعة ملف استعلام Apache Hive (HQL) الموجود في: https://adftutorialfiles.blob.core.windows.net/hivetutorial/partitionweblogs.hql. يقوم هذا الاستعلام بتحويل بيانات الإدخال لإنتاج بيانات الإخراج.
  4. قم بتنزيل ومراجعة نموذج ملف الإدخال (input.log) الموجود في: https://adftutorialfiles.blob.core.windows.net/hivetutorial/input.log
  5. في هذا القسم، يمكنك إنشاء حاوية كائن ثنائي كبير الحجم المسماة adftutorial في تخزين مخزن Azure للكائنات الثنائية كبيرة الحجم الخاص بك.
  6. قم بتحميل ملف partitionweblogs.hql إلى المجلد script في الحاوية adfgetstarted. استخدم أدوات مثل Microsoft Azure Storage Explorer.
  7. قم بتحميل ملف input.log إلى المجلد inputdata في الحاوية adfgetstarted.

بعد إكمال المتطلبات الأساسية، حدد إحدى الأدوات/مجموعات SDK التالية لإجراء البرنامج التعليمي:

يوفر Visual Studio طريقة واجهة المستخدم الرسومية لبناء مصانع البيانات الخاصة بك. بينما توفر خيارات PowerShell وقالب Resource Manager وREST API طريقة البرمجة البرمجية/البرمجة لبناء مصانع البيانات الخاصة بك.

ملاحظة

يحول مسار البيانات في هذا البرنامج التعليمي بيانات الإدخال لإنتاج بيانات الإخراج. لا يقوم بنسخ البيانات من مخزن بيانات المصدر إلى مخزن بيانات الوجهة. للحصول على برنامج تعليمي عن كيفية نسخ البيانات باستخدام Azure Data Factory، راجع البرنامج التعليمي: نسخ البيانات من Blob Storage إلى قاعدة بيانات SQL.

يمكنك ربط نشاطين (بحيث يتم تشغيل نشاط بعد الآخر) عن طريق تعيين مجموعة بيانات الإخراج لنشاط واحد كمجموعة بيانات الإدخال للنشاط الآخر. مراجعة الجدولة والتنفيذ في Data Factory، لمزيد من المعلومات.