إنشاء مجموعات HDInsight باستخدام Azure Data Lake Storage Gen1 باستخدام مدخل Microsoft Azure

تعرف على كيفية استخدام مدخل Microsoft Azure لإنشاء مجموعة HDInsight مع Azure Data Lake Storage Gen1 كمساحة تخزين افتراضية أو تخزين إضافي. على الرغم من أن التخزين الإضافي اختياري لمجموعة HDInsight، فمن المستحسن تخزين بيانات عملك في حسابات التخزين الإضافية.

المتطلبات الأساسية

قبل البدء، تأكد من استيفاء المتطلبات التالية:

ملاحظة

يمكنك إنشاء كيان خدمة فقط إذا كنت مسؤولا Microsoft Entra. يجب على مسؤول Microsoft Entra إنشاء كيان خدمة قبل أن تتمكن من إنشاء مجموعة HDInsight باستخدام Data Lake Storage Gen1. أيضا، يجب إنشاء كيان الخدمة بشهادة، كما هو موضح في إنشاء كيان خدمة بشهادة.

إنشاء مجموعة HDInsight

في هذا القسم، يمكنك إنشاء مجموعة HDInsight مع Data Lake Storage Gen1 كمساحة تخزين افتراضية أو إضافية. تركز هذه المقالة فقط على جزء تكوين Data Lake Storage Gen1. للحصول على معلومات وإجراءات إنشاء نظام المجموعة العامة، راجع إنشاء مجموعات Hadoop في HDInsight.

إنشاء نظام مجموعة مع Data Lake Storage Gen1 كمساحة تخزين افتراضية

لإنشاء مجموعة HDInsight مع Data Lake Storage Gen1 كحساب تخزين افتراضي:

  1. تسجيل الدخول إلى ⁧⁩مدخل Microsoft Azure⁧⁩.

  2. اتبع إنشاء مجموعات للحصول على المعلومات العامة حول إنشاء مجموعات HDInsight.

  3. في جزء التخزين، ضمن نوع التخزين الأساسي، حدد Azure Data Lake Storage Gen1، ثم أدخل المعلومات التالية:

    إعدادات حساب تخزين HDInsight

    • حدد Data Lake Store account: حدد حساب Data Lake Storage Gen1 موجود. مطلوب حساب Data Lake Storage Gen1 موجود. راجع ⁧⁩المتطلبات الأساسية⁧⁩.
    • المسار الجذر: أدخل مسارا حيث سيتم تخزين الملفات الخاصة بالمجموعة. في لقطة الشاشة، يكون /clusters/myhdiadlcluster/، حيث يجب أن يكون مجلد /clusters موجودا، وينشئ المدخل مجلد myhdicluster . myhdicluster هو اسم نظام المجموعة.
    • الوصول إلى Data Lake Store: تكوين الوصول بين حساب Data Lake Storage Gen1 ومجموعة HDInsight. للحصول على الإرشادات، راجع تكوين الوصول Data Lake Storage Gen1.
    • حسابات تخزين إضافية: إضافة حسابات تخزين Azure كحسابات تخزين إضافية لنظام المجموعة. لإضافة حسابات Data Lake Storage Gen1 إضافية يتم ذلك عن طريق منح أذونات نظام المجموعة على البيانات في المزيد من الحسابات Data Lake Storage Gen1 أثناء تكوين حساب Data Lake Storage Gen1 كنوع التخزين الأساسي. راجع تكوين الوصول Data Lake Storage Gen1.
  4. في الوصول إلى Data Lake Store، انقر فوق تحديد، ثم تابع إنشاء نظام المجموعة كما هو موضح في إنشاء مجموعات Hadoop في HDInsight.

إنشاء نظام مجموعة مع Data Lake Storage Gen1 كمساحة تخزين إضافية

تنشئ الإرشادات التالية مجموعة HDInsight مع حساب تخزين Azure Blob كمساحة تخزين افتراضية وحساب تخزين مع Data Lake Storage Gen1 كمساحة تخزين إضافية.

لإنشاء مجموعة HDInsight مع Data Lake Storage Gen1 كحساب تخزين إضافي:

  1. تسجيل الدخول إلى ⁧⁩مدخل Microsoft Azure⁧⁩.

  2. اتبع إنشاء مجموعات للحصول على المعلومات العامة حول إنشاء مجموعات HDInsight.

  3. في جزء التخزين ، ضمن نوع التخزين الأساسي، حدد Azure Storage، ثم أدخل المعلومات التالية:

    إعدادات حساب تخزين HDInsight لتخزين إضافي

    • أسلوب التحديد - لتحديد حساب تخزين يشكل جزءا من اشتراك Azure، حدد اشتراكاتي، ثم حدد حساب التخزين. لتحديد حساب تخزين خارج اشتراك Azure، حدد مفتاح الوصول، ثم قم بتوفير المعلومات لحساب التخزين الخارجي.

    • الحاوية الافتراضية - استخدم القيمة الافتراضية أو حدد اسمك الخاص.

    • حسابات تخزين إضافية - إضافة المزيد من حسابات تخزين Azure كمساحة تخزين إضافية.

    • الوصول إلى Data Lake Store - تكوين الوصول بين حساب Data Lake Storage Gen1 ومجموعة HDInsight. للحصول على الإرشادات، راجع تكوين الوصول Data Lake Storage Gen1.

تكوين الوصول إلى Azure Data Lake Storage Gen1

في هذا القسم، يمكنك تكوين الوصول Data Lake Storage Gen1 من مجموعات HDInsight باستخدام كيان خدمة Microsoft Entra.

تحديد كيان الخدمة

من مدخل Microsoft Azure، يمكنك إما استخدام كيان خدمة موجود أو إنشاء كيان جديد.

لإنشاء كيان خدمة من مدخل Microsoft Azure:

  1. راجع إنشاء كيان الخدمة والشهادات باستخدام Microsoft Entra ID.

لاستخدام كيان خدمة موجود من مدخل Microsoft Azure:

  1. يجب أن يكون لدى كيان الخدمة أذونات المالك على حساب التخزين. راجع إعداد أذونات لكي يكون كيان الخدمة مالكا على حساب التخزين.

  2. حدد الوصول إلى Data Lake Store.

  3. في جزء الوصول Data Lake Storage Gen1، حدد استخدام موجود.

  4. حدد كيان الخدمة، ثم حدد كيان الخدمة.

  5. قم بتحميل الشهادة (ملف.pfx) المقترنة بكيان الخدمة المحدد، ثم أدخل كلمة مرور الشهادة.

    إضافة كيان الخدمة إلى مجموعة HDInsight

  6. حدد Access لتكوين الوصول إلى المجلد. راجع تكوين أذونات الملف.

إعداد أذونات لكي يكون كيان الخدمة مالكا على حساب التخزين

  1. في جزء Access Control (IAM) لحساب التخزين، انقر فوق إضافة تعيين دور.
  2. في جزء Add a role assignment حدد Role as 'owner'، وحدد SPN وانقر فوق save.

تكوين أذونات الملف

يختلف التكوين اعتمادا على ما إذا كان الحساب يستخدم كمساحة تخزين افتراضية أو حساب تخزين إضافي:

  • يستخدم كمساحة تخزين افتراضية

    • إذن على مستوى الجذر لحساب Data Lake Storage Gen1
    • إذن على المستوى الجذر لتخزين مجموعة HDInsight. على سبيل المثال، مجلد /clusters المستخدم سابقا في البرنامج التعليمي.
  • استخدم كمساحة تخزين إضافية

    • إذن في المجلدات التي تحتاج فيها إلى الوصول إلى الملفات.

لتعيين إذن في حساب التخزين مع Data Lake Storage Gen1 على مستوى الجذر:

  1. في جزء الوصول Data Lake Storage Gen1، حدد Access. يتم فتح شفرة تحديد أذونات الملف . يسرد جميع حسابات التخزين في اشتراكك.

  2. مرر الماوس (لا تنقر فوقه) فوق اسم الحساب مع Data Lake Storage Gen1 لجعل خانة الاختيار مرئية، ثم حدد خانة الاختيار.

    تحديد أذونات الملف

    بشكل افتراضي، يتم تحديد READ و WRITE و EXECUTE .

  3. انقر فوق تحديد في أسفل الصفحة.

  4. حدد تشغيل لتعيين الإذن.

  5. حدد ⁧⁩Done⁧⁩.

لتعيين إذن على مستوى جذر مجموعة HDInsight:

  1. في جزء الوصول Data Lake Storage Gen1، حدد Access. يتم فتح شفرة تحديد أذونات الملف . يسرد جميع حسابات التخزين مع Data Lake Storage Gen1 في اشتراكك.
  2. من جزء تحديد أذونات الملف، حدد حساب التخزين باسم Data Lake Storage Gen1 لإظهار محتواه.
  3. حدد جذر تخزين مجموعة HDInsight عن طريق تحديد خانة الاختيار على يسار المجلد. وفقا للقطة الشاشة السابقة، يكون جذر تخزين نظام المجموعة هو /clusters المجلد الذي حددته أثناء تحديد Data Lake Storage Gen1 كمساحة تخزين افتراضية.
  4. تعيين الأذونات على المجلد. بشكل افتراضي، يتم تحديد القراءة والكتابة والتنفيذ.
  5. انقر فوق تحديد في أسفل الصفحة.
  6. حدد ⁧⁩تشغيل⁧⁩.
  7. حدد ⁧⁩Done⁧⁩.

إذا كنت تستخدم Data Lake Storage Gen1 كمساحة تخزين إضافية، فيجب عليك تعيين إذن فقط للمجلدات التي تريد الوصول إليها من مجموعة HDInsight. على سبيل المثال، في لقطة الشاشة أدناه، يمكنك توفير الوصول فقط إلى مجلد mynewfolder في حساب تخزين مع Data Lake Storage Gen1.

تعيين أذونات كيان الخدمة إلى نظام مجموعة HDInsight

التحقق من إعداد نظام المجموعة

بعد اكتمال إعداد نظام المجموعة، في جزء نظام المجموعة، تحقق من النتائج الخاصة بك عن طريق القيام بأي من الخطوات التالية أو كليهما:

  • للتحقق من أن التخزين المقترن للمجموعة هو الحساب مع Data Lake Storage Gen1 التي حددتها، حدد حسابات التخزين في الجزء الأيمن.

    التحقق من التخزين المقترن

  • للتحقق من أن كيان الخدمة مقترن بشكل صحيح بمجموعة HDInsight، حدد Data Lake Storage Gen1 الوصول في الجزء الأيمن.

    التحقق من كيان الخدمة

أمثلة

بعد إعداد نظام المجموعة مع Data Lake Storage Gen1 كمساحة تخزين، راجع هذه الأمثلة حول كيفية استخدام مجموعة HDInsight لتحليل البيانات المخزنة في Data Lake Storage Gen1.

تشغيل استعلام Apache Hive مقابل البيانات في Data Lake Storage Gen1 (كمساحة تخزين أساسية)

لتشغيل استعلام Apache Hive، استخدم واجهة طرق عرض Hive في مدخل Ambari. للحصول على إرشادات حول كيفية استخدام طرق عرض Ambari Hive، راجع استخدام طريقة عرض Hive مع Hadoop في HDInsight.

عند العمل مع البيانات في Data Lake Storage Gen1، هناك بعض السلاسل التي يجب تغييرها.

إذا كنت تستخدم، على سبيل المثال، نظام المجموعة الذي قمت بإنشائه باستخدام Data Lake Storage Gen1 كمخزن أساسي، فإن المسار إلى البيانات هو: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. يبدو استعلام Apache Hive لإنشاء جدول من عينة البيانات المخزنة في Data Lake Storage Gen1 كالبيان التالي:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

اوصاف:

  • adl://hdiadlsg1storage.azuredatalakestore.net/هو جذر الحساب مع Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster هو جذر بيانات نظام المجموعة التي حددتها أثناء إنشاء نظام المجموعة.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ هو موقع نموذج الملف الذي استخدمته في الاستعلام.

تشغيل استعلام Apache Hive مقابل البيانات في Data Lake Storage Gen1 (كمساحة تخزين إضافية)

إذا كانت المجموعة التي قمت بإنشائها تستخدم تخزين Blob كمساحة تخزين افتراضية، فلن يتم تضمين بيانات العينة في حساب التخزين مع Data Lake Storage Gen1 المستخدمة كمساحة تخزين إضافية. في مثل هذه الحالة، قم أولا بنقل البيانات من تخزين Blob إلى حساب التخزين مع Data Lake Storage Gen1، ثم قم بتشغيل الاستعلامات كما هو موضح في المثال السابق.

للحصول على معلومات حول كيفية نسخ البيانات من تخزين Blob إلى حساب تخزين باستخدام Data Lake Storage Gen1، راجع المقالات التالية:

استخدام Data Lake Storage Gen1 مع نظام مجموعة Spark

يمكنك استخدام نظام مجموعة Spark لتشغيل مهام Spark على البيانات المخزنة في Data Lake Storage Gen1. لمزيد من المعلومات، راجع استخدام نظام مجموعة HDInsight Spark لتحليل البيانات في Data Lake Storage Gen1.

استخدام Data Lake Storage Gen1 في مخطط Storm

راجع أيضًا