استخدام Azure Data Lake Storage Gen1 لمتطلبات البيانات الضخمة

ملاحظة

تم الآن إيقاف Azure Data Lake Storage Gen1. انظر إعلان التقاعد هنا. لم يعد من الممكن الوصول إلى الموارد Data Lake Storage Gen1. إذا كنت بحاجة إلى مساعدة خاصة، فالرجاء الاتصال بنا.

هناك أربع مراحل رئيسية في معالجة البيانات الضخمة:

  • استيعاب كميات كبيرة من البيانات في مخزن بيانات، في الوقت الحقيقي أو على دفعات
  • معالجة البيانات
  • تنزيل البيانات
  • تصور البيانات

في هذه المقالة، ننظر إلى هذه المراحل فيما يتعلق Azure Data Lake Storage Gen1 لفهم الخيارات والأدوات المتاحة لتلبية احتياجات البيانات الضخمة الخاصة بك.

استيعاب البيانات في Data Lake Storage Gen1

يسلط هذا القسم الضوء على المصادر المختلفة للبيانات والطرق المختلفة التي يمكن من خلالها استيعاب تلك البيانات في حساب Data Lake Storage Gen1.

استيعاب البيانات في Data Lake Storage Gen1

البيانات المخصصة

يمثل هذا مجموعات بيانات أصغر تستخدم لنماذج نموذجية لتطبيق بيانات كبيرة. هناك طرق مختلفة لاستيعاب البيانات المخصصة اعتمادا على مصدر البيانات.

مصدر البيانات استيعابه باستخدام
الكمبيوتر المحلي
كائن التخزين الثنائي للبيانات الكبيرة في Azure

بيانات تم دفقها

يمثل هذا البيانات التي يمكن إنشاؤها بواسطة مصادر مختلفة مثل التطبيقات والأجهزة وأجهزة الاستشعار وما إلى ذلك. يمكن استيعاب هذه البيانات في Data Lake Storage Gen1 من خلال مجموعة متنوعة من الأدوات. عادة ما تلتقط هذه الأدوات البيانات وتعالجها على أساس حدث تلو الآخر في الوقت الفعلي، ثم تكتب الأحداث على دفعات في Data Lake Storage Gen1 بحيث يمكن معالجتها بشكل أكبر.

فيما يلي الأدوات التي يمكنك استخدامها:

  • Azure Stream Analytics - يمكن كتابة الأحداث التي تم استيعابها في مراكز الأحداث إلى Azure Data Lake Storage Gen1 باستخدام إخراج Azure Data Lake Storage Gen1.
  • EventProcessorHost – يمكنك تلقي الأحداث من مراكز الأحداث ثم كتابتها إلى Data Lake Storage Gen1 باستخدام Data Lake Storage Gen1 .NET SDK.

البيانات العلائقية

يمكنك أيضا الحصول على البيانات من قواعد البيانات الارتباطية. على مدى فترة من الزمن، تجمع قواعد البيانات الارتباطية كميات هائلة من البيانات التي يمكن أن توفر رؤى رئيسية إذا تمت معالجتها من خلال مسار البيانات الضخمة. يمكنك استخدام الأدوات التالية لنقل هذه البيانات إلى Data Lake Storage Gen1.

بيانات سجل خادم الويب (تحميل باستخدام تطبيقات مخصصة)

يتم استدعاء هذا النوع من مجموعة البيانات على وجه التحديد لأن تحليل بيانات سجل خادم الويب هو حالة استخدام شائعة لتطبيقات البيانات الضخمة ويتطلب تحميل كميات كبيرة من ملفات السجل إلى Data Lake Storage Gen1. يمكنك استخدام أي من الأدوات التالية لكتابة البرامج النصية أو التطبيقات الخاصة بك لتحميل مثل هذه البيانات.

لتحميل بيانات سجل خادم الويب، وأيضا لتحميل أنواع أخرى من البيانات (مثل بيانات المشاعر الاجتماعية)، يعد كتابة البرامج النصية/التطبيقات المخصصة الخاصة بك نهجا جيدا لأنه يمنحك المرونة لتضمين مكون تحميل البيانات كجزء من تطبيق البيانات الضخمة الأكبر. في بعض الحالات، قد تتخذ هذه التعليمة البرمجية شكل برنامج نصي أو أداة سطر أوامر بسيطة. في حالات أخرى، يمكن استخدام التعليمات البرمجية لدمج معالجة البيانات الضخمة في تطبيق عمل أو حل.

البيانات المقترنة بنظام مجموعات Azure HDInsight

تدعم معظم أنواع مجموعات HDInsight (Hadoop وHBase وStorm) Data Lake Storage Gen1 كمستودع لتخزين البيانات. تصل مجموعات HDInsight إلى البيانات من Azure Storage Blobs (WASB). للحصول على أداء أفضل، يمكنك نسخ البيانات من WASB إلى حساب Data Lake Storage Gen1 مقترن بنظام المجموعة. يمكنك استخدام الأدوات التالية لنسخ البيانات.

البيانات المخزنة في مجموعات Hadoop المحلية أو IaaS

يمكن تخزين كميات كبيرة من البيانات في مجموعات Hadoop الموجودة، محليا على الأجهزة التي تستخدم HDFS. قد تكون مجموعات Hadoop في توزيع محلي أو قد تكون داخل نظام مجموعة IaaS على Azure. قد تكون هناك متطلبات لنسخ هذه البيانات إلى Azure Data Lake Storage Gen1 لنهج لمرة واحدة أو بطريقة متكررة. هناك خيارات مختلفة يمكنك استخدامها لتحقيق ذلك. فيما يلي قائمة بالبدائل والمفاضلات المرتبطة بها.

النهج التفاصيل المزايا الاعتبارات
استخدام Azure Data Factory (ADF) لنسخ البيانات مباشرة من مجموعات Hadoop إلى Azure Data Lake Storage Gen1 يدعم ADF HDFS كمصدر بيانات يوفر ADF دعما خارج الصندوق ل HDFS وإدارة ومراقبة من الدرجة الأولى من البداية إلى النهاية يتطلب نشر بوابة إدارة البيانات محليا أو في نظام مجموعة IaaS
تصدير البيانات من Hadoop كملفات. ثم انسخ الملفات إلى Azure Data Lake Storage Gen1 باستخدام الآلية المناسبة. يمكنك نسخ الملفات إلى Azure Data Lake Storage Gen1 باستخدام: سريع للبدء. يمكنه إجراء عمليات تحميل مخصصة عملية متعددة الخطوات تتضمن تقنيات متعددة. ستنمو الإدارة والمراقبة لتكون تحديا بمرور الوقت نظرا للطبيعة المخصصة للأدوات
استخدم Distcp لنسخ البيانات من Hadoop إلى Azure Storage. ثم انسخ البيانات من Azure Storage إلى Data Lake Storage Gen1 باستخدام الآلية المناسبة. يمكنك نسخ البيانات من Azure Storage إلى Data Lake Storage Gen1 باستخدام: يمكنك استخدام أدوات مفتوحة المصدر. عملية متعددة الخطوات تتضمن تقنيات متعددة

مجموعات بيانات كبيرة حقا

لتحميل مجموعات البيانات التي تتراوح في عدة تيرابايت، يمكن أن يكون استخدام الأساليب الموضحة أعلاه بطيئا ومكلفة في بعض الأحيان. في مثل هذه الحالات، يمكنك استخدام الخيارات أدناه.

  • استخدام Azure ExpressRoute. يتيح لك Azure ExpressRoute إنشاء اتصالات خاصة بين مراكز بيانات Azure والبنية الأساسية في أماكن العمل الخاصة بك. يوفر هذا خيارا موثوقا به لنقل كميات كبيرة من البيانات. لمزيد من المعلومات، راجع وثائق Azure ExpressRoute.

  • تحميل البيانات "دون اتصال". إذا لم يكن استخدام Azure ExpressRoute ممكنا لأي سبب من الأسباب، يمكنك استخدام خدمة Azure Import/Export لشحن محركات الأقراص الثابتة ببياناتك إلى مركز بيانات Azure. يتم تحميل بياناتك أولا إلى Azure Storage Blobs. يمكنك بعد ذلك استخدام Azure Data Factory أو أداة AdlCopy لنسخ البيانات من Azure Storage Blobs إلى Data Lake Storage Gen1.

    ملاحظة

    أثناء استخدام خدمة الاستيراد/التصدير، يجب ألا تكون أحجام الملفات الموجودة على الأقراص التي تقوم بشحنها إلى مركز بيانات Azure أكبر من 195 غيغابايت.

معالجة البيانات المخزنة في Data Lake Storage Gen1

بمجرد توفر البيانات في Data Lake Storage Gen1 يمكنك تشغيل التحليل على تلك البيانات باستخدام تطبيقات البيانات الضخمة المدعومة. حاليا، يمكنك استخدام Azure HDInsight وAzure Data Lake Analytics لتشغيل مهام تحليل البيانات على البيانات المخزنة في Data Lake Storage Gen1.

تحليل البيانات في Data Lake Storage Gen1

يمكنك إلقاء نظرة على الأمثلة التالية.

تنزيل البيانات من Data Lake Storage Gen1

قد تحتاج أيضا إلى تنزيل البيانات أو نقلها من Azure Data Lake Storage Gen1 لسيناريوهات مثل:

  • نقل البيانات إلى مستودعات أخرى للواجهة مع مسارات معالجة البيانات الحالية. على سبيل المثال، قد ترغب في نقل البيانات من Data Lake Storage Gen1 إلى قاعدة بيانات Azure SQL أو SQL Server.
  • قم بتنزيل البيانات إلى الكمبيوتر المحلي للمعالجة في بيئات IDE أثناء إنشاء نماذج أولية للتطبيق.

بيانات الخروج من بيانات Data Lake Storage Gen1

في مثل هذه الحالات، يمكنك استخدام أي من الخيارات التالية:

يمكنك أيضا استخدام الأساليب التالية لكتابة البرنامج النصي/التطبيق الخاص بك لتنزيل البيانات من Data Lake Storage Gen1.

تصور البيانات في Data Lake Storage Gen1

يمكنك استخدام مزيج من الخدمات لإنشاء تمثيلات مرئية للبيانات المخزنة في Data Lake Storage Gen1.

تصور البيانات في Data Lake Storage Gen1