ما هو HDInsight؟

مكتمل

وقد أدت الأحجام الضخمة، والتنوع، والسرعة الكبيرة التي يتم بها توليد البيانات اليوم إلى الحاجة إلى استخدام أنظمة قادرة على العمل بفعالية وكفاءة مع البيانات شبه وغير منظمة البنية التي تم إنشاؤها. قامت أنظمة إدارة قاعدة البيانات الترابطية التقليدية بإجراء المحاولات لمعالجة «البيانات الكبرى» وتخزينها وتحليلها. ولكن، كان عالم البرمجيات مفتوحة المصدر (OSS) هو الذي يتم الاختراق من خلاله وتستخدم برمجيات مفتوحة المصدر معدات السلع الأساسية بطريقة موزعة، مقترنة ببرمجيات لتوسيع نطاق البيانات والتحليلات بما يتجاوز الحدود المفروضة على الخوادم الفردية.

البرمجيات مفتوحة المصدر متاحة مجانًا للمنظمات والأفراد على السواء لاستخدامها. وقد أدى عدم وجود إدارة ودعم للبرمجيات مفتوحة المصدر في الماضي إلى جعل من الصعب على بعض المؤسسات اعتمادها. مع ظهور السحابة، يستضيف العديد من مزودي الخدمات السحابية هذه الخدمات ويقدمون الدعم المنظم للمؤسسات التي تستفيد من تقنيات البرمجيات مفتوحة المصدر. وهذا الاقتراح خاضع للمنظمات لجني فوائد البرمجيات مفتوحة المصدر دون تكبد تكاليف إدارتها ودعمها. ومن الشائع أن نرى البرمجيات مفتوحة المصدر في مجال البيانات الضخمة. في هذه المساحة، توجد بعض التقنيات ليس فقط لمعالجة وتخزين البيانات، ولكن أيضًا لإجراء التحليلات. تتيح تحليلات OSS استراتيجية تطبيق مفتوحة متعددة السحابات غير مرتبطة ببائع سحابة واحد. توفر إمكانية النقل سواء كنت بحاجة إلى نقل الحلول من الوضع محلي إلى السحابة، أو بين بائعي سحابات مختلفين.

إحدى التقنيات التحليلية الأساسية للبرمجيات مفتوحة المصدر المستخدمة في حلول البيانات الضخمة هي Hadoop. عادة ما يخزن البيانات في نظام الملفات الموزعة Hadoop (HDFS) ويستخدم شبكة نظام مجموعة من أجهزة الكمبيوتر السلعية، مع نموذج برمجة يسمى MapReduce. يمكّن هذا النموذج من معالجة توزيع مجموعات كبيرة من البيانات في تدفق بيانات خطي. لتحسين الأداء، تتم بنية Apache Spark على رأس القدرات المعمارية Hadoop ولكن يستبدل نموذج MapReduce بمجموعة البيانات الموزعة المرنة (RDD). يوفر RDD مشغل بيانات في الذاكرة أسرع بكثير.

تجدر الإشارة إلى أن تحليلات البرمجيات مفتوحة المصدر قد تجاوزت التطبيق التقليدي لحلول البيانات الضخمة باستخدام Hadoop وSpark. تتضمن الآن تحليلات برمجيات OSS مجموعة واسعة من البرامج، بما في ذلك ما يلي:

  • Kafka وFlink لتصورات البث
  • Presto وKylin كطبقات تجريد SQL
  • طبقات الذكاء الاصطناعي المضافة لـ H20.ai وDataiku

Azure HDInsight هي خدمة تحليلات مُدارة كاملة الطيف ومفتوحة المصدر في السحابة للمؤسسات. في Microsoft، يتم تنفيذ تحليلات البرمجيات مفتوحة المصدر ضمن Azure HDInsight. يمكنك استخدام أطر عمل مفتوحة المصدر مثل Hadoop وApache Spark وApache Hive و LLAP وApache Kafka. يمكنك أيضا الحصول على فوائد الأمان على مستوى المؤسسة وقدرات المراقبة وخيارات التوفر العالية المتوقعة من خدمة مستضافة في Azure. تعتبر Azure HDInsight أيضًا قابلة للتوسيع وللتخصيص للتعامل مع مجموعة من تصورات العملاء.