مقدمة

مكتمل

باستخدام Azure HDInsight مع Apache Kafka وApache Spark، يمكنك إنشاء مسارات وتطبيقات تحليلات البيانات المتدفقة في الوقت الحقيقي على السحابة.

Apache Kafka هو نظام مراسلة موزع يأخذ البيانات المتدفقة الواردة من أنظمة متعددة، ويتيحها على تطبيقات أخرى في الوقت الحقيقي. يعمل Apache Kafka من خلال إنشاء قائمة انتظار من البيانات التي تم ترتيبها، ثم نسخ البيانات عبر العديد من الأجهزة بحيث لا توجد نقطة تعطل واحدة، وإتاحتها لما يشار إليه بالناشرين أو المستهلكين. الناشرون هم العملاء الذين ينشئون الرسائل ويضيفونها إلى قائمة انتظار Kafka، ويتلقى المستهلكون الرسائل بناءً على اشتراكاتهم.

Apache Spark هو نظام معالجة متوازية يتيح لك أخذ البيانات من أنظمة مثل Apache Kafka، وتحويل البيانات والتفاعل معها. Apache Kafka يمكنك من استغلال وحفظ البيانات، ويمكنك Apache Spark من تعديل ومعالجة البيانات. عند استخدامهما معًا، يمكن لـ Spark استيعاب دفعات صغيرة أو تدفقات مستمرة من البيانات من Kafka، ومعالجتها في الوقت الحقيقي باستخدام ما يسمى الدفق المهيكل. عندما تنفذ الشركات الدفق المهيكل، يمكنها استخدام بنية واحدة لمعالجة بيانات الدفعة، أو البيانات المتدفقة في الوقت الحقيقي، أو مزيج من الاثنين، والتي تمكن الشركات من رفع مستوى تطبيقاتها؛ لأنها تنتقل من معالجة الدفعة لتشمل المعالجة في الوقت الحقيقي، دون الحاجة إلى تعلم، أو تنفيذ أطر عمل مختلفة.

باستخدام Apache Kafka وApache Spark على Azure HDInsight، يمكنك إنشاء هذه البنية في غضون دقائق، ويمكنك الاستفادة من قابلية التوسع وقابلية الوصول العالية لمزود الخدمات السحابية عبر الإنترنت. كما يمكِّن ذلك الشركات التي أنشأت تطبيقات Kafka وSpark داخل موقع الشركة من ترحيل أحمال العمل هذه إلى السحابة بسهولة أكبر.

مع عملك كمهندس بيانات في الصناعة المصرفية، تحتاج إلى أن تكون قادرًا على بدء معالجة البيانات المتدفقة وبيانات الدفعة الواردة مع زمن انتقال قليل جدًا، وتعتقد أن Apache Spark وApache Kafka ربما تكون الأدوات المناسبة لهذه المهمة.

الأهداف التعليمية

في نهاية هذه الوحدة النمطية، ستتمكن مما يلي:

  • استخدام HDInsight
  • دفق البيانات باستخدام Apache Kafka
  • وصف الدفق المهيكل في Spark
  • إنشاء بنية Kafka Spark
  • تكوين إعدادات HDInsight لإجراء تحويلات البيانات
  • إنشاء منتج Kafka
  • دفق بيانات Kafka إلى Jupyter Notebook
  • نسخ البيانات إلى نظام مجموعة ثانوي