MapReduce مع Apache Hadoop على HDInsight

تعرف على كيفية إرسال وظائف MapReduce من اتصال Secure Shell (SSH) إلى HDInsight.

ملاحظة

إذا كنت معتادًا بالفعل على استخدام خوادم Apache Hadoop المستندة إلى Linux، ولكنك جديد على HDInsight، فشاهد نصائح HDInsight المستندة إلى Linux.

المتطلبات الأساسية

مجموعة Apache Hadoop على HDInsight. راجعإنشاء أنظمة مجموعات Apache Hadoop باستخدام مدخل Azure.

استخدام أوامر Hadoop

  1. استخدم الأمر ssh للاتصال بنظام المجموعة الخاص بك. قم بتحرير الأمر أدناه عن طريق استبدال اسم نظام المجموعة باسم نظام مجموعتك ثم إدخال الأمر:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. بعد أن تتصل مجموعة HDInsight استخدم الأمر التالي لبدء مهمة MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    يبدأ هذا الأمر wordcount الفئة الموجودة في hadoop-mapreduce-examples.jar الملف. ويستخدم /example/data/gutenberg/davinci.txt المستند كمدخل، ويتم تخزين الإخراج في /example/data/WordCountOutput.

    ملاحظة

    لمزيد من المعلومات حول هذه المهمة MapReduce والبيانات المثال، راجع استخدام MapReduce في أباتشي Hadoop على HDInsight.

    تصدر الوظيفة التفاصيل أثناء معالجتها، وتعيد معلومات مشابهة للنص التالي عند اكتمال المهمة:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. عند اكتمال المهمة، استخدم الأمر التالي لسرد ملفات الإخراج:

    hdfs dfs -ls /example/data/WordCountOutput
    

    يعرض هذا الأمر ملفين، _SUCCESS و part-r-00000. part-r-00000يحتوي الملف على الإخراج لهذه المهمة.

    ملاحظة

    قد تقوم بعض مهام MapReduce بتقسيم النتائج عبر ملفات ##### متعددة الأجزاء. إذا كان الأمر كذلك، فاستخدم اللاحقة ##### للإشارة إلى ترتيب الملفات.

  4. لعرض الإخراج، استخدم الأمر التالي:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    يعرض هذا الأمر قائمة بالكلمات الموجودة في ملف wasbs: //example/data/gutenberg/davinci.txt وعدد مرات حدوث كل كلمة. النص التالي هو مثال على البيانات الموجودة في الملف:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

الخطوات التالية

كما ترون، توفر أوامر Hadoop طريقة سهلة لتشغيل وظائف MapReduce في مجموعة HDInsight ثم عرض إخراج المهمة. للحصول على معلومات حول الطرق الأخرى التي يمكنك من خلالها العمل مع Hadoop على HDInsight: