Aracılığıyla paylaş


SSH ile HDInsight üzerinde Apache Hadoop ile MapReduce kullanma

MapReduce işlerini Secure Shell (SSH) bağlantısından HDInsight'a göndermeyi öğrenin.

Not

Linux tabanlı Apache Hadoop sunucularını kullanmayı zaten biliyorsanız ancak HDInsight'ta yeniyseniz bkz. Linux tabanlı HDInsight ipuçları.

Önkoşullar

HDInsight üzerinde bir Apache Hadoop kümesi. Bkz. Azure portal kullanarak Apache Hadoop kümeleri oluşturma.

Hadoop komutlarını kullanma

  1. Kümenize bağlanmak için ssh komutunu kullanın. CLUSTERNAME değerini kümenizin adıyla değiştirerek aşağıdaki komutu düzenleyin ve komutu girin:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. HDInsight kümesine bağlandıktan sonra bir MapReduce işi başlatmak için aşağıdaki komutu kullanın:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Bu komut, dosyasında bulunan sınıfını hadoop-mapreduce-examples.jar başlatırwordcount. Giriş olarak belgeyi /example/data/gutenberg/davinci.txt kullanır ve çıkış konumunda /example/data/WordCountOutputdepolanır.

    Not

    Bu MapReduce işi ve örnek veriler hakkında daha fazla bilgi için bkz. HDInsight üzerinde Apache Hadoop'ta MapReduce kullanma.

    İş işlenirken ayrıntıları yayar ve iş tamamlandığında aşağıdaki metne benzer bilgiler döndürür:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. İş tamamlandığında, çıkış dosyalarını listelemek için aşağıdaki komutu kullanın:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Bu komut iki dosya _SUCCESS görüntüler ve part-r-00000. Dosya bu part-r-00000 işin çıkışını içerir.

    Not

    Bazı MapReduce işleri sonuçları birden çok part-r-##### dosyası arasında bölebilir. Öyleyse, dosyaların sırasını belirtmek için ##### son ekini kullanın.

  4. Çıkışı görüntülemek için aşağıdaki komutu kullanın:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Bu komut, wasbs://example/data/gutenberg/davinci.txt dosyasında bulunan sözcüklerin listesini ve her sözcüğün kaç kez gerçekleştiğini görüntüler. Aşağıdaki metin, dosyada yer alan verilerin bir örneğidir:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Sonraki adımlar

Gördüğünüz gibi Hadoop komutları, MAPReduce işlerini bir HDInsight kümesinde çalıştırmanın ve ardından iş çıktısını görüntülemenin kolay bir yolunu sağlar. HDInsight üzerinde Hadoop ile çalışmanın diğer yolları hakkında bilgi için: