Gunakan MapReduce dengan Apache Hadoop di HDInsight dengan SSH
Pelajari cara mengirimkan pekerjaan MapReduce dari koneksi Secure Shell (SSH) ke HDInsight.
Catatan
Jika Anda sudah terbiasa menggunakan server Apache Hadoop berbasis Linux, tetapi Anda baru mengenal HDInsight, lihat tips HDInsight berbasis Linux.
Prasyarat
Kluster Apache Hadoop di Microsoft Azure HDInsight. Lihat Membuat kluster Apache Hadoop menggunakan portal Microsoft Azure.
Gunakan perintah Hadoop
Gunakan perintah ssh untuk menyambungkan ke kluster Anda. Edit perintah di bawah ini dengan mengganti CLUSTERNAME dengan nama kluster Anda, lalu masukkan perintah:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
Setelah Anda tersambung ke kluster HDInsight, gunakan perintah berikut untuk memulai pekerjaan MapReduce:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
Perintah ini memulai kelas
wordcount
, yang terkandung dalam filehadoop-mapreduce-examples.jar
. Ini menggunakan dokumen/example/data/gutenberg/davinci.txt
sebagai input, dan output disimpan di/example/data/WordCountOutput
.Catatan
Untuk informasi selengkapnya tentang pekerjaan MapReduce ini dan data contohnya, lihat Menggunakan MapReduce di Apache Hadoop di HDInsight.
Pekerjaan memancarkan detail saat memproses, dan mengembalikan informasi yang mirip dengan teks berikut ketika pekerjaan selesai:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623
Ketika pekerjaan selesai, gunakan perintah berikut untuk mencantumkan file output:
hdfs dfs -ls /example/data/WordCountOutput
Perintah ini menampilkan dua file,
_SUCCESS
danpart-r-00000
. Filepart-r-00000
ini memuat output untuk tugas ini.Catatan
Beberapa pekerjaan MapReduce dapat membagi hasil di beberapa file part-r-##### . Jika demikian, gunakan akhiran ##### untuk menunjukkan urutan file.
Untuk melihat output, gunakan perintah berikut:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
Perintah ini menampilkan daftar kata-kata yang terkandung dalam file wasbs://example/data/gutenberg/davinci.txt dan berapa kali setiap kata terjadi. Teks berikut adalah contoh data dalam file:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Langkah berikutnya
Seperti yang Anda lihat, perintah Hadoop memberikan cara mudah untuk menjalankan pekerjaan MapReduce di kluster HDInsight dan kemudian melihat output pekerjaan. Untuk informasi tentang cara lain Anda dapat bekerja dengan Hadoop di Microsoft Azure HDInsight:
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk