SSH を使用した HDInsight での Apache Hadoop での MapReduce の使用

2025-04-08

Secure Shell (SSH) 接続から HDInsight に MapReduce ジョブを送信する方法について説明します。

注

Linux ベースの Apache Hadoop サーバーの使用に慣れているが、HDInsight を初めて使用する場合は、 Linux ベースの HDInsight のヒントを参照してください。

前提条件

HDInsight の Apache Hadoop クラスター。 Azure portal を使用した Apache Hadoop クラスターの作成に関するページを参照してください。

Hadoop コマンドを使用する

ssh コマンドを使用してクラスターに接続します。次のコマンドを編集して CLUSTERNAME をクラスターの名前に置き換えてから、そのコマンドを入力します。
```
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
```
HDInsight クラスターに接続したら、次のコマンドを使用して MapReduce ジョブを開始します。
```
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
```
このコマンドは、hadoop-mapreduce-examples.jar ファイルに含まれるwordcount クラスを開始します。 /example/data/gutenberg/davinci.txtドキュメントを入力として使用し、出力は/example/data/WordCountOutputに格納されます。

注

この MapReduce ジョブとサンプルデータの詳細については、 HDInsight 上の Apache Hadoop での MapReduce の使用に関する記事を参照してください。

ジョブは処理時に詳細を出力し、ジョブの完了時に次のテキストのような情報を返します。
```
File Input Format Counters
Bytes Read=1395666
File Output Format Counters
Bytes Written=337623
```
ジョブが完了したら、次のコマンドを使用して出力ファイルを一覧表示します。
```
hdfs dfs -ls /example/data/WordCountOutput
```
このコマンドは、 _SUCCESS と part-r-00000の 2 つのファイルを表示します。 part-r-00000 ファイルには、このジョブの出力が含まれています。

注

一部の MapReduce ジョブでは、結果が複数の part-r-##### ファイルに分割される場合があります。その場合は、##### サフィックスを使用して、ファイルの順序を示します。
出力を表示するには、次のコマンドを使用します。
```
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
```
このコマンドは、 wasbs://example/data/gutenberg/davinci.txt ファイルに含まれている単語の一覧と、各単語が発生した回数を表示します。次のテキストは、ファイルに含まれるデータの例です。
```
wreathed        3
wreathing       1
wreaths         1
wrecked         3
wrenching       1
wretched        6
wriggling       1
```

次のステップ

ご覧のように、Hadoop コマンドを使用すると、HDInsight クラスターで MapReduce ジョブを実行し、ジョブの出力を表示する簡単な方法が提供されます。 HDInsight での Hadoop のその他の使用方法に関する情報

次の方法で共有

SSH を使用した HDInsight での Apache Hadoop での MapReduce の使用

前提条件

Hadoop コマンドを使用する

次のステップ

フィードバック

その他のリソース