Sdílet prostřednictvím


Použití MapReduce s Apache Hadoopem ve službě HDInsight s SSH

Zjistěte, jak odesílat úlohy MapReduce z připojení Secure Shell (SSH) do SLUŽBY HDInsight.

Poznámka

Pokud jste již obeznámeni s používáním serverů Apache Hadoop se systémem Linux, ale se službou HDInsight začínáte, přečtěte si téma Tipy pro HDInsight se systémem Linux.

Požadavky

Cluster Apache Hadoop ve službě HDInsight. Viz Vytváření clusterů Apache Hadoop pomocí Azure Portal.

Použití příkazů Hadoop

  1. Pomocí příkazu ssh se připojte ke clusteru. Upravte následující příkaz tak, že clusterNAME nahradíte názvem vašeho clusteru a pak zadáte příkaz :

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. Po připojení ke clusteru HDInsight spusťte pomocí následujícího příkazu úlohu MapReduce:

    yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutput
    

    Tento příkaz spustí wordcount třídu , která je obsažena v hadoop-mapreduce-examples.jar souboru . Jako vstup použije /example/data/gutenberg/davinci.txt dokument a výstup se uloží na /example/data/WordCountOutputadrese .

    Poznámka

    Další informace o této úloze MapReduce a ukázkových datech najdete v tématu Použití MapReduce v Apache Hadoopu ve službě HDInsight.

    Úloha při zpracování generuje podrobnosti a po dokončení úlohy vrací informace podobné následujícímu textu:

    File Input Format Counters
    Bytes Read=1395666
    File Output Format Counters
    Bytes Written=337623
    
  3. Po dokončení úlohy pomocí následujícího příkazu zobrazte seznam výstupních souborů:

    hdfs dfs -ls /example/data/WordCountOutput
    

    Tento příkaz zobrazí dva soubory _SUCCESS a part-r-00000. Soubor part-r-00000 obsahuje výstup pro tuto úlohu.

    Poznámka

    Některé úlohy MapReduce můžou výsledky rozdělit do několika souborů part-r-##### #. Pokud ano, použijte příponu ##### k označení pořadí souborů.

  4. K zobrazení výstupu použijte následující příkaz:

    hdfs dfs -cat /example/data/WordCountOutput/part-r-00000
    

    Tento příkaz zobrazí seznam slov obsažených v souboru wasbs://example/data/gutenberg/davinci.txt a počet výskytů jednotlivých slov. Následující text je příkladem dat obsažených v souboru:

    wreathed        3
    wreathing       1
    wreaths         1
    wrecked         3
    wrenching       1
    wretched        6
    wriggling       1
    

Další kroky

Jak vidíte, příkazy Hadoop poskytují snadný způsob, jak spustit úlohy MapReduce v clusteru HDInsight a pak zobrazit výstup úlohy. Informace o dalších způsobech práce s Hadoopem ve službě HDInsight: