Sdílet prostřednictvím


Nahrání dat pro úlohy Apache Hadoopu ve službě HDInsight

HDInsight poskytuje distribuovaný systém souborů Hadoop (HDFS) přes Azure Storage a Azure Data Lake Storage. Toto úložiště zahrnuje Gen2. Azure Storage a Data Lake Storage Gen2 jsou navržené jako rozšíření HDFS. Umožňují úplnou sadu komponent v prostředí Hadoop pracovat přímo s daty, která spravuje. Azure Storage, Data Lake Storage Gen2 jsou odlišné systémy souborů. Systémy jsou optimalizované pro ukládání dat a výpočtů na těchtodatech Informace o výhodách používání služby Azure Storage najdete v tématu Použití služby Azure Storage se službou HDInsight. Viz také použití Data Lake Storage Gen2 se službou HDInsight.

Požadavky

Než začnete, poznamenejte si následující požadavky:

Nahrání dat do Azure Storage

Nástroje

Microsoft poskytuje následující nástroje pro práci se službou Azure Storage:

Nástroj Linux OS X Windows
Azure Portal
Azure CLI
Azure PowerShell
AzCopy
Příkaz Hadoop

Poznámka:

Příkaz Hadoop je k dispozici pouze v clusteru HDInsight. Příkaz umožňuje načítat pouze data z místního systému souborů do Služby Azure Storage.

Příkazový řádek Hadoop

Příkazový řádek Hadoop je užitečný jenom pro ukládání dat do objektu blob úložiště Azure, pokud už data existují v hlavním uzlu clusteru.

Pokud chcete použít příkaz Hadoop, musíte se nejprve připojit k hlavnímu uzlu pomocí SSH nebo PuTTY.

Po připojení můžete k nahrání souboru do úložiště použít následující syntaxi.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Například hadoop fs -copyFromLocal data.txt /example/data/data.txt

Vzhledem k tomu, že výchozí systém souborů pro HDInsight je ve službě Azure Storage, /example/data/data.txt je ve skutečnosti ve službě Azure Storage. Soubor můžete také odkazovat takto:

wasbs:///example/data/data.txt

Nebo

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

Seznam dalších příkazů Hadoop, které pracují se soubory, najdete v tématu https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Upozorňující

V clusterech Apache HBase je výchozí velikost bloku používaná při zápisu dat 256 kB. I když používáte rozhraní HBase API nebo rozhraní REST API, může při zápisu dat větších než ~12 GB dojít k chybě pomocí hadoop příkazů nebo hdfs dfs příkazů. Další informace najdete v tématu Výjimka úložiště pro zápis do objektu blob.

Grafické klienty

Existuje také několik aplikací, které poskytují grafické rozhraní pro práci se službou Azure Storage. Následující tabulka obsahuje seznam několika z těchto aplikací:

Klient Linux OS X Windows
Microsoft Visual Studio Tools for HDInsight
Azure Storage Explorer
Cerulea
CloudXplorer
CloudBerry Explorer pro Microsoft Azure
Cyberduck

Připojení azure Storage jako místního disku

Viz Připojení služby Azure Storage jako místní disk.

Nahrání pomocí služeb

Azure Data Factory

Služba Azure Data Factory je plně spravovaná služba pro vytváření dat: úložiště, zpracování a přesouvání služeb do zjednodušených, přizpůsobitelných a spolehlivých produkčních kanálů dat.

Typ úložiště Dokumentace
Azure Blob Storage Kopírování dat do nebo z úložiště Azure Blob Storage pomocí služby Azure Data Factory
(.. /data-factory/connector-azure-data-lake-store.md)
Azure Data Lake Storage Gen2 Načtení dat do Azure Data Lake Storage Gen2 pomocí Azure Data Factory

Apache Sqoop

Sqoop je nástroj určený k přenosu dat mezi Hadoopem a relačními databázemi. Slouží k importu dat ze systému pro správu relačních databází (RDBMS), jako je SQL Server, MySQL nebo Oracle. Pak do distribuovaného systému souborů Hadoop (HDFS). Transformujte data v Hadoopu pomocí MapReduce nebo Hive a pak je exportujte zpět do RDBMS.

Další informace najdete v tématu Použití Sqoopu se službou HDInsight.

Vývojové sady SDK

Ke službě Azure Storage se dá přistupovat také pomocí sady Azure SDK z následujících programovacích jazyků:

  • .NET
  • Java
  • Node.js
  • PHP
  • Python
  • Ruby

Další informace o instalaci sad Azure SDK najdete ve stažení Azure.

Další kroky

Teď, když rozumíte tomu, jak získat data do SLUŽBY HDInsight, najdete v následujících článcích, kde se dozvíte o analýze: