Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
HDInsight poskytuje distribuovaný systém souborů Hadoop (HDFS) přes Azure Storage a Azure Data Lake Storage. Toto úložiště zahrnuje Gen2. Azure Storage a Data Lake Storage Gen2 jsou navržené jako rozšíření HDFS. Umožňují úplnou sadu komponent v prostředí Hadoop pracovat přímo s daty, která spravuje. Azure Storage, Data Lake Storage Gen2 jsou odlišné systémy souborů. Systémy jsou optimalizované pro ukládání dat a výpočtů na těchtodatech Informace o výhodách používání služby Azure Storage najdete v tématu Použití služby Azure Storage se službou HDInsight. Viz také použití Data Lake Storage Gen2 se službou HDInsight.
Požadavky
Než začnete, poznamenejte si následující požadavky:
- Cluster Azure HDInsight. Pokyny najdete v tématu Začínáme se službou Azure HDInsight.
- Znalost následujících článků:
Nahrání dat do Azure Storage
Veřejné služby
Microsoft poskytuje následující nástroje pro práci se službou Azure Storage:
| Nástroj | Linux | OS X | Windows |
|---|---|---|---|
| Azure Portal | ✔ | ✔ | ✔ |
| Azure CLI | ✔ | ✔ | ✔ |
| Azure PowerShell | ✔ | ||
| AzCopy | ✔ | ✔ | |
| Příkaz Hadoop | ✔ | ✔ | ✔ |
Poznámka:
Příkaz Hadoop je k dispozici pouze v clusteru HDInsight. Příkaz umožňuje načítat pouze data z místního systému souborů do Služby Azure Storage.
Příkazový řádek Hadoop
Příkazový řádek Hadoop je užitečný jenom pro ukládání dat do objektu blob úložiště Azure, pokud už data existují v hlavním uzlu clusteru.
Pokud chcete použít příkaz Hadoop, musíte se nejprve připojit k hlavnímu uzlu pomocí SSH nebo PuTTY.
Po připojení můžete k nahrání souboru do úložiště použít následující syntaxi.
hadoop fs -copyFromLocal <localFilePath> <storageFilePath>
Například hadoop fs -copyFromLocal data.txt /example/data/data.txt
Vzhledem k tomu, že výchozí systém souborů pro HDInsight je ve službě Azure Storage, /example/data/data.txt je ve skutečnosti ve službě Azure Storage. Můžete také soubor označit jako:
wasbs:///example/data/data.txt
Nebo
wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt
Seznam dalších příkazů Hadoop, které pracují se soubory, najdete v tématu https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
Varování
V clusterech Apache HBase je výchozí velikost bloku používaná při zápisu dat 256 kB. I když to funguje dobře při používání rozhraní HBase API nebo REST API, při použití příkazů hadoop nebo hdfs dfs ke zápisu dat větších než ~12 GB dojde k chybě. Další informace najdete v tématu Výjimka úložiště pro zápis do objektu blob.
Grafické klienty
Existuje také několik aplikací, které poskytují grafické rozhraní pro práci se službou Azure Storage. Následující tabulka obsahuje seznam několika z těchto aplikací:
| Klient | Linux | OS X | Windows |
|---|---|---|---|
| Microsoft Visual Studio Tools for HDInsight | ✔ | ✔ | ✔ |
| Azure Storage Explorer | ✔ | ✔ | ✔ |
Cerulea |
✔ | ||
| CloudXplorer | ✔ | ||
| CloudBerry Explorer pro Microsoft Azure | ✔ | ||
| Cyberduck | ✔ | ✔ |
Připojení azure Storage jako místního disku
Viz Připojení služby Azure Storage jako místní disk.
Nahrání pomocí služeb
Azure Data Factory
Služba Azure Data Factory je plně spravovaná služba pro vytváření dat: úložiště, zpracování a přesouvání služeb do zjednodušených, přizpůsobitelných a spolehlivých produkčních kanálů dat.
| Typ úložiště | Dokumentace |
|---|---|
| Azure Blob úložiště | Kopírování dat do nebo z úložiště Azure Blob Storage pomocí služby Azure Data Factory |
| (.. /data-factory/connector-azure-data-lake-store.md) | |
| Azure Data Lake Storage Gen2 | Načtení dat do Azure Data Lake Storage Gen2 pomocí Azure Data Factory |
Apache Sqoop
Sqoop je nástroj určený k přenosu dat mezi Hadoopem a relačními databázemi. Slouží k importu dat ze systému pro správu relačních databází (RDBMS), jako je SQL Server, MySQL nebo Oracle. Pak do distribuovaného systému souborů Hadoop (HDFS). Transformujte data v Hadoopu pomocí MapReduce nebo Hive a pak je exportujte zpět do RDBMS.
Další informace najdete v tématu Použití Sqoopu se službou HDInsight.
Vývojové sady SDK
Ke službě Azure Storage se dá přistupovat také pomocí sady Azure SDK z následujících programovacích jazyků:
- .NET
- Java
- Node.js
- PHP
- Python
- Ruby
Další informace k instalaci Azure SDKs najdete v Azure downloads.
Další kroky
Teď, když rozumíte tomu, jak dostat data do HDInsight, přečtěte si následující články, abyste se dozvěděli více o analýze: