Caricare dati per processi Apache Hadoop in HDInsight
HDInsight include un Hadoop Distributed File System (HDFS) su Archiviazione di Azure e Azure Data Lake Store. Questa risorsa di archiviazione include Gen2. Archiviazione di Azure e Data Lake Storage Gen2 sono progettati come estensioni Hadoop Distributed File System. Abilitano il set completo di componenti nell'ambiente Hadoop, con possibilità di agire direttamente sui dati gestiti da Hadoop stesso. Archiviazione di Azure, Data Lake Storage Gen2 sono file system distinti. I sistemi sono ottimizzati per l'archiviazione di dati e calcoli su tali dati. Per i vantaggi dell'uso dell'Archiviazione di Azure, vedere Usare l'Archiviazione di Azure con HDInsight. Vedere anche Usare Data Lake Storage Gen2 con HDInsight.
Prerequisiti
Prima di iniziare, tenere presenti i requisiti seguenti:
- Un cluster HDInsight di Azure. Per istruzioni, vedere Informazioni di base sud Azure HDInsight.
- Conoscenza degli articoli seguenti:
Caricare i dati in Archiviazione di Azure
Utilità
Microsoft fornisce le utilità seguenti da usare con Archiviazione di Azure:
Strumento | Linux | OS X | Finestre |
---|---|---|---|
Azure portal | ✔ | ✔ | ✔ |
Interfaccia della riga di comando di Azure | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ | |
Comando Hadoop | ✔ | ✔ | ✔ |
Nota
Il comando Hadoop è disponibile solo nel cluster HDInsight. Il comando consente solo il caricamento dei dati dal file system locale in Archiviazione di Azure.
Riga di comando di Hadoop
La riga di comando di Hadoop è utile solo per archiviare i dati nel BLOB di archiviazione di Azure quando i dati sono già presenti nel nodo head del cluster.
Per usare il comando di Hadoop, è necessario prima di tutto connettersi al nodo head tramite SSH o PuTTY.
Dopo essersi connessi, è possibile usare la sintassi seguente per caricare un file nell'archiviazione.
hadoop fs -copyFromLocal <localFilePath> <storageFilePath>
Ad esempio, hadoop fs -copyFromLocal data.txt /example/data/data.txt
Poiché il file system predefinito per HDInsight si trova in Archiviazione di Microsoft Azure, /example/data/data.txt si trova effettivamente in Archiviazione di Microsoft Azure. È inoltre possibile fare riferimento al file come segue:
wasbs:///example/data/data.txt
O
wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt
Per un elenco di altri comandi di Hadoop che funzionano con i file, vedere https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
Avviso
Nei cluster Apache HBase la dimensione di blocco predefinita usata per la scrittura dei dati è 256 KB. Questa impostazione non costituisce un problema quando si usano API HBase o REST, ma l'uso dei comandi hadoop
o hdfs dfs
per scrivere dati di dimensioni superiori a ~12 GB provoca un errore. Per altre informazioni, vedere Eccezione di archiviazione per la scrittura nel BLOB.
Client con interfaccia grafica
Esistono diverse applicazioni che forniscono un'interfaccia grafica per usare Archiviazione di Azure. Nella tabella seguente è riportato un elenco di alcune di queste applicazioni:
Client | Linux | OS X | Finestre |
---|---|---|---|
Microsoft Visual Studio Tools per HDInsight | ✔ | ✔ | ✔ |
Azure Storage Explorer | ✔ | ✔ | ✔ |
Cerulea |
✔ | ||
CloudXplorer | ✔ | ||
CloudBerry Explorer per Microsoft Azure | ✔ | ||
Cyberduck | ✔ | ✔ |
Montare Archiviazione di Azure come unità locale
Vedere Montare Archiviazione di Azure come unità locale.
Caricamento tramite servizi
Azure Data Factory
Azure Data Factory è un servizio completamente gestito per la composizione di dati: servizi di archiviazione, elaborazione e spostamento in pipeline di produzione dei dati ottimizzate, adattabili e affidabili.
Tipo di archiviazione | Documentazione |
---|---|
Archivio BLOB di Azure | Copiare dati da e in Archiviazione BLOB di Azure usando Azure Data Factory |
(.../data-factory/connector-azure-data-lake-store.md) | |
Azure Data Lake Storage Gen2 | Caricare dati in Azure Data Lake Storage Gen2 con Azure Data Factory |
Apache Sqoop
Sqoop è uno strumento progettato per il trasferimento di dati tra Hadoop e i database relazionali. Usarlo per importare dati da un sistema di gestione di database relazionale (RDBMS), ad esempio SQL Server, MySQL o Oracle. Successivamente in Hadoop Distributed File System (HDFS). Trasformare i dati in Hadoop con MapReduce o Hive quindi esportare nuovamente i dati in RDBMS.
Per altre informazioni, vedere Usare Sqoop con HDInsight.
SDK di sviluppo
È possibile accedere ad Archiviazione di Microsoft Azure anche tramite un SDK di Azure dai linguaggi di programmazione seguenti:
- .NET
- Java
- Node.js
- PHP
- Python
- Ruby
Per altre informazioni sull'installazione di SDK di Azure, vedere Download di Azure
Passaggi successivi
Dopo aver appreso come importare dati in HDInsight, leggere gli articoli seguenti per informazioni sull'analisi: