Condividi tramite


Caricare dati per processi Apache Hadoop in HDInsight

HDInsight include un Hadoop Distributed File System (HDFS) su Archiviazione di Azure e Azure Data Lake Store. Questa risorsa di archiviazione include Gen2. Archiviazione di Azure e Data Lake Storage Gen2 sono progettati come estensioni Hadoop Distributed File System. Abilitano il set completo di componenti nell'ambiente Hadoop, con possibilità di agire direttamente sui dati gestiti da Hadoop stesso. Archiviazione di Azure, Data Lake Storage Gen2 sono file system distinti. I sistemi sono ottimizzati per l'archiviazione di dati e calcoli su tali dati. Per i vantaggi dell'uso dell'Archiviazione di Azure, vedere Usare l'Archiviazione di Azure con HDInsight. Vedere anche Usare Data Lake Storage Gen2 con HDInsight.

Prerequisiti

Prima di iniziare, tenere presenti i requisiti seguenti:

Caricare i dati in Archiviazione di Azure

Utilità

Microsoft fornisce le utilità seguenti da usare con Archiviazione di Azure:

Strumento Linux OS X Finestre
Azure portal
Interfaccia della riga di comando di Azure
Azure PowerShell
AzCopy
Comando Hadoop

Nota

Il comando Hadoop è disponibile solo nel cluster HDInsight. Il comando consente solo il caricamento dei dati dal file system locale in Archiviazione di Azure.

Riga di comando di Hadoop

La riga di comando di Hadoop è utile solo per archiviare i dati nel BLOB di archiviazione di Azure quando i dati sono già presenti nel nodo head del cluster.

Per usare il comando di Hadoop, è necessario prima di tutto connettersi al nodo head tramite SSH o PuTTY.

Dopo essersi connessi, è possibile usare la sintassi seguente per caricare un file nell'archiviazione.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Ad esempio, hadoop fs -copyFromLocal data.txt /example/data/data.txt

Poiché il file system predefinito per HDInsight si trova in Archiviazione di Microsoft Azure, /example/data/data.txt si trova effettivamente in Archiviazione di Microsoft Azure. È inoltre possibile fare riferimento al file come segue:

wasbs:///example/data/data.txt

O

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

Per un elenco di altri comandi di Hadoop che funzionano con i file, vedere https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Avviso

Nei cluster Apache HBase la dimensione di blocco predefinita usata per la scrittura dei dati è 256 KB. Questa impostazione non costituisce un problema quando si usano API HBase o REST, ma l'uso dei comandi hadoop o hdfs dfs per scrivere dati di dimensioni superiori a ~12 GB provoca un errore. Per altre informazioni, vedere Eccezione di archiviazione per la scrittura nel BLOB.

Client con interfaccia grafica

Esistono diverse applicazioni che forniscono un'interfaccia grafica per usare Archiviazione di Azure. Nella tabella seguente è riportato un elenco di alcune di queste applicazioni:

Client Linux OS X Finestre
Microsoft Visual Studio Tools per HDInsight
Azure Storage Explorer
Cerulea
CloudXplorer
CloudBerry Explorer per Microsoft Azure
Cyberduck

Montare Archiviazione di Azure come unità locale

Vedere Montare Archiviazione di Azure come unità locale.

Caricamento tramite servizi

Azure Data Factory

Azure Data Factory è un servizio completamente gestito per la composizione di dati: servizi di archiviazione, elaborazione e spostamento in pipeline di produzione dei dati ottimizzate, adattabili e affidabili.

Tipo di archiviazione Documentazione
Archivio BLOB di Azure Copiare dati da e in Archiviazione BLOB di Azure usando Azure Data Factory
(.../data-factory/connector-azure-data-lake-store.md)
Azure Data Lake Storage Gen2 Caricare dati in Azure Data Lake Storage Gen2 con Azure Data Factory

Apache Sqoop

Sqoop è uno strumento progettato per il trasferimento di dati tra Hadoop e i database relazionali. Usarlo per importare dati da un sistema di gestione di database relazionale (RDBMS), ad esempio SQL Server, MySQL o Oracle. Successivamente in Hadoop Distributed File System (HDFS). Trasformare i dati in Hadoop con MapReduce o Hive quindi esportare nuovamente i dati in RDBMS.

Per altre informazioni, vedere Usare Sqoop con HDInsight.

SDK di sviluppo

È possibile accedere ad Archiviazione di Microsoft Azure anche tramite un SDK di Azure dai linguaggi di programmazione seguenti:

  • .NET
  • Java
  • Node.js
  • PHP
  • Python
  • Ruby

Per altre informazioni sull'installazione di SDK di Azure, vedere Download di Azure

Passaggi successivi

Dopo aver appreso come importare dati in HDInsight, leggere gli articoli seguenti per informazioni sull'analisi: