Trasferire i dati da e verso Azure

Sono disponibili diverse opzioni per il trasferimento dei dati da e verso Azure, in base alle esigenze specifiche:

Trasferimento fisico

L'uso di hardware fisico per il trasferimento dei dati in Azure è una buona opzione nelle situazioni seguenti:

  • La rete è lenta o poco affidabile.
  • Ottenere una maggiore larghezza di banda di rete è proibitivo.
  • I criteri di sicurezza o dell'organizzazione non consentono le connessioni in uscita quando si gestiscono dati sensibili.

Se il problema principale è il tempo necessario per trasferire i dati, potrebbe essere necessario eseguire un test per verificare se il trasferimento di rete è più lento del trasporto fisico.

Per il trasporto fisico dei dati in Azure sono disponibili due opzioni:

Il servizio Importazione/Esportazione di Azure

Il servizio Importazione/Esportazione di Azure consente di trasferire in modo sicuro grandi quantità di dati in Archiviazione BLOB di Azure o File di Azure tramite la spedizione di dischi SATA HDD o SDD a un data center di Azure. È anche possibile usare questo servizio per trasferire i dati da Archiviazione di Azure alle unità disco rigido e per caricare le unità in locale.

Azure Data Box

Azure Data Box è un'appliance fornita da Microsoft che funziona in modo analogo al servizio Importazione/Esportazione. Con Data Box, Microsoft offre un'appliance di trasferimento proprietaria, sicura e resistente alle manomissioni e gestisce la logistica end-to-end, che è possibile tenere traccia attraverso il portale. Un vantaggio del servizio Data Box è la facilità d'uso. Non è necessario acquistare più unità disco rigido, prepararle e trasferire i file in ciascuna di esse. Data Box è supportato da molti partner di Azure leader del settore per semplificare l'uso del trasporto offline nel cloud dai propri prodotti.

API e strumenti da riga di comando

Prendere in considerazione queste opzioni quando si vuole eseguire lo script e il trasferimento dei dati a livello di codice:

  • L'interfaccia della riga di comando di Azure è uno strumento multipiattaforma che consente di gestire i servizi di Azure e caricare i dati in Archiviazione.

  • AzCopy. Usare AzCopy da una riga di comando di Windows o Linux per copiare facilmente i dati da e verso Archiviazione BLOB, Archiviazione file di Azure e Archiviazione tabelle di Azure con prestazioni ottimali. AzCopy supporta la concorrenza e il parallelismo e consente di riprendere le operazioni di copia in caso di interruzione. È possibile usare AzCopy anche per copiare i dati da AWS ad Azure. Per l'accesso a livello di codice, AzCopy è basato sul framework della libreria per lo spostamento dei dati di Archiviazione di Microsoft Azure. Viene fornito come libreria .NET Core.

  • Con PowerShell, il cmdlet PowerShell Start-AzureStorageBlobCopy è un'opzione per gli amministratori di Windows che vengono usati per PowerShell.

  • AdlCopy consente di copiare dati da Archiviazione BLOB in Azure Data Lake Storage. Può essere usato anche per copiare dati tra due account Data Lake Storage. Tuttavia, non può essere usato per copiare dati da Data Lake Storage all'archiviazione BLOB.

  • Distcp viene usato per copiare dati da e verso un archivio cluster HDInsight (WASB) in un account di Data Lake Storage.

  • Sqoop è un progetto di Apache e fa parte dell'ecosistema Hadoop. È preinstallato in tutti i cluster HDInsight. Consente il trasferimento dei dati tra un cluster HDInsight e database relazionali come SQL, Oracle, MySQL e così via. Sqoop è una raccolta di strumenti correlati, inclusi gli strumenti di importazione ed esportazione. Sqoop funziona con i cluster HDInsight usando l'archiviazione BLOB o Data Lake Storage risorsa di archiviazione collegata.

  • PolyBase è una tecnologia che accede ai dati all'esterno di un database tramite il linguaggio T-SQL. In SQL Server 2016 consente di eseguire query su dati esterni in Hadoop o di importare o esportare dati dall'archiviazione BLOB. In Azure Synapse Analytics è possibile importare o esportare dati da Archiviazione BLOB e Data Lake Storage. PolyBase è attualmente il metodo più rapido per importare i dati in Azure Synapse Analytics.

  • Usare la riga di comando di Hadoop quando si dispone di dati che si trovano in un nodo head del cluster HDInsight. È possibile usare il hadoop -copyFromLocal comando per copiare i dati nell'archivio collegato del cluster, ad esempio archiviazione BLOB o Data Lake Storage. Per usare il comando di Hadoop, è necessario prima di tutto connettersi al nodo head. Dopo aver stabilito la connessione, sarà possibile caricare un file nella risorsa di archiviazione.

Interfaccia grafica

Prendere in considerazione le opzioni seguenti se si trasferiscono solo alcuni file o oggetti dati e non è necessario automatizzare il processo.

  • Azure Storage Explorer è uno strumento multipiattaforma che consente di gestire il contenuto degli account di archiviazione di Azure. Con questo strumento è possibile caricare, scaricare e gestire BLOB, file, code, tabelle ed entità di Azure Cosmos DB. Usarlo con Archiviazione BLOB per gestire BLOB e cartelle e caricare e scaricare BLOB tra il file system locale e l'archiviazione BLOB o tra gli account di archiviazione.

  • Portale di Azure. Sia l'archiviazione BLOB che Data Lake Storage forniscono un'interfaccia basata sul Web per esplorare i file e caricare nuovi file. Questa opzione è valida se non si vogliono installare strumenti o inviare comandi per esplorare rapidamente i file o se si vuole caricare una manciata di nuovi file.

Sincronizzazione dei dati e pipeline

  • Azure Data Factory è un servizio gestito più adatto per trasferire regolarmente file tra molti servizi di Azure, sistemi locali o una combinazione dei due. Usando Data Factory, è possibile creare e pianificare flussi di lavoro basati sui dati denominati pipeline che inseriscono dati da archivi dati diversi. Data Factory può elaborare e trasformare i dati usando servizi di calcolo come Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics e Azure Machine Learning. È possibile creare flussi di lavoro basati sui dati per orchestrare e automatizzare lo spostamento e la trasformazione dei dati.

  • Le pipeline e le attività in Data Factory e Azure Synapse Analytics possono essere usate per creare flussi di lavoro basati sui dati end-to-end per gli scenari di spostamento e elaborazione dati. Inoltre, il runtime di integrazione Azure Data Factory viene usato per fornire funzionalità di integrazione dei dati in ambienti di rete diversi.

  • Azure Data Box Gateway trasferisce i dati da e verso Azure, ma si tratta di un'appliance virtuale, non di un disco rigido. Le macchine virtuali che risiedono nella rete locale scrivono dati in Data Box Gateway usando i protocolli NFS e SMB. Il dispositivo trasferisce quindi i dati in Azure.

Criteri di scelta principali

Per gli scenari di trasferimento dei dati, rispondere prima di tutto a queste domande per scegliere il sistema adatto alle proprie esigenze:

  • È necessario trasferire grandi quantità di dati, in cui questa operazione su una connessione Internet richiederebbe troppo tempo, essere inaffidabile o troppo costosa? In caso affermativo, prendere in considerazione un'opzione di trasferimento fisico.

  • Si preferisce creare script per le attività di trasferimento dei dati, in modo che siano riutilizzabili? In tal caso, selezionare una delle opzioni della riga di comando o Data Factory.

  • È necessario trasferire una grande quantità di dati tramite una connessione di rete? In tal caso, selezionare un'opzione ottimizzata per Big Data.

  • È necessario trasferire dati da o verso un database relazionale? In caso affermativo, scegliere un'opzione con il supporto per uno o più database relazionali. Alcune di queste opzioni richiedono anche un cluster Hadoop.

  • È necessario configurare un'orchestrazione automatizzata di una pipeline di dati o di un flusso di lavoro? In caso affermativo, prendere in considerazione Data Factory.

Matrice delle funzionalità

Le tabelle seguenti contengono un riepilogo delle differenze principali in termini di funzionalità.

Trasferimento fisico

Funzionalità Servizio Importazione/Esportazione Data Box
Fattore di forma Dischi SATA HDD o SDD interni Singola appliance hardware, sicura e antimanomissione
Logistica della spedizione gestita da Microsoft No
Integrazione con prodotti di partner No
Appliance personalizzata No

Strumenti da riga di comando

Hadoop/HDInsight:

Funzionalità Distcp Sqoop Riga di comando di Hadoop
Ottimizzazione per Big Data
Copia in database relazionale No No
Copia da database relazionale No No
Copiare nell'archivio BLOB
Copia dall'archiviazione BLOB No
Copiare in Data Lake Storage
Copia da Data Lake Storage No

Altro:

Funzionalità Interfaccia della riga di comando di Azure AzCopy PowerShell AdlCopy PolyBase
Piattaforme compatibili Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Ottimizzazione per Big Data No No 1 2
Copia in database relazionale No No No No
Copia da database relazionale No No No No
Copiare nell'archivio BLOB No
Copia dall'archiviazione BLOB
Copiare in Data Lake Storage No
Copia da Data Lake Storage No No

[1] AdlCopy è ottimizzato per il trasferimento di Big Data se usato con un account Data Lake Analytics.

[2] È possibile migliorare le prestazioni di PolyBase eseguendo il push delle operazioni di calcolo in Hadoop e usando i gruppi con scalabilità orizzontale PolyBase per consentire il trasferimento dei dati parallelo tra le istanze di SQL Server e i nodi Hadoop.

Interfacce grafiche, sincronizzazione dati e pipeline di dati

Funzionalità Esplora archivi Azure Portale di Azure * Data Factory Data Box Gateway
Ottimizzazione per Big Data No No
Copia in database relazionale No No No
Copia da database relazionale No No No
Copiare nell'archivio BLOB No
Copia dall'archiviazione BLOB No No
Copiare in Data Lake Storage No No No
Copia da Data Lake Storage No No No
Caricare nell'archiviazione BLOB
Caricare in Data Lake Storage
Orchestrazione dei trasferimenti di dati No No No
Trasformazioni dei dati personalizzate No No No
Modello di prezzi Gratuito Gratuito Pagamento in base all'utilizzo Pagamento per unità

* portale di Azure in questo caso rappresenta gli strumenti di esplorazione basati sul Web per l'archiviazione BLOB e Data Lake Storage.

Autori di contributi

Questo articolo viene gestito da Microsoft. È stato originariamente scritto dai collaboratori seguenti.

Autore principale:

Passaggi successivi