Progettare una soluzione di integrazione dei dati con Azure Data Lake
Un Data Lake è un repository di dati archiviato in formato naturale, in genere BLOB o file. Azure Data Lake Storage è una soluzione data lake completa, altamente scalabile e conveniente per l'analisi dei Big Data integrata in Azure. Azure Data Lake Storage combina un file system e una piattaforma di archiviazione, per consentire una rapida identificazione delle informazioni dettagliate all'interno dei dati. La soluzione si basa sulle funzionalità di Archiviazione BLOB di Azure per offrire ottimizzazioni per i carichi di lavoro di analisi. Questa integrazione offre funzionalità di analisi delle prestazioni, disponibilità elevata, sicurezza e durabilità di Archiviazione di Azure.
Nota
L'implementazione corrente del servizio è Azure Data Lake Storage Gen2.
Informazioni su Azure Data Lake Storage
Per una maggiore comprensione di Azure Data Lake Storage, verranno esaminate le caratteristiche seguenti.
- Azure Data Lake Storage consente di archiviare qualsiasi tipo di dati usando il formato nativo dei dati. Con il supporto di qualsiasi formato di dati e di grandi quantità di dati, Azure Data Lake Storage può essere usato con dati strutturati, semistrutturati e non strutturati.
- La soluzione è progettata principalmente per l'uso con Hadoop e con tutti i framework che usano il file system distribuito Apache Hadoop (HDFS) come livello di accesso ai dati. I framework di analisi dei dati che usano HDFS come livello di accesso ai dati possono accedere direttamente.
- Azure Data Lake Storage supporta una velocità effettiva elevata per l'analisi intensiva di input/output e lo spostamento dei dati.
- Il modello di controllo di accesso di Azure Data Lake Storage supporta il controllo degli accessi in base al ruolo (RBAC) di Azure e l'interfaccia del sistema operativo portatile per gli elenchi di controllo di accesso (ACL) UNIX (POSIX).
- Azure Data Lake Storage utilizza i modelli di replica BLOB di Azure. Questi modelli offrono ridondanza dei dati in un singolo data center con archiviazione con ridondanza locale.
- Azure Data Lake Storage offre la possibilità di archiviare grandi quantità di dati e accetta numerosi tipi di dati per l'analisi.
- Azure Data Lake Storage è distribuito al prezzo dei livelli di Archiviazione BLOB di Azure.
Funzionamento di Azure Data Lake Storage
Per usare Azure Data Lake Storage sono necessari tre passaggi importanti:
Inserire i dati. Azure Data Lake Storage offre vari metodi diversi di inserimento dati:
- Per i dati non pianificati, è possibile usare strumenti come AzCopy, l'interfaccia della riga di comando di Azure, PowerShell e Azure Storage Explorer.
- Per i dati relazionali, è possibile usare il servizio Azure Data Factory. È possibile trasferire dati da qualsiasi origine, ad esempio Azure Cosmos DB, Database SQL, istanze gestite di SQL di Azure e altro ancora.
- Per i dati in streaming, è possibile usare strumenti come Apache Storm in Azure HDInsight, Analisi di flusso di Azure e così via.
Il diagramma seguente mostra come i dati non pianificati e i dati in streaming vengono inseriti in blocco o non pianificati in Azure Data Lake Storage.
Accedere ai dati archiviati. Il modo più semplice per accedere ai dati è usare Azure Storage Explorer. Storage Explorer è un'applicazione autonoma con un'interfaccia utente grafica (GUI) per l'accesso ai dati di Azure Data Lake Storage. Per accedere ai dati è anche possibile usare PowerShell, l'interfaccia della riga di comando di Azure, l'interfaccia della riga di comando di HDFS o altri SDK del linguaggio di programmazione.
Configurare il controllo di accesso. Controllare chi può accedere ai dati archiviati in Azure Data Lake Storage implementando un meccanismo di autorizzazione. È possibile scegliere il controllo degli accessi in base al ruolo di Azure o l'elenco di controllo di accesso.
Scenario aziendale
Tailwind Traders usa molteplici origini dati, tra cui Web, sistemi POS (Point of Sale), siti di social media e dispositivi IoT (Internet delle cose). L'azienda è interessata all'uso di Azure per l'analisi di tutti i dati aziendali. Si riceve l'incarico di fornire indicazioni su come ottimizzare i sistemi di business intelligence esistenti con Azure. È necessario consigliare al team in che modo le funzionalità di archiviazione di Azure possono aggiungere valore alla soluzione BI dell'azienda. Per soddisfare i requisiti dei dati, si intende raccomandare Azure Data Lake Storage. Data Lake Storage offre un repository in cui è possibile caricare e archiviare quantità eccezionali di dati non strutturati in vista dell'analisi dei Big Data a prestazioni elevate.
Esaminiamo perché Azure Data Lake Storage può essere la scelta giusta per i requisiti di Big Data dell'organizzazione.
Scenario | Soluzione |
---|---|
Fornire un data warehouse nel cloud per la gestione di grandi volumi di dati. | Azure Data Lake Storage viene eseguito su hardware virtuale nella piattaforma Azure. L'archiviazione è scalabile, veloce e affidabile senza richiedere costi elevati. Separa i costi di archiviazione dai costi di calcolo. Con l'aumentare del volume di dati, cambiano solo i requisiti di archiviazione. |
Supportare una raccolta diversificata di tipi di dati, ad esempio file JSON, CSV, file di log e altri formati. | Azure Data Lake Storage consente la democratizzazione dei dati per l'organizzazione archiviando tutti i formati di dati (inclusi i dati non elaborati) in un'unica posizione. Eliminando i silo di dati, gli utenti possono usare strumenti come Esplora dati di Azure per accedere e usare ogni dato nei loro account di archiviazione. |
Abilitare l'inserimento e l'archiviazione dei dati in tempo reale. | Azure Data Lake Storage può inserire dati in tempo reale direttamente da un'istanza di Apache Storm in Azure HDInsight, hub IoT di Azure, Hub eventi di Azure o Analisi di flusso di Azure. Funziona anche con dati semi-strutturati e consente di inserire tutti i dati in tempo reale nel proprio account di archiviazione. |
Aspetti da considerare quando si sceglie Archiviazione BLOB di Azure o Azure Data Lake
La tabella seguente confronta i criteri della soluzione di archiviazione per l'uso di Archiviazione BLOB di Azure rispetto ad Azure Data lake. Esaminare i criteri e valutare la soluzione ottimale per Tailwind Traders.
Confronta | Azure Data Lake | Archiviazione BLOB di Azure |
---|---|---|
Tipo di dati | Utile per l'archiviazione di grandi volumi di dati di testo | Utile per archiviare dati non strutturati non basati su testo, come foto, video e backup |
Ridondanza geografica | È necessario configurare manualmente la replica dei dati | Per impostazione predefinita, fornisce spazio di archiviazione con ridondanza geografica |
Namespaces (Spazi dei nomi) | Supporta spazi dei nomi gerarchici | Supporta spazi dei nomi flat |
Compatibilità con Hadoop | I servizi Hadoop possono usare i dati archiviati in Azure Data Lake | Tramite ABFS (Azure Blob Filesystem Driver), le applicazioni e i framework possono accedere ai dati in Archiviazione BLOB di Azure |
Sicurezza | Supporta l'accesso granulare | L'accesso granulare non è supportato |