Progettare una soluzione di integrazione dei dati con Azure Data Lake

Completato

Un Data Lake è un repository di dati archiviato in formato naturale, in genere BLOB o file. Azure Data Lake Storage è una soluzione data lake completa, altamente scalabile e conveniente per l'analisi dei Big Data integrata in Azure. Azure Data Lake Storage combina un file system e una piattaforma di archiviazione, per consentire una rapida identificazione delle informazioni dettagliate all'interno dei dati. La soluzione si basa sulle funzionalità di Archiviazione BLOB di Azure per offrire ottimizzazioni per i carichi di lavoro di analisi. Questa integrazione offre funzionalità di analisi delle prestazioni, disponibilità elevata, sicurezza e durabilità di Archiviazione di Azure.

Nota

L'implementazione corrente del servizio è Azure Data Lake Storage Gen2.

Informazioni su Azure Data Lake Storage

Per una maggiore comprensione di Azure Data Lake Storage, verranno esaminate le caratteristiche seguenti.

  • Azure Data Lake Storage consente di archiviare qualsiasi tipo di dati usando il formato nativo dei dati. Con il supporto di qualsiasi formato di dati e di grandi quantità di dati, Azure Data Lake Storage può essere usato con dati strutturati, semistrutturati e non strutturati.
  • La soluzione è progettata principalmente per l'uso con Hadoop e con tutti i framework che usano il file system distribuito Apache Hadoop (HDFS) come livello di accesso ai dati. I framework di analisi dei dati che usano HDFS come livello di accesso ai dati possono accedere direttamente.
  • Azure Data Lake Storage supporta una velocità effettiva elevata per l'analisi intensiva di input/output e lo spostamento dei dati.
  • Il modello di controllo di accesso di Azure Data Lake Storage supporta il controllo degli accessi in base al ruolo (RBAC) di Azure e l'interfaccia del sistema operativo portatile per gli elenchi di controllo di accesso (ACL) UNIX (POSIX).
  • Azure Data Lake Storage utilizza i modelli di replica BLOB di Azure. Questi modelli offrono ridondanza dei dati in un singolo data center con archiviazione con ridondanza locale.
  • Azure Data Lake Storage offre la possibilità di archiviare grandi quantità di dati e accetta numerosi tipi di dati per l'analisi.
  • Azure Data Lake Storage è distribuito al prezzo dei livelli di Archiviazione BLOB di Azure.

Funzionamento di Azure Data Lake Storage

Per usare Azure Data Lake Storage sono necessari tre passaggi importanti:

  1. Inserire i dati. Azure Data Lake Storage offre vari metodi diversi di inserimento dati:

    • Per i dati non pianificati, è possibile usare strumenti come AzCopy, l'interfaccia della riga di comando di Azure, PowerShell e Azure Storage Explorer.
    • Per i dati relazionali, è possibile usare il servizio Azure Data Factory. È possibile trasferire dati da qualsiasi origine, ad esempio Azure Cosmos DB, Database SQL, istanze gestite di SQL di Azure e altro ancora.
    • Per i dati in streaming, è possibile usare strumenti come Apache Storm in Azure HDInsight, Analisi di flusso di Azure e così via.

    Il diagramma seguente mostra come i dati non pianificati e i dati in streaming vengono inseriti in blocco o non pianificati in Azure Data Lake Storage.

    Diagram that shows how unplanned data and streaming data are either bulk ingested or unplanned ingested in Azure Data Lake Storage.

  2. Accedere ai dati archiviati. Il modo più semplice per accedere ai dati è usare Azure Storage Explorer. Storage Explorer è un'applicazione autonoma con un'interfaccia utente grafica (GUI) per l'accesso ai dati di Azure Data Lake Storage. Per accedere ai dati è anche possibile usare PowerShell, l'interfaccia della riga di comando di Azure, l'interfaccia della riga di comando di HDFS o altri SDK del linguaggio di programmazione.

  3. Configurare il controllo di accesso. Controllare chi può accedere ai dati archiviati in Azure Data Lake Storage implementando un meccanismo di autorizzazione. È possibile scegliere il controllo degli accessi in base al ruolo di Azure o l'elenco di controllo di accesso.

Scenario aziendale

Tailwind Traders usa molteplici origini dati, tra cui Web, sistemi POS (Point of Sale), siti di social media e dispositivi IoT (Internet delle cose). L'azienda è interessata all'uso di Azure per l'analisi di tutti i dati aziendali. Si riceve l'incarico di fornire indicazioni su come ottimizzare i sistemi di business intelligence esistenti con Azure. È necessario consigliare al team in che modo le funzionalità di archiviazione di Azure possono aggiungere valore alla soluzione BI dell'azienda. Per soddisfare i requisiti dei dati, si intende raccomandare Azure Data Lake Storage. Data Lake Storage offre un repository in cui è possibile caricare e archiviare quantità eccezionali di dati non strutturati in vista dell'analisi dei Big Data a prestazioni elevate.

Esaminiamo perché Azure Data Lake Storage può essere la scelta giusta per i requisiti di Big Data dell'organizzazione.

Scenario Soluzione
Fornire un data warehouse nel cloud per la gestione di grandi volumi di dati. Azure Data Lake Storage viene eseguito su hardware virtuale nella piattaforma Azure. L'archiviazione è scalabile, veloce e affidabile senza richiedere costi elevati. Separa i costi di archiviazione dai costi di calcolo. Con l'aumentare del volume di dati, cambiano solo i requisiti di archiviazione.
Supportare una raccolta diversificata di tipi di dati, ad esempio file JSON, CSV, file di log e altri formati. Azure Data Lake Storage consente la democratizzazione dei dati per l'organizzazione archiviando tutti i formati di dati (inclusi i dati non elaborati) in un'unica posizione. Eliminando i silo di dati, gli utenti possono usare strumenti come Esplora dati di Azure per accedere e usare ogni dato nei loro account di archiviazione.
Abilitare l'inserimento e l'archiviazione dei dati in tempo reale. Azure Data Lake Storage può inserire dati in tempo reale direttamente da un'istanza di Apache Storm in Azure HDInsight, hub IoT di Azure, Hub eventi di Azure o Analisi di flusso di Azure. Funziona anche con dati semi-strutturati e consente di inserire tutti i dati in tempo reale nel proprio account di archiviazione.

Aspetti da considerare quando si sceglie Archiviazione BLOB di Azure o Azure Data Lake

La tabella seguente confronta i criteri della soluzione di archiviazione per l'uso di Archiviazione BLOB di Azure rispetto ad Azure Data lake. Esaminare i criteri e valutare la soluzione ottimale per Tailwind Traders.

Confronta Azure Data Lake Archiviazione BLOB di Azure
Tipo di dati Utile per l'archiviazione di grandi volumi di dati di testo Utile per archiviare dati non strutturati non basati su testo, come foto, video e backup
Ridondanza geografica È necessario configurare manualmente la replica dei dati Per impostazione predefinita, fornisce spazio di archiviazione con ridondanza geografica
Namespaces (Spazi dei nomi) Supporta spazi dei nomi gerarchici Supporta spazi dei nomi flat
Compatibilità con Hadoop I servizi Hadoop possono usare i dati archiviati in Azure Data Lake Tramite ABFS (Azure Blob Filesystem Driver), le applicazioni e i framework possono accedere ai dati in Archiviazione BLOB di Azure
Sicurezza Supporta l'accesso granulare L'accesso granulare non è supportato