Architettura di analisi moderna con Azure Databricks

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Idee per le soluzioni

Questo articolo è un'idea di soluzione. Per espandere il contenuto con altre informazioni, ad esempio potenziali casi d'uso, servizi alternativi, considerazioni sull'implementazione o indicazioni sui prezzi, inviare commenti e suggerimenti su GitHub.

Questa soluzione descrive un'architettura dei dati moderna. Azure Databricks costituisce il nucleo della soluzione. Questa piattaforma funziona perfettamente con altri servizi, ad esempio Azure Data Lake Archiviazione Gen2, Azure Data Factory, Azure Synapse Analytics e Power BI.

Apache e Apache® Spark™ sono marchi registrati o marchi di Apache Software Foundation nei Stati Uniti e/o in altri paesi. L'uso di questi marchi non implica alcuna approvazione da parte di Apache Software Foundation.

Architettura

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Scaricare un file di Visio di questa architettura.

Flusso di dati

  1. Azure Databricks inserisce dati di streaming non elaborati da Hub eventi di Azure.

  2. Data Factory carica i dati batch non elaborati in Data Lake Archiviazione Gen2.

  3. Per l'archiviazione dei dati:

    • Data Lake Archiviazione Gen2 ospita dati di tutti i tipi, ad esempio strutturati, non strutturati e semistrutturati. Archivia anche i dati batch e di streaming.

    • Delta Lake costituisce il livello curato del data lake. Archivia i dati perfezionati in un formato open source.

    • Azure Databricks funziona bene con un'architettura medallion che organizza i dati in livelli:

      • Bronze: contiene dati non elaborati.
      • Silver: contiene dati puliti e filtrati.
      • Gold: archivia i dati aggregati utili per l'analisi aziendale.
  4. La piattaforma analitica inserisce i dati dalle origini batch e di streaming diverse. I data scientist usano questi dati per queste attività:

    • Preparazione dei dati.
    • Esplorazione dei dati.
    • Preparazione del modello.
    • Training del modello.

    MLflow gestisce le esecuzioni dei parametri, delle metriche e del modello nel codice di data science. Le possibilità di codifica sono flessibili:

    • Il codice può essere in SQL, Python, R e Scala.
    • Il codice può usare librerie e framework open source più diffusi, ad esempio Koalas, Pandas e scikit-learn, preinstallati e ottimizzati.
    • I professionisti possono ottimizzare le prestazioni e i costi con opzioni di calcolo a nodo singolo e multinodo.
  5. I modelli di Machine Learning sono disponibili in diversi formati:

    • Azure Databricks archivia informazioni sui modelli nel Registro modelli MLflow. Il Registro di sistema rende disponibili i modelli tramite batch, streaming e API REST.
    • La soluzione può anche distribuire modelli in servizi Web di Azure Machine Learning o servizio Azure Kubernetes (servizio Azure Kubernetes).
  6. I servizi che funzionano con i dati si connettono a una singola origine dati sottostante per garantire la coerenza. Ad esempio, gli utenti possono eseguire query SQL nel data lake con Analisi SQL di Azure Databricks. Questo servizio:

  7. Power BI genera report analitici e cronologici e dashboard dalla piattaforma dati unificata. Questo servizio usa queste funzionalità quando si usa Azure Databricks:

    • Connettore predefinito di Azure Databricks per la visualizzazione dei dati sottostanti.
    • Driver Java Database Connessione ivity (JDBC) e Open Database Connessione ivity (ODBC).
  8. Gli utenti possono esportare set di dati gold dal data lake in Azure Synapse tramite il connettore Synapse ottimizzato. I pool SQL in Azure Synapse forniscono un ambiente di data warehousing e calcolo.

  9. La soluzione usa i servizi di Azure per la collaborazione, le prestazioni, l'affidabilità, la governance e la sicurezza:

    • Microsoft Purview offre servizi di individuazione dei dati, classificazione dei dati sensibili e informazioni dettagliate sulla governance nel patrimonio di dati.

    • Azure DevOps offre integrazione continua e distribuzione continua (CI/CD) e altre funzionalità di controllo della versione integrate.

    • Azure Key Vault gestisce in modo sicuro segreti, chiavi e certificati.

    • Microsoft Entra ID fornisce l'accesso Single Sign-On (SSO) per gli utenti di Azure Databricks. Azure Databricks supporta il provisioning utenti automatizzato con Microsoft Entra ID per queste attività:

      • Creazione di nuovi utenti.
      • Assegnazione di un livello di accesso a ogni utente.
      • Rimozione di utenti e negazione dell'accesso.
    • Monitoraggio di Azure raccoglie e analizza i dati di telemetria delle risorse di Azure. Identificando in modo proattivo i problemi, questo servizio ottimizza le prestazioni e l'affidabilità.

    • Gestione costi e fatturazione di Azure forniscono servizi di governance finanziaria per i carichi di lavoro di Azure.

Componenti

La soluzione usa i componenti seguenti.

Componenti principali

  • Azure Databricks è una piattaforma di analisi dei dati. I cluster Spark completamente gestiti elaborano flussi ingenti di dati provenienti da più origini. Azure Databricks pulisce e trasforma set di dati non strutturati. Combina i dati elaborati con i dati strutturati provenienti da database operativi o data warehouse. Azure Databricks, inoltre, addestra e distribuisce modelli di Machine Learning e Deep Learning scalabili.

  • Hub eventi è una piattaforma di streaming di Big Data. Come piattaforma distribuita come servizio (PaaS), questo servizio di inserimento eventi è completamente gestito.

  • Data Factory è un servizio di integrazione di dati ibridi. È possibile usare questa soluzione completamente gestita, serverless per creare, pianificare e orchestrare flussi di lavoro di trasformazione dei dati.

  • Data Lake Archiviazione Gen2 è un data lake scalabile e sicuro per carichi di lavoro di analisi ad alte prestazioni. Questo servizio è in grado di gestire diversi petabyte di informazioni supportando al tempo stesso centinaia di gigabit di velocità effettiva. I dati possono essere strutturati, semistrutturati o non strutturati. In genere proviene da più origini eterogenee, ad esempio log, file e supporti.

  • Analisi SQL di Azure Databricks esegue query sui data lake. Questo servizio visualizza anche i dati nei dashboard.

  • Machine Learning è un ambiente basato sul cloud che consente di compilare, distribuire e gestire soluzioni di analisi predittiva. Con questi modelli è possibile prevedere comportamento, risultati e tendenze.

  • Il servizio Azure Kubernetes è un servizio Kubernetes a disponibilità elevata, sicuro e completamente gestito. Il servizio Azure Kubernetes semplifica la distribuzione e la gestione delle applicazioni in contenitori.

  • Azure Synapse è un servizio di analisi per data warehouse e sistemi Big Data. Questo servizio si integra con Power BI, Machine Learning e altri servizi di Azure.

  • I connettori di Azure Synapse consentono di accedere ad Azure Synapse da Azure Databricks. Questi connettori trasferiscono in modo efficiente grandi volumi di dati tra cluster di Azure Databricks e istanze di Azure Synapse.

  • I pool SQL forniscono un ambiente di data warehousing e calcolo in Azure Synapse. I pool sono compatibili con Archiviazione di Azure e Data Lake Archiviazione Gen2.

  • Delta Lake è un livello di archiviazione che usa un formato di file aperto. Questo livello viene eseguito sull'archiviazione cloud, ad esempio Data Lake Archiviazione Gen2. Delta Lake supporta il controllo delle versioni dei dati, il rollback e le transazioni per l'aggiornamento, l'eliminazione e l'unione dei dati.

  • MLflow è una piattaforma open source per il ciclo di vita di Machine Learning. I componenti monitorano i modelli di Machine Learning durante il training e l'esecuzione. MLflow archivia anche i modelli e li carica nell'ambiente di produzione.

Creazione di report e gestione dei componenti

  • Power BI è una raccolta di app e servizi software. Questi servizi creano e condividono report che si connettono e visualizzano origini dati non correlate. Insieme ad Azure Databricks, Power BI può fornire la determinazione della causa radice e l'analisi dei dati non elaborati.

  • Microsoft Purview gestisce i dati SaaS (Software as a Service) locali, multicloud e software. Questo servizio di governance gestisce le mappe orizzontale dei dati. Le funzionalità includono l'individuazione automatica dei dati, la classificazione dei dati sensibili e la derivazione dei dati.

  • Azure DevOps è una piattaforma di orchestrazione DevOps . Questo SaaS fornisce strumenti e ambienti per la compilazione, la distribuzione e la collaborazione alle applicazioni.

  • Azure Key Vault archivia e controlla l'accesso ai segreti, come token, password e chiavi API. Key Vault crea e controlla anche le chiavi di crittografia e gestisce i certificati di sicurezza.

  • Microsoft Entra ID offre servizi di gestione delle identità e degli accessi basati sul cloud. Queste funzionalità consentono agli utenti di accedere e accedere alle risorse.

  • Monitoraggio di Azure raccoglie e analizza i dati in ambienti e risorse di Azure. Questi dati includono i dati di telemetria delle app, ad esempio le metriche delle prestazioni e i log attività.

  • Gestione costi e fatturazione di Azure gestiscono la spesa cloud. Usando budget e consigli, questo servizio organizza le spese e mostra come ridurre i costi.

Dettagli dello scenario

Le architetture di dati moderne soddisfano questi criteri:

  • Unificare i carichi di lavoro di dati, analisi e intelligenza artificiale.
  • L'esecuzione viene eseguita in modo efficiente e affidabile su qualsiasi scala.
  • Fornire informazioni dettagliate tramite dashboard di analisi, report operativi o analisi avanzate.

Questa soluzione descrive un'architettura dei dati moderna che raggiunge questi obiettivi. Azure Databricks costituisce il nucleo della soluzione. Questa piattaforma funziona perfettamente con altri servizi. Insieme, questi servizi offrono una soluzione con queste qualità:

  • Semplice: l'analisi unificata, l'analisi scientifica dei dati e l'apprendimento automatico semplificano l'architettura dei dati.
  • Open: la soluzione supporta codice open source, standard aperti e framework aperti. Funziona anche con i più diffusi ambienti di sviluppo integrato (IDE), librerie e linguaggi di programmazione. Tramite connettori nativi e API, la soluzione funziona anche con un'ampia gamma di altri servizi.
  • Collaborazione: i data engineer, i data scientist e gli analisti collaborano con questa soluzione. Possono usare notebook collaborativi, IDE, dashboard e altri strumenti per accedere e analizzare i dati sottostanti comuni.

Potenziali casi d'uso

Il sistema che Swiss Re Group ha costruito per la sua divisione Property & Casualty Trustworthy ha ispirato questa soluzione. Oltre al settore assicurativo, qualsiasi area che funziona con Big Data o Machine Learning può anche trarre vantaggio da questa soluzione. Alcuni esempi:

  • Il settore energetico
  • Al dettaglio ed e-commerce
  • Servizi bancari e finanziari
  • Medicina e sanità

Passaggi successivi

Per informazioni sulle soluzioni correlate, vedere gli argomenti seguenti: