Progettare una soluzione analitica e di integrazione dei dati con Azure Databricks
Azure Databricks è una piattaforma Big Data e Machine Learning completamente gestita, che consente agli sviluppatori di accelerare l'IA e l'innovazione. Azure Databricks offre ai team di data science e engineering una singola piattaforma per l'elaborazione e l'Machine Learning dei Big Data. La piattaforma Apache Spark gestita Azure Databricks semplifica l'esecuzione di carichi di lavoro Spark su larga scala.
Cose da sapere su Azure Databricks
Azure Databricks si basa interamente su Apache Spark ed è uno strumento ideale per gli utenti che hanno già familiarità con il framework open source di cluster computing. Databricks è progettato appositamente per l'elaborazione di Big Data. I data scientist possono sfruttare l'API di base predefinita per linguaggi di base come SQL, Java, Python, R e Scala.
Azure Databricks ha un piano di controllo e un piano di calcolo:
Piano di controllo: ospita processi di Databricks, notebook con risultati di query e gestione cluster. Il piano di controllo include anche l'applicazione Web, gli elenchi di controllo di accesso alla sicurezza (ACL) e le sessioni utente. Microsoft gestisce questi componenti in collaborazione con Azure Databricks.
Compute Plane: contiene tutti i cluster di runtime Azure Databricks ospitati nell'area di lavoro. Tutte le operazioni di elaborazione e archiviazione dei dati vengono eseguite nella sottoscrizione client,
Azure Databricks offre tre ambienti per lo sviluppo di applicazioni a elevato utilizzo di dati.
Databricks SQL: Azure Databricks SQL offre una piattaforma facile da usare per gli analisti che vogliono eseguire query SQL nel data lake. È possibile creare più tipi di visualizzazione per esplorare i risultati delle query da prospettive diverse e creare e condividere dashboard.
Databricks Data Science & Engineering: Azure Databricks Data Science & Ingegneria consente ai team di data di collaborare in un'area di lavoro interattiva. I dati vengono inseriti in Azure tramite strumenti batch o in tempo reale, ad esempio Azure Data Factory, Kafka, Hub eventi o hub IoT. I dati vengono archiviati in Archiviazione BLOB di Azure o in Data Lake Storage. Databricks legge i dati da queste origini e usa Spark per generare informazioni dettagliate.
Databricks Machine Learning: Azure Databricks Machine Learning è un ambiente di machine learning end-to-end integrato. Include servizi gestiti per il monitoraggio degli esperimenti, il training dei modelli, lo sviluppo e la gestione delle caratteristiche e la distribuzione di caratteristiche e modelli.
Scenario aziendale
Analizziamo uno scenario per Tailwind Traders nella divisione di produzione di macchinari pesanti. Tailwind Traders usa Azure servizi cloud per le proprie esigenze di Big Data. Lavora sia con i dati batch che con i dati in streaming. La divisione si avvale di ingegneri dei dati, scienziati dei dati e analisti dei dati che collaborano per produrre report dettagliati rapidi per molti stakeholder. Per soddisfare i requisiti dei Big Data, hai intenzione di consigliare Azure Databricks e implementare l'ambiente Data Science e Engineering.
Esaminiamo il motivo per cui Azure Databricks può essere la scelta giusta per soddisfare questi requisiti.
Azure Databricks è un'area di lavoro di analisi basata su Apache Spark.
Supporta la collaborazione e gestisce i dati strutturati e di streaming.
Si integra con strumenti in tempo reale come Kafka e Flume.
Consente agli utenti di lavorare con Python, Scala o R.
Si connette a Azure database e soluzioni di archiviazione, soddisfando le esigenze dei Big Data.
Funziona con Power BI per ottenere informazioni rapide.
Databricks SQL e Machine Learning non sono adatti, perché non sono necessari dati non strutturati e machine learning.
Aspetti da considerare quando si usa Azure Databricks
È possibile usare Azure Databricks come soluzione per più scenari. Valutare il modo in cui il servizio può trarre vantaggio dalla soluzione di integrazione dei dati per Tailwind Traders.
Prendere in considerazione la preparazione scientifica dei dati. Creare, clonare e modificare cluster di dati complessi e non strutturati. Trasforma i cluster di dati in attività specifiche. Fornire i risultati agli scienziati dei dati e agli analisti dei dati per la revisione.
Prendere in considerazione le informazioni dettagliate nei dati. Implementare Azure Databricks per creare motori di raccomandazione, analisi della varianza e rilevamento delle intrusioni.
Prendere in considerazione la produttività tra i team di dati e di analisi. Creare un ambiente collaborativo e aree di lavoro condivise per ingegneri, analisti e scienziati dei dati. I team possono collaborare durante l'intero ciclo di vita di data science con aree di lavoro condivise, consentendo di risparmiare tempo e risorse preziose.
Prendere in considerazione i carichi di lavoro di Big Data. Usare Azure Data Lake e il motore per ottenere prestazioni e affidabilità ottimali per i carichi di lavoro di Big Data. Creare pipeline di dati in più passaggi senza complicazioni.
Prendere in considerazione i programmi di Machine Learning. Sfruttare i vantaggi dell'ambiente di Machine Learning end-to-end integrato. Include servizi gestiti per il monitoraggio degli esperimenti, il training dei modelli, lo sviluppo e la gestione delle caratteristiche e la distribuzione di caratteristiche e modelli.
Suggerimento
Scopri di più con formazione autodidatta, Explore Azure Databricks.