Apache Spark su Azure Databricks

Apache Spark è al centro della piattaforma di data intelligence di Azure Databricks ed è la tecnologia che alimenta i cluster di calcolo e i data warehouse SQL. Azure Databricks è una piattaforma ottimizzata per Apache Spark che offre una piattaforma efficiente e semplice per l'esecuzione di carichi di lavoro Apache Spark.

Qual è la relazione tra Apache Spark e Azure Databricks?

La società Databricks è stata fondata dai creatori originali di Apache Spark. Come progetto software open source, Apache Spark dispone di commiter di molte aziende principali, tra cui Databricks.

Databricks continua a sviluppare e rilasciare funzionalità in Apache Spark. Databricks Runtime, che supporta Azure Databricks, include ottimizzazioni aggiuntive e funzionalità proprietarie basate su Apache Spark, tra cui Photon, un livello di esecuzione ottimizzato che può essere usato insieme a Spark. Databricks Photon è progettato per funzionare e migliorare le prestazioni dei carichi di lavoro Apache Spark. Photon migliora le prestazioni di Spark vettorizzando query e altre operazioni, consentendo un'esecuzione più rapida delle operazioni API SQL e DataFrame.

In che modo Databricks è ottimizzato per Apache Spark?

In Apache Spark tutte le operazioni vengono definite come trasformazioni o azioni.

Trasformazioni: aggiungere una logica di elaborazione al piano. Alcuni esempi includono la lettura di dati, join, aggregazioni e conversione dei tipi.
Azioni: attivare la logica di elaborazione per valutare e restituire un risultato. Gli esempi includono scritture, visualizzazione o anteprima dei risultati, memorizzazione nella cache manuale o recupero del numero di righe.

Apache Spark usa un modello di esecuzione differita, il che significa che nessuna delle logiche definite da una raccolta di operazioni viene valutata finché non si attiva un'azione. Per evitare la valutazione non necessaria della logica, usare solo le azioni per salvare i risultati in una tabella di destinazione.

Poiché le azioni rappresentano un collo di bottiglia di elaborazione per l'ottimizzazione della logica, Azure Databricks ha aggiunto numerose ottimizzazioni oltre a quelle già presenti in Apache Spark per garantire un'esecuzione ottimale della logica. Queste ottimizzazioni considerano tutte le trasformazioni attivate da una determinata azione contemporaneamente e trovano il piano ottimale in base al layout fisico dei dati. La memorizzazione manuale nella cache dei dati o la restituzione dei risultati dell'anteprima nelle pipeline di produzione può interrompere queste ottimizzazioni e comportare un aumento dei costi e della latenza.

Come funziona Apache Spark in Azure Databricks?

Quando si distribuisce un cluster di calcolo o SQL Warehouse in Azure Databricks, Apache Spark viene configurato e distribuito nelle macchine virtuali. Non è necessario configurare o inizializzare un contesto Spark o una sessione Spark, perché vengono gestiti automaticamente da Azure Databricks.

È possibile usare Azure Databricks senza usare Apache Spark?

Sì. Azure Databricks supporta un'ampia gamma di carichi di lavoro e include librerie open source in Databricks Runtime. Databricks SQL usa Photon , ma gli utenti finali possono usare la sintassi Spark SQL per creare ed eseguire query su oggetti di database con Photon.

Databricks Runtime per Machine Learning è ottimizzato per i carichi di lavoro ml e molti data scientist usano librerie open source primarie come TensorFlow e SciKit Learn durante l'uso di Azure Databricks. È possibile usare i processi per pianificare carichi di lavoro arbitrari rispetto alle risorse di calcolo distribuite e gestite da Azure Databricks.

Perché usare Apache Spark in Azure Databricks?

La piattaforma Databricks offre un ambiente sicuro e collaborativo per lo sviluppo e la distribuzione di soluzioni aziendali scalabili con l'azienda. I dipendenti di Databricks includono molti dei gestori e degli utenti di Apache Spark più esperti al mondo. L'azienda sviluppa e rilascia continuamente nuove ottimizzazioni per garantire che gli utenti possano accedere all'ambiente più veloce per l'esecuzione di Apache Spark.

Come è possibile ottenere altre informazioni sull'uso di Apache Spark in Azure Databricks?

Per iniziare a usare Apache Spark su Azure Databricks, tuffati subito! L'esercitazione sui dataframe Apache Spark illustra il caricamento e la trasformazione dei dati in Python, R o Scala. Vedere Esercitazione: Caricare e trasformare i dati utilizzando DataFrames di Apache Spark. Per altre guide e collegamenti ad altre informazioni, vedere Apache Spark in Azure Databricks.

Per altre informazioni sul supporto del linguaggio Python, R e Scala in Spark, vedere PySpark in Azure Databricks, sparklyr e Azure Databricks per sviluppatori Scala, oltre a Informazioni di riferimento sulle API Apache Spark.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-09-18