Calcolo

Il calcolo di Azure Databricks fa riferimento alla selezione delle risorse di calcolo disponibili nell'area di lavoro di Azure Databricks. Gli utenti devono accedere al calcolo per eseguire carichi di lavoro di ingegneria dei dati, data science e analisi dei dati, ad esempio pipeline ETL di produzione, analisi di streaming, analisi ad hoc e Machine Learning.

Gli utenti possono connettersi a risorse di calcolo esistenti o creare nuove risorse di calcolo se dispongono delle autorizzazioni appropriate.

È possibile visualizzare il calcolo a cui si ha accesso usando la sezione Calcolo dell'area di lavoro:

Pagina di calcolo tutto scopo nell'area di lavoro di Databricks

Tipi di ambienti di calcolo

Questi sono i tipi di calcolo disponibili in Azure Databricks:

  • Calcolo serverless per notebook (anteprima pubblica): calcolo scalabile su richiesta usato per eseguire codice SQL e Python nei notebook.

  • Calcolo serverless per i flussi di lavoro (anteprima pubblica): calcolo scalabile su richiesta usato per eseguire i processi di Databricks senza configurare e distribuire l'infrastruttura.

  • Calcolo all-purpose: calcolo con provisioning usato per analizzare i dati nei notebook. È possibile creare, terminare e riavviare questo calcolo usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST.

  • Calcolo del processo: calcolo con provisioning usato per eseguire processi automatizzati. L'utilità di pianificazione dei processi di Azure Databricks crea automaticamente un calcolo del processo ogni volta che un processo è configurato per l'esecuzione in un nuovo ambiente di calcolo. Il calcolo termina al termine del processo. Non è possibile riavviare un calcolo del processo. Vedere Usare il calcolo di Azure Databricks con i processi.

  • Pool di istanze: calcolo con istanze inattive, pronte per l'uso, usate per ridurre i tempi di avvio e scalabilità automatica. È possibile creare questo calcolo usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST.

  • Sql Warehouse serverless: calcolo elastico su richiesta usato per eseguire comandi SQL sugli oggetti dati nell'editor SQL o nei notebook interattivi. È possibile creare warehouse SQL usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST.

  • Sql Warehouse classici: calcolo con provisioning usato per eseguire comandi SQL sugli oggetti dati nell'editor SQL o nei notebook interattivi. È possibile creare warehouse SQL usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST.

Gli articoli di questa sezione descrivono come usare le risorse di calcolo usando l'interfaccia utente di Azure Databricks. Per altri metodi, vedere Usare la riga di comando e le informazioni di riferimento sull'API REST di Databricks.

Databricks Runtime

Databricks Runtime è il set di componenti di base eseguiti nel calcolo. Databricks Runtime è un'impostazione configurabile in tutti gli scopi di calcolo dei processi, ma selezionata automaticamente in SQL Warehouse.

Ogni versione di Databricks Runtime include aggiornamenti che migliorano l'usabilità, le prestazioni e la sicurezza dell'analisi dei Big Data. Databricks Runtime nell'ambiente di calcolo aggiunge molte funzionalità, tra cui:

  • Delta Lake, un livello di archiviazione di nuova generazione basato su Apache Spark che fornisce transazioni ACID, layout e indici ottimizzati e miglioramenti del motore di esecuzione per la creazione di pipeline di dati. Vedere Che cos'è Delta Lake?.
  • Librerie Java, Scala, Python e R installate.
  • Ubuntu e le librerie di sistema abbinate.
  • Librerie GPU per cluster abilitati per GPU.
  • Servizi di Azure Databricks che si integrano con altri componenti della piattaforma, ad esempio notebook, processi e gestione del cluster.

Per informazioni sul contenuto di ogni versione di runtime, vedere le note sulla versione.

Controllo delle versioni di runtime

Le versioni di Databricks Runtime vengono rilasciate regolarmente:

  • Le versioni di supporto a lungo termine sono rappresentate da un qualificatore LTS (ad esempio, 3.5 LTS). Per ogni versione principale, dichiariamo una versione della funzionalità "canonica", per cui forniamo tre anni di supporto completi. Per altre informazioni, vedere Ciclo di vita del supporto del runtime di Databricks.
  • Le versioni principali sono rappresentate da un incremento al numero di versione che precede il separatore decimale ,ad esempio il passaggio da 3,5 a 4.0. Vengono rilasciati quando sono presenti modifiche importanti, alcune delle quali potrebbero non essere compatibili con le versioni precedenti.
  • Le versioni delle funzionalità sono rappresentate da un incremento al numero di versione che segue il separatore decimale (ad esempio, il passaggio da 3.4 a 3.5). Ogni versione principale include più versioni delle funzionalità. Le versioni delle funzionalità sono sempre compatibili con le versioni precedenti all'interno della versione principale.