Scegliere una tecnologia di elaborazione batch in Azure

Le soluzioni Big Data spesso sono costituite da attività di elaborazione batch discrete che contribuiscono alla soluzione di elaborazione dei dati complessiva. È possibile usare l'elaborazione batch per i carichi di lavoro che non richiedono l'accesso immediato alle informazioni dettagliate. L'elaborazione batch può integrare i requisiti di elaborazione in tempo reale. È anche possibile usare l'elaborazione batch per bilanciare la complessità e ridurre i costi per l'implementazione complessiva.

Il requisito fondamentale dei motori di elaborazione batch consiste nell'aumentare le istanze dei calcoli per gestire un volume elevato di dati. A differenza dell'elaborazione in tempo reale, l'elaborazione batch ha latenze o il tempo tra l'inserimento dei dati e il calcolo di un risultato, di minuti o ore.

Scegliere una tecnologia per l'elaborazione batch

Microsoft offre diversi servizi che è possibile usare per eseguire l'elaborazione batch.

Microsoft Fabric

Microsoft Fabric è una piattaforma dati e analisi all-in-one per le organizzazioni. Si tratta di un'offerta software come servizio che semplifica il provisioning, la gestione e la governance di una soluzione di analisi end-to-end. Fabric gestisce lo spostamento, l'elaborazione, l'inserimento, la trasformazione e la reportistica dei dati. Le funzionalità di infrastruttura usate per l'elaborazione batch includono progettazione dei dati, data warehouse, lakehouse ed elaborazione di Apache Spark. Azure Data Factory in Fabric supporta anche lakehouse. Per semplificare e accelerare lo sviluppo, è possibile abilitare copilot guidato dall'intelligenza artificiale.

Linguaggi: R, Python, Java, Scala e SQL
Sicurezza: rete virtuale gestita e controllo degli accessi in base al ruolo (RBAC) di OneLake
Archiviazione primaria: OneLake, con scelte rapide e opzioni di mirroring
Spark: un pool di avvio preidratato e un pool di Spark personalizzato con dimensioni predefinite dei nodi

Azure Databricks

Azure Databricks è una piattaforma di analisi basata su Spark. Offre funzionalità Spark avanzate e premium basate su Spark open source. Azure Databricks è un servizio Microsoft che si integra con il resto dei servizi di Azure. Offre configurazioni aggiuntive per le distribuzioni di cluster Spark. Unity Catalog semplifica la governance degli oggetti Spark di Azure Databricks.

Linguaggi: R, Python, Java, Scala e Spark SQL.
Sicurezza: autenticazione utente con MICROSOFT Entra ID.
Archiviazione primaria: Integrazione predefinita con Archiviazione BLOB di Azure, Data Lake Storage, Fabric OneLake e altri servizi. Per altre informazioni, vedere Origini dati.

Altri vantaggi includono:

Notebook basati sul Web per la collaborazione e l'esplorazione dei dati.
Tempi di avvio rapidi del cluster, terminazione automatica e scalabilità automatica.
Supporto per i cluster abilitati per GPU.

Criteri di scelta principali

Per scegliere la tecnologia per l'elaborazione batch, considerare le domande seguenti:

Si vuole un servizio gestito o si vogliono gestire i propri server?
Si desidera creare la logica di elaborazione batch in modo dichiarativo o imperativo?
Eseguite l'elaborazione batch a scatti? In caso affermativo, prendere in considerazione le opzioni che consentono di terminare automaticamente un cluster o che dispongono di modelli di prezzi per ogni processo batch.
È necessario eseguire query sugli archivi dati relazionali durante l'elaborazione batch, ad esempio per cercare dati di riferimento? In caso affermativo, prendere in considerazione le opzioni che consentono di eseguire query su archivi relazionali esterni.

Matrice delle funzionalità

Le tabelle seguenti riepilogano le differenze principali nelle funzionalità tra i servizi.

Funzionalità generali

Capacità	Tessuto	Azure Databricks
Software come un servizio	Sì¹	NO
Servizio gestito	NO	Sì
Archivio dati relazionale	Sì	Sì
Modello di determinazione prezzi	Unità di capacità	Unità ^{di Azure Databricks 2} e ora del cluster

[1] Capacità dell'infrastruttura assegnata.

[2] Un'unità di Azure Databricks è la funzionalità di elaborazione all'ora.

Altre funzionalità

Capacità	Tessuto	Azure Databricks
Scalabilità automatica	NO	Sì
Granularità della scalabilità orizzontale	SKU per infrastruttura	Per raggruppamento
Cache in memoria dei dati	NO	Sì
Query da archivi relazionali esterni	Sì	Sì
Autenticazione	Microsoft Entra ID	Microsoft Entra ID
Controllo	Sì	Sì
Sicurezza a livello di riga	Sì	Sì
Supporto dei firewall	Sì	Sì
Mascheramento dinamico dei dati	Sì	Sì

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autori principali:

Zoiner Tejada | CEO e architetto
Pratima Valavala | Architetto principale delle soluzioni

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-12-11