Condividi tramite


Concetti relativi a Structured Streaming

Questo articolo offre un'introduzione a Structured Streaming di Azure Databricks.

Che cos'è Structured Streaming?

Apache Spark Structured Streaming è un motore di elaborazione quasi in tempo reale che offre tolleranza agli errori end-to-end con garanzie di elaborazione esattamente una volta utilizzando le familiari API di Spark. Structured Streaming consente di esprimere il calcolo su dati di streaming nello stesso modo in cui si esprime un calcolo batch su dati statici. Il motore Structured Streaming esegue il calcolo in modo incrementale e aggiorna continuamente il risultato man mano che arrivano dati di streaming.

Leggere da un flusso dei dati

È possibile usare Structured Streaming per inserire dati in modo incrementale da origini dati supportate. Le origini dei dati comuni includono quanto segue:

Ogni origine dati offre diverse opzioni per specificare come caricare batch di dati. Durante la configurazione del lettore, potrebbe essere necessario configurare le opzioni per eseguire le operazioni seguenti:

  • Specificare l'origine dati o il formato , ad esempio il tipo di file, i delimitatori e lo schema.
  • Configurare l'accesso ai sistemi di origine (ad esempio, impostazioni e credenziali della porta).
  • Specificare dove iniziare in un flusso (ad esempio, offset Kafka o leggere tutti i file esistenti).
  • Controllare la quantità di dati elaborati in ogni batch (ad esempio offset massimi, file o byte per batch). Consultare Configurare le dimensioni batch di Structured Streaming in Azure Databricks.

Scrivere in una destinazione dati

Un sink di dati è la destinazione di un'operazione di scrittura in streaming. I "sink" comuni utilizzati nei workload di streaming di Azure Databricks includono i seguenti:

  • Delta Lake
  • Bus e code dei messaggi
  • Database di valori chiave

Come per le origini dei dati, la maggior parte dei depositi di dati offre una serie di opzioni per controllare il modo in cui i dati vengono scritti nel sistema di destinazione. Durante la configurazione del writer, si specificano le opzioni seguenti: