Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo offre un'introduzione a Structured Streaming di Azure Databricks.
Che cos'è Structured Streaming?
Apache Spark Structured Streaming è un motore di elaborazione quasi in tempo reale che offre tolleranza agli errori end-to-end con garanzie di elaborazione esattamente una volta utilizzando le familiari API di Spark. Structured Streaming consente di esprimere il calcolo su dati di streaming nello stesso modo in cui si esprime un calcolo batch su dati statici. Il motore Structured Streaming esegue il calcolo in modo incrementale e aggiorna continuamente il risultato man mano che arrivano dati di streaming.
Leggere da un flusso dei dati
È possibile usare Structured Streaming per inserire dati in modo incrementale da origini dati supportate. Le origini dei dati comuni includono quanto segue:
- File di dati nell'archiviazione di oggetti cloud. Vedere Che cos'è l’Autoloader?.
- Bus e code di messaggi. Consulta Connettori Standard in Lakeflow Connect.
- Delta Lake. Consultare le operazioni di lettura e scrittura in streaming delle tabelle Delta.
Ogni origine dati offre diverse opzioni per specificare come caricare batch di dati. Durante la configurazione del lettore, potrebbe essere necessario configurare le opzioni per eseguire le operazioni seguenti:
- Specificare l'origine dati o il formato , ad esempio il tipo di file, i delimitatori e lo schema.
- Configurare l'accesso ai sistemi di origine (ad esempio, impostazioni e credenziali della porta).
- Specificare dove iniziare in un flusso (ad esempio, offset Kafka o leggere tutti i file esistenti).
- Controllare la quantità di dati elaborati in ogni batch (ad esempio offset massimi, file o byte per batch). Consultare Configurare le dimensioni batch di Structured Streaming in Azure Databricks.
Scrivere in una destinazione dati
Un sink di dati è la destinazione di un'operazione di scrittura in streaming. I "sink" comuni utilizzati nei workload di streaming di Azure Databricks includono i seguenti:
- Delta Lake
- Bus e code dei messaggi
- Database di valori chiave
Come per le origini dei dati, la maggior parte dei depositi di dati offre una serie di opzioni per controllare il modo in cui i dati vengono scritti nel sistema di destinazione. Durante la configurazione del writer, si specificano le opzioni seguenti:
- Modalità di output (accodamento per impostazione predefinita). Vedere Selezionare una modalità di output per Structured Streaming.
- Posizione del checkpoint (obbligatorio per ogni writer). Consulta Checkpoint di Structured Streaming.
- Intervalli di attivazione. Vedere Configurare gli intervalli di trigger del flusso strutturato.
- Opzioni che specificano la destinazione o il formato dei dati, ad esempio il tipo di file, i delimitatori e lo schema.
- Opzioni che configurano l'accesso ai sistemi di destinazione (ad esempio, impostazioni e credenziali della porta).