Streamen op Azure Databricks

Artikel
03/01/2024

U kunt Azure Databricks gebruiken voor bijna realtime gegevensopname, verwerking, machine learning en AI voor het streamen van gegevens.

Azure Databricks biedt tal van optimalisaties voor streaming en incrementele verwerking. Voor de meeste streaming- of incrementele gegevensverwerking of ETL-taken raadt Databricks Delta Live Tables aan. Zie Wat is Delta Live Tables?

De meeste incrementele en streamingworkloads in Azure Databricks worden mogelijk gemaakt door Structured Streaming, waaronder Delta Live Tables en Auto Loader. Zie Wat is automatisch laadprogramma?

Delta Lake en Structured Streaming zijn nauw geïntegreerd met incrementele verwerking in databricks lakehouse. Zie lees- en schrijfbewerkingen voor Delta-tabellen.

Zie Model-server met Azure Databricks voor realtime-modellen.

Zie de productpagina voor het streamen van gegevens voor meer informatie over het bouwen van streamingoplossingen op het Azure Databricks-platform.

Azure Databricks heeft specifieke functies voor het werken met semi-gestructureerde gegevensvelden in Avro, protocolbuffers en JSON-gegevenspayloads. Raadpleeg voor meer informatie:

Wat is Structured Streaming?

Apache Spark Structured Streaming is een bijna realtime verwerkingsengine die end-to-end fouttolerantie biedt met exactlyse verwerkingsgaranties met vertrouwde Spark-API's. Met Structured Streaming kunt u berekeningen op streaminggegevens uitdrukken op dezelfde manier als u een batchberekening op statische gegevens uitdrukt. De structured streaming-engine voert de berekening stapsgewijs uit en werkt het resultaat continu bij naarmate streaminggegevens binnenkomen.

Zie Uw eerste structured streaming-workload uitvoeren als u geen toegang hebt tot Structured Streaming.

Zie Unity Catalog gebruiken met Structured Streaming met Structured Streaming voor Unity Catalog voor meer informatie over het gebruik van Structured Streaming.

Welke streamingbronnen en sinks worden door Azure Databricks ondersteund?

Databricks raadt aan om automatisch laden te gebruiken om ondersteunde bestandstypen van cloudobjectopslag op te nemen in Delta Lake. Voor ETL-pijplijnen raadt Databricks het gebruik van Delta Live Tables aan (waarbij Delta-tabellen en Structured Streaming worden gebruikt). U kunt ook incrementele ETL-workloads configureren door naar en van Delta Lake-tabellen te streamen.

Naast Delta Lake en Automatisch laden kan Structured Streaming verbinding maken met berichtenservices zoals Apache Kafka.

U kunt foreachBatch ook gebruiken om naar willekeurige gegevenssinks te schrijven.

Aanvullende bronnen

Apache Spark biedt een programmeerhandleiding voor gestructureerd streamen met meer informatie over Structured Streaming.

Voor naslaginformatie over structured streaming raadt Databricks de volgende Apache Spark-API-verwijzingen aan:

Delen via

Streamen op Azure Databricks

Wat is Structured Streaming?

Welke streamingbronnen en sinks worden door Azure Databricks ondersteund?

Aanvullende bronnen

Aanvullende resources