Streaming in Azure Databricks

Artikel
03/01/2024

Sie können Azure Databricks verwenden, um nahezu in Echtzeit Daten zu erfassen und zu verarbeiten sowie maschinelles Lernen und KI für Streamingdaten zu nutzen.

Azure Databricks bietet zahlreiche Optimierungen für das Streaming und die inkrementelle Verarbeitung. Für die meisten Streaming- oder inkrementellen Datenverarbeitungs- oder ETL-Aufgaben werden Delta Live Tables von Databricks empfohlen. Weitere Informationen finden Sie unter Was ist Delta Live Tables?.

Die meisten inkrementellen Workloads und Streamingworkloads in Azure Databricks werden durch strukturiertes Streaming unterstützt, einschließlich Delta Live Tables und AutoLoader. Weitere Informationen finden Sie unter Automatisches Laden.

Delta Lake und strukturiertes Streaming verfügen über eine enge Integration, um die inkrementelle Verarbeitung im Databricks Lakehouse zu unterstützen. Weitere Informationen finden Sie unter Delta-Tabelle: Streaming für Lese- und Schreibvorgänge.

Informationen zur Echtzeitmodellbereitstellung finden Sie unter Modellbereitstellung mit Azure Databricks.

Weitere Informationen zum Erstellen von Streaminglösungen auf der Azure Databricks-Plattform finden Sie auf der Produktseite zum Datenstreaming.

Azure Databricks verfügt über spezielle Features zum Arbeiten mit halbstrukturierten Datenfeldern, die in Avro, Protokollpuffern und JSON-Datennutzlasten enthalten sind. Weitere Informationen finden Sie unter:

Was ist strukturiertes Streaming?

Apache Spark Structured Streaming ist eine Quasi-Echtzeit-Verarbeitungs-Engine, die End-to-End-Fehlertoleranz mit genau einmaliger Verarbeitungsgarantien unter Verwendung bekannter Spark-APIs bietet. Mit strukturiertem Streaming können Sie Berechnungen für Streamingdaten genauso ausdrücken wie eine Batchberechnung für statische Daten. Die Structured Streaming-Engine führt die Berechnung inkrementell durch und aktualisiert das Ergebnis kontinuierlich bei Eingang der Streamingdaten.

Wenn Sie mit strukturiertem Streaming noch nicht vertraut sind, finden Sie weitere Informationen unter Ausführen Ihrer ersten Workload für strukturiertes Streaming.

Informationen zum Verwenden des strukturierten Streamings mit Unity Catalog finden Sie unter Verwenden von Unity Catalog mit strukturiertem Streaming.

Welche Streamingquellen und Senken unterstützt Azure Databricks?

Databricks empfiehlt die Verwendung von Auto Loader zum Erfassen unterstützter Dateitypen aus dem Cloudobjektspeicher in Delta Lake. Databricks empfiehlt für ETL-Pipelines die Verwendung von Delta Live Tables (die Delta-Tabellen und strukturiertes Streaming verwenden). Sie können auch inkrementelle ETL-Workloads konfigurieren, indem Sie zu und von Delta Lake-Tabellen streamen.

Neben Delta Lake und Auto Loader kann strukturiertes Streaming eine Verbindung zu Messagingdiensten wie Apache Kafka herstellen.

Verwenden von „foreachBatch” zum Schreiben in beliebige Datensenken ist eine weitere Möglichkeit.

Zusätzliche Ressourcen

Apache Spark bietet ein Programmierhandbuch zu strukturiertem Streaming mit weiteren Informationen zum strukturierten Streaming.

Für Referenzinformationen zum strukturierten Streaming empfiehlt Databricks die folgende Apache Spark API-Referenzen: