Aufnehmen von Daten in den Unity-Katalog
Die Datenaufnahme ist eine grundlegende Funktion für jede Datenplattform. In diesem Modul werden die umfassenden Techniken untersucht, die in Azure Databricks zum Laden von Daten in Unity-Katalogtabellen verfügbar sind. Sie erfahren, wie Sie verwaltete Connectors mit Lakeflow Connect verwenden, benutzerdefinierten Erfassungscode in Notizbüchern schreiben, SQL-Befehle zum Laden von Batchdateien anwenden, Datenerfassungsfeeds verarbeiten, Streaming-Erfassung von Nachrichtenbussen konfigurieren, automatisches Laden für automatische Dateierkennung einrichten und Erfassungsworkflows mit Lakeflow Spark Declarative Pipelines orchestrieren.
Lernziele
Am Ende dieses Moduls können Sie:
- Konfigurieren von Lakeflow Connect zum Aufnehmen von Daten aus externen Quellen mithilfe von verwalteten Connectors
- Aufnahme von Batch- und Streamingdaten mithilfe von Notebooks, DataFrames und Strukturiertem Streaming
- Verwenden Sie SQL-Befehle wie COPY INTO und CREATE TABLE AS SELECT für das dateibasierte Einlesen
- Verarbeiten von Änderungsdatenerfassungsfeeds mit der AUTO CDC-API
- Konfigurieren von Spark Structured Streaming für Echtzeitdatenaufnahme von Kafka und Event Hubs
- Einrichten von Auto Loader, um neue Dateien mit Schemaentwicklung automatisch zu erkennen und zu verarbeiten
- Koordinieren von Datenaufnahmeworkflows mithilfe von Lakeflow Spark Declarative Pipelines
Voraussetzungen
Die folgenden Voraussetzungen müssen erfüllt sein:
- Grundlegendes Verständnis von Azure Databricks- und Unity-Katalogkonzepten
- Vertrautheit mit der SQL- und Python-Programmierung
- Kenntnisse von Datentechnikkonzepten wie Batchverarbeitung und Streaming