Aufnehmen von Daten in den Unity-Katalog

Modul
11 Einheiten

Fortgeschrittene Anfänger

Technische Fachkraft für Daten

Azure Databricks

Die Datenaufnahme ist eine grundlegende Funktion für jede Datenplattform. In diesem Modul werden die umfassenden Techniken untersucht, die in Azure Databricks zum Laden von Daten in Unity-Katalogtabellen verfügbar sind. Sie erfahren, wie Sie verwaltete Connectors mit Lakeflow Connect verwenden, benutzerdefinierten Erfassungscode in Notizbüchern schreiben, SQL-Befehle zum Laden von Batchdateien anwenden, Datenerfassungsfeeds verarbeiten, Streaming-Erfassung von Nachrichtenbussen konfigurieren, automatisches Laden für automatische Dateierkennung einrichten und Erfassungsworkflows mit Lakeflow Spark Declarative Pipelines orchestrieren.

Lernziele

Am Ende dieses Moduls können Sie:

Konfigurieren von Lakeflow Connect zum Aufnehmen von Daten aus externen Quellen mithilfe von verwalteten Connectors
Aufnahme von Batch- und Streamingdaten mithilfe von Notebooks, DataFrames und Strukturiertem Streaming
Verwenden Sie SQL-Befehle wie COPY INTO und CREATE TABLE AS SELECT für das dateibasierte Einlesen
Verarbeiten von Änderungsdatenerfassungsfeeds mit der AUTO CDC-API
Konfigurieren von Spark Structured Streaming für Echtzeitdatenaufnahme von Kafka und Event Hubs
Einrichten von Auto Loader, um neue Dateien mit Schemaentwicklung automatisch zu erkennen und zu verarbeiten
Koordinieren von Datenaufnahmeworkflows mithilfe von Lakeflow Spark Declarative Pipelines

Voraussetzungen

Die folgenden Voraussetzungen müssen erfüllt sein:

Grundlegendes Verständnis von Azure Databricks- und Unity-Katalogkonzepten
Vertrautheit mit der SQL- und Python-Programmierung
Kenntnisse von Datentechnikkonzepten wie Batchverarbeitung und Streaming

Einleitung min
Datenaufnahme mit Lakeflow Connect min
Daten ingestieren mit Notebooks min
Erfassen von Daten mit SQL-Methoden min
Erfassen von Daten mit CDC-Feed min
Erfassen von Daten mit Spark Structured Streaming min
Datenaufnahme mit Auto Loader min
Dateneingabe mit Lakeflow Spark Declarative Pipelines min
Übung – Aufnehmen von Daten in den Unity-Katalog min
Modulbewertung min
Zusammenfassung min

Start