Aufnehmen von Daten in den Unity-Katalog

Fortgeschrittene Anfänger
Technische Fachkraft für Daten
Azure Databricks

Die Datenaufnahme ist eine grundlegende Funktion für jede Datenplattform. In diesem Modul werden die umfassenden Techniken untersucht, die in Azure Databricks zum Laden von Daten in Unity-Katalogtabellen verfügbar sind. Sie erfahren, wie Sie verwaltete Connectors mit Lakeflow Connect verwenden, benutzerdefinierten Erfassungscode in Notizbüchern schreiben, SQL-Befehle zum Laden von Batchdateien anwenden, Datenerfassungsfeeds verarbeiten, Streaming-Erfassung von Nachrichtenbussen konfigurieren, automatisches Laden für automatische Dateierkennung einrichten und Erfassungsworkflows mit Lakeflow Spark Declarative Pipelines orchestrieren.

Lernziele

Am Ende dieses Moduls können Sie:

  • Konfigurieren von Lakeflow Connect zum Aufnehmen von Daten aus externen Quellen mithilfe von verwalteten Connectors
  • Aufnahme von Batch- und Streamingdaten mithilfe von Notebooks, DataFrames und Strukturiertem Streaming
  • Verwenden Sie SQL-Befehle wie COPY INTO und CREATE TABLE AS SELECT für das dateibasierte Einlesen
  • Verarbeiten von Änderungsdatenerfassungsfeeds mit der AUTO CDC-API
  • Konfigurieren von Spark Structured Streaming für Echtzeitdatenaufnahme von Kafka und Event Hubs
  • Einrichten von Auto Loader, um neue Dateien mit Schemaentwicklung automatisch zu erkennen und zu verarbeiten
  • Koordinieren von Datenaufnahmeworkflows mithilfe von Lakeflow Spark Declarative Pipelines

Voraussetzungen

Die folgenden Voraussetzungen müssen erfüllt sein:

  • Grundlegendes Verständnis von Azure Databricks- und Unity-Katalogkonzepten
  • Vertrautheit mit der SQL- und Python-Programmierung
  • Kenntnisse von Datentechnikkonzepten wie Batchverarbeitung und Streaming