Modulbewertung

1.

Was ist der Hauptvorteil der Verwendung von Lakeflow Connect für die Datenaufnahme im Vergleich zum Schreiben von benutzerdefiniertem Extraktionscode?

Lakeflow Connect bietet schnellere Abfrageleistung bei aufgenommenen Daten

Lakeflow Connect bietet verwaltete Konnektoren, die die Änderungsdatenerfassung und die Orchestrierung von Pipelines automatisch verarbeiten.

Lakeflow Connect erfordert weniger Unity Catalog-Berechtigungen als notebookbasierte Eingabe.

2.

Welcher SQL-Befehl sollte ein Datentechniker verwenden, um ständig neue Dateien aus dem Cloudspeicher zu laden, ohne dateien neu zu verarbeiten, die bereits aufgenommen wurden?

Die Anweisung CREATE TABLE AS SELECT mit der Funktion read_files

TABELLE ERSTELLEN ODER ERSETZEN

KOPIEREN IN

3.

Was ist der Zweck der Sequenzspalte in einem CDC-Flow (Change Data Capture)?

So bestimmen Sie die richtige Reihenfolge der Änderungen, wenn Datensätze außerhalb der Reihenfolge eingehen

So geben Sie an, welche Spalten in die Zieltabelle aufgenommen werden sollen

Um zu identifizieren, welche Datensätze als gelöscht behandelt werden sollen

4.

Welcher Triggermodus sollte verwendet werden, wenn ein Datentechniker alle verfügbaren Streamingdaten verarbeiten möchte und dann den Datenstrom beendet?

processingTime-Trigger mit einem kurzen Intervall

availableNow Trigger

Standardtrigger ohne Konfiguration

5.

Was geschieht, wenn das automatische Laden neue Spalten in Quelldateien erkennt, während der AddNewColumns-Schemaentwicklungsmodus verwendet wird?

Der Datenstrom ignoriert die neuen Spalten und setzt die Verarbeitung ohne Änderungen fort.

Der Datenstrom schlägt fehl, neue Spalten werden dem Schema hinzugefügt, und der Datenstrom wird beim Neustart mit dem aktualisierten Schema fortgesetzt.

Die neuen Spalten werden in der spalte _rescued_data erfasst, ohne das Schema zu ändern.

6.

Was ist der Hauptvorteil der Verwendung expliziter Flüsse in Lakeflow Spark Declarative Pipelines zum Aufnehmen von Daten aus mehreren Quellen in einer einzigen Tabelle?

Explizite Abläufe verarbeiten Daten schneller als UNION-basierte Ansätze

Explizite Flüsse ermöglichen das Hinzufügen neuer Quellflüsse, ohne vorhandene zu ändern oder eine vollständige Aktualisierung auszulösen.

Explizite Flüsse deduplizieren Datensätze automatisch aus mehreren Quellen

Überprüfen Sie Ihr Wissen

Feedback