Automatisches Laden

Autoloader verarbeitet neue Datendateien inkrementell und effizient, sobald sie im Cloudspeicher eingehen, ohne zusätzliche Einrichtung.

Funktionsweise des Autoloaders

Der Autoloader verarbeitet neue Datendateien inkrementell und effizient, sobald sie im Cloudspeicher empfangen werden. Stellt eine strukturierte Streamingquelle namens cloudFiles bereit. Mithilfe eines Eingabeverzeichnispfads im Clouddateispeicher verarbeitet die cloudFiles-Quelle automatisch neue Dateien, sobald diese eingehen. Dabei können auch bereits vorhandene Dateien in diesem Verzeichnis verarbeitet werden. Auto Loader unterstützt sowohl Python als auch SQL in Lakeflow Spark Declarative Pipelines.

Sie können den Autoloader verwenden, um Milliarden von Dateien zu verarbeiten, um eine Tabelle zu migrieren oder abzugleichen. Der Autoloader führt eine Skalierung durch, um die Erfassung von Millionen von Dateien pro Stunde in Quasi-Echtzeit zu unterstützen.

Unterstützte Quellen zum automatischen Laden

Autoloader kann Datendateien aus den folgenden Quellen laden:

Amazon S3 (s3://)
Azure Data Lake Storage (ADLS, abfss://)
Google Cloud Storage (GCS, gs://)
Unity-Katalogvolumes (/Volumes/)
Azure Blob Storage (wasbs://)

Hinweis

Der ältere Windows Azure Storage BLOB-Treiber (WASB) ist veraltet. ABFS hat zahlreiche Vorteile gegenüber WASB. Weitere Informationen finden Sie in Azure Dokumentation zu ABFS. Dokumentation zum Arbeiten mit dem älteren WASB-Treiber finden Sie unter Connect to Azure Blob Storage with WASB (Legacy).

Der Autoloader kann die Dateiformate JSON, CSV, XML, PARQUET, AVRO, ORC, TEXT und BINARYFILE erfassen.

Wie verfolgt das automatische Laden den Erfassungsfortschritt nach?

Wenn Dateien ermittelt werden, werden ihre Metadaten in einem skalierbaren Schlüssel-Wert-Speicher (RocksDB) am Prüfpunktspeicherort Ihrer Autoloader-Pipeline gespeichert. Dieser Schlüssel-Wert-Speicher stellt sicher, dass Daten genau einmal verarbeitet werden.

Bei Ausfällen kann das automatische Laden durch Informationen, die am Prüfpunktspeicherort gespeichert sind, von dort aus fortgesetzt werden, wo es unterbrochen wurde, und weiterhin Garantien des Typs „Genau einmal“ bieten, wenn Daten in Delta Lake geschrieben werden. Sie müssen keinen Zustand selbst pflegen oder verwalten, um Fehlertoleranz oder genau einmal semantische Semantik zu erzielen.

Inkrementelle Aufnahme mithilfe von Auto Loader mit Lakeflow Spark Declarative Pipelines

Databricks empfiehlt auto Loader in Lakeflow Spark Declarative Pipelines für inkrementelle Datenaufnahme. Sie müssen keinen Schema- oder Prüfpunktstandort bereitstellen, da Lakeflow Spark Declarative Pipelines diese Einstellungen automatisch für Ihre Pipelines verwaltet. Um die empfohlene Konfiguration zu erhalten, sehen Sie Auto Loader für Produktionsworkloads konfigurieren an.

Databricks empfiehlt Auto Loader außerdem immer dann, wenn Sie Apache Spark Structured Streaming zum Erfassen von Daten aus Cloudobjektspeichern verwenden. APIs sind in Python und Scala verfügbar.

Erste Schritte mit Databricks Auto Loader

Lesen Sie die folgenden Artikel, um mit dem Konfigurieren der inkrementellen Datenaufnahme mithilfe von Auto Loader mit Lakeflow Spark Declarative Pipelines zu beginnen:

Laden von Daten aus dem Cloudobjektspeicher in Streamingtabellen mit Auto Loader (Databricks SQL-Editor)

Beispiele: allgemeine Muster für das automatische Laden

Beispiele für allgemeine Auto Loader-Muster finden Sie unter Allgemeine Muster zum Laden von Daten.

Konfigurieren von Optionen für den Autoloader

Sie können den Autoloader basierend auf Datenvolumen, Vielfalt und Geschwindigkeit optimieren.

Konfigurieren Sie die Schemaerkennung und -entwicklung im Auto Loader: Konfigurieren Sie, wie Auto Loader das Schema Ihrer Daten im Laufe der Zeit erkennt und entwickelt, einschließlich der Handhabung neuer Spalten und Typänderungen.
Automatische Typverbreiterung mit Auto Loader
Konfigurieren von Auto Loader für Produktionsworkloads: Optimieren von Auto Loader für Zuverlässigkeit und Leistung in der Produktion, einschließlich Checkpoints, Fehlerbehandlung und Verwaltung der Dateiaufbewahrung.
Aufbewahrung von Quelldaten: Dateien nach der Aufnahme automatisch archivieren oder löschen, um die Speicherkosten zu reduzieren und die Dateiermittlung zu beschleunigen.

Eine vollständige Liste der Optionen für das automatische Laden finden Sie unter "Optionen für das automatische Laden". Wenn es zu unerwarteter Leistung kommt, lesen Sie die häufig gestellten Fragen.

Konfigurieren der Dateierkennungsmodi von Autoloader

Autoloader unterstützt zwei Dateierkennungsmodi. Siehe:

Umgang mit nicht ordnungsgemäßen Daten

Das automatische Laden garantiert nicht die Reihenfolge, in der Dateien ermittelt oder verarbeitet werden, unabhängig davon, ob Sie verzeichnisauflistungs- oder Dateibenachrichtigungsmodus verwenden. Verwenden Sie die folgenden Strategien, um Ihre Pipelines so zu gestalten, dass sie die Ankunft von Dateien außerhalb der Reihenfolge verarbeiten können.

Lakeflow Spark Declarative Pipelines mit `AUTO CDC`

Wenn Sie Lakeflow Spark Declarative Pipelines mit auto Loader verwenden und AUTO CDCdie Aufbewahrung von Tombstone so konfigurieren, dass gelöschte Datensätze lange genug aufbewahrt werden, um out-of-order Dateiankünfte zu verarbeiten. Legen Sie die pipelines.cdc.tombstoneGCThresholdInSeconds Tabelleneigenschaft in der Zielstreamingtabelle auf einen Wert fest, der die maximale erwartete Verzögerungszeit zwischen dem Eintreffen des Ereignisses und der Ausführung der Pipeline überschreitet. Die Standardaufbewahrung beträgt zwei Tage. Ausführliche Informationen finden Sie unter create_auto_cdc_flow.

Strukturiertes Streaming ohne Lakeflow Spark Declarative Pipelines

Wenn Sie Apache Spark Structured Streaming direkt mit Auto Loader (ohne Lakeflow Spark Declarative Pipelines) verwenden, sollten Sie die folgenden Muster berücksichtigen, um Out-of-Order-Daten zu verarbeiten:

Bevorzugen Sie weiche Löschungen gegenüber harten Löschungen: Verfolgen Sie ein deleted Flag und einen Zeitstempel, anstatt Zeilen zu entfernen, sodass ein spät eingehender Löschvorgang nicht mit früheren Datensätzen in Konflikt steht.
Vergleichen Sie Zeitstempel vor dem Anwenden von Updates: Vergleichen Sie beim Upserting den Aktualisierungsstempel des eingehenden Datensatzes mit dem aktuellen Zeitstempel der Zielzeile, um zu vermeiden, dass veraltete Daten überschrieben werden.

Vorteile von Auto Loader gegenüber der Verwendung von strukturiertem Streaming direkt auf Dateien

In Apache Spark können Sie Dateien mithilfe von spark.readStream.format(fileFormat).load(directory) inkrementell einlesen. Der Autoloader bietet gegenüber der Dateiquelle die folgenden Vorteile:

Skalierbarkeit: Der Autoloader ist in der Lage, Milliarden von Dateien effizient zu erkennen. Nachfüllungen können asynchron erfolgen, um keine Rechenressourcen zu verschwenden.
Leistung: Die Kosten für das Ermitteln von Dateien mit dem Autoloader steigen mit der Anzahl der erfassten Dateien und nicht mit der Anzahl von Verzeichnissen, in denen sich die Dateien befinden können. Siehe Konfigurieren von Datenströmen für das automatische Laden im Verzeichnisauflistungsmodus.
Unterstützung von Schemarückschluss und -entwicklung: Das automatische Laden kann Schemaabweichungen erkennen, Sie bei Schemaänderungen benachrichtigen und Daten retten, die andernfalls ignoriert worden oder verloren gegangen wären. Siehe Wie funktioniert die Schemaerkennung von Auto Loader?.
Kosten: Der Autoloader verwendet native Cloud-APIs, um Listen von Dateien abzurufen, die im Speicher vorhanden sind. Darüber hinaus kann der Dateibenachrichtigungsmodus des automatischen Ladens dazu beitragen, Die Cloudkosten weiter zu reduzieren, indem die Verzeichnisauflistung vollständig vermieden wird. Der Autoloader kann automatisch Dateibenachrichtigungsdienste für den Speicher einrichten, um die Dateiermittlung wesentlich kostengünstiger zu gestalten.

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-23