Erfassen von Daten in einem Databricks-Lakehouse

Azure Databricks bietet verschiedene Möglichkeiten zum Erfassen von Daten in einem Lakehouse mit Delta Lake. Databricks empfiehlt die Verwendung des Autoloaders für die inkrementelle Datenerfassung aus Cloudobjektspeicher. Die Benutzeroberfläche zum Hinzufügen von Daten bietet eine Reihe von Optionen zum schnellen Hochladen lokaler Dateien oder zum Herstellen einer Verbindung mit externen Datenquellen.

Ausführen Ihres ersten Workloads

Wenn Sie Autoloader in Azure Databricks noch nicht verwendet haben, beginnen Sie mit einem Tutorial. Siehe Ausführen Ihres ersten ETL-Workloads auf Azure Databricks.

Autoloader

Autoloader verarbeitet neue Datendateien inkrementell und effizient, sobald sie im Cloudspeicher eingehen, ohne zusätzliche Einrichtung. Der Autoloader stellt eine strukturierte Streamingquelle namens cloudFiles bereit. Mithilfe eines Eingabeverzeichnispfads im Clouddateispeicher verarbeitet die cloudFiles-Quelle automatisch neue Dateien, sobald diese eingehen. Dabei können auch bereits vorhandene Dateien in diesem Verzeichnis verarbeitet werden.

Automatisieren von ETL mit Delta Live Tables und Autoloader

Sie können die Bereitstellung einer skalierbaren, inkrementellen Datenerfassungsinfrastruktur mit Autoloader und Delta Live Tables vereinfachen. Beachten Sie, dass Delta Live Tables nicht die in Notebooks zu findende interaktive Standardausführung verwendet, sondern stattdessen die Bereitstellung einer produktionsbereiten Infrastruktur betont.

Hochladen lokaler Datendateien oder Verbinden mit externen Datenquellen

Sie können lokale Datendateien sicher hochladen oder Daten aus externen Quellen erfassen, um Tabellen zu erstellen. Weitere Informationen finden Sie unter Laden von Daten mithilfe der Benutzeroberfläche zum Hinzufügen von Daten.

Erfassen von Daten in Azure Databricks mithilfe von Drittanbietertools

Azure Databricks überprüft Technologiepartnerintegrationen, mit denen Sie Daten in Azure Databricks erfassen können. Diese Integrationen ermöglichen eine einfach zu implementierende und skalierbare Datenerfassung aus verschiedenen Quellen in Azure Databricks mit nur wenig Code. Siehe Technologiepartner. Einige Technologiepartner werden in Databricks Partner Connect vorgestellt, das eine Benutzeroberfläche bietet, die das Verbinden von Drittanbietertools mit Ihren Lakehouse-Daten vereinfacht.

COPY INTO

COPY INTO ermöglicht SQL-Benutzern und -Benutzerinnen, Daten aus einem Cloudobjektspeicher idempotent und inkrementell in Delta-Tabellen zu erfassen. Die Funktion kann in Databricks SQL, Notebooks und Databricks-Aufträgen verwendet werden.

Verwendung von COPY INTO und Verwendung des Autoloaders

Hier sind ein paar Dinge, die Sie bei der Entscheidung zwischen Auto Loader und COPY INTO beachten sollten:

  • Wenn Sie Dateien in der Größenordnung von Tausenden erfassen möchten, können Sie COPY INTO verwenden. Wenn Sie Dateien in der Größenordnung von Millionen oder mehr im Laufe der Zeit erwarten, verwenden Sie Autoloader. Auto Loader benötigt im Vergleich zu COPY INTO insgesamt weniger Vorgänge zum Auffinden von Dateien und kann die Verarbeitung in mehrere Stapel aufteilen. Das bedeutet, dass Auto Loader im großen kostengünstiger und effizienter ist.

  • Wenn Ihr Datenschema häufig weiterentwickelt wird, bietet das automatische Ladeprogramm bessere Grundtypen für Schemarückschluss und -entwicklung. Weitere Informationen finden Sie unter Schemarückschluss und -entwicklung in Auto Loader konfigurieren.

  • Das Laden einer Teilmenge von erneut hochgeladenen Dateien kann mit COPY INTO etwas einfacher zu verwalten sein. Beim automatischen Ladeprogramm ist es schwieriger, eine ausgewählte Teilmenge von Dateien erneut zu verarbeiten. Sie können jedoch COPY INTO verwenden, um die Teilmenge der Dateien erneut zu laden, während ein Stream des Auto Loaders gleichzeitig ausgeführt wird.

  • Für eine noch skalierbarere und robustere Dateierfassung ermöglicht Auto Loader SQL-Benutzern die Nutzung von Streamingtabellen. Weitere Informationen finden Sie unter Laden von Daten mithilfe von Streamingtabellen in Databricks SQL.

Eine kurze Übersicht und Demonstration des Auto Loaders sowie COPY INTO finden Sie in diesem YouTube-Video (2 Minuten).

Überprüfen von Dateimetadaten, die während der Datenerfassung erfasst wurden

Apache Spark erfasst beim Laden von Daten automatisch Daten zu Quelldateien. Mit Azure Databricks können Sie auf diese Daten über die Spalte „Dateimetadaten“ zugreifen.

Hochladen von Tabellenkalkulationsexporten in Azure Databricks

Verwenden Sie die Seite Create or modify a table using file upload, um CSV-, TSV- oder JSON-Dateien hochzuladen. Weitere Informationen finden Sie unter Erstellen oder Ändern einer Tabelle mithilfe des Dateiuploads.

Migrieren von Datenanwendungen zu Azure Databricks

Migrieren Sie vorhandene Datenanwendungen zu Azure Databricks, damit Sie mit Daten aus vielen Quellsystemen auf einer einzigen Plattform arbeiten können. Siehe Migrieren von Datenanwendungen zu Azure Databricks.