Implementieren einer Data Lakehouse-Analyselösung mit Azure Databricks
Erfahren Sie, wie Sie die Leistungsfähigkeit von Apache Spark und leistungsstarke Cluster auf Basis der Azure Databricks-Plattform nutzen können, um große Data-Engineering-Workloads in der Cloud zu bewältigen.
Voraussetzungen
Keine
Erfolgscode
Möchten Sie einen Erfolgscode beantragen?
Module in diesem Lernpfad
Azure Databricks ist ein Clouddienst, der eine skalierbare Plattform für Datenanalysen mit Apache Spark bereitstellt.
Erfahren Sie, wie Sie Datenanalysen mithilfe von Azure Databricks durchführen. Erkunden Sie verschiedene Datenaufnahmemethoden und die Integration von Daten aus Quellen wie Azure Data Lake und Azure SQL-Datenbank. Dieses Modul führt Sie durch die Verwendung von kollaborativen Notizbüchern zum Durchführen einer explorativen Datenanalyse (EDA), sodass Sie Daten visualisieren, bearbeiten und untersuchen können, um Muster, Anomalien und Korrelationen aufzudecken.
Azure Databricks basiert auf Apache Spark und ermöglicht es technischen Fachkräften für Daten und Analyst*innen, Spark-Aufträge auszuführen, um große Datenmengen zu transformieren, zu analysieren und zu visualisieren.
Delta Lake ist eine Datenverwaltungslösung in Azure Databricks, die Features wie ACID-Transaktionen, Schemaerzwingung und Zeitreise bereitstellt, um Datenkonsistenz, Integrität und Versionsverwaltungsfunktionen sicherzustellen.
Das Erstellen von Datenpipelines mit Delta Live Tables ermöglicht die Echtzeit-, skalierbare und zuverlässige Datenverarbeitung mithilfe der erweiterten Features von Delta Lake in Azure Databricks
Die Bereitstellung von Workloads mit Azure Databricks Workflows beinhaltet die Orchestrierung und Automatisierung komplexer Datenverarbeitungspipelines, maschineller Lernprozesse und Analyseaufgaben. In diesem Modul erfahren Sie, wie Sie Workloads mit Databricks-Workflows bereitstellen.