Migrieren von Datenanwendungen zu Azure Databricks

Dieser Artikel enthält eine Einführung in die Migration vorhandener Datenanwendungen zu Azure Databricks. Azure Databricks bietet einen einheitlichen Ansatz, der die Verwendung von Daten aus zahlreichen Quellsystemen auf einer einzelnen Plattform ermöglicht.

Eine Übersicht über die Plattformfunktionen finden Sie unter Was ist Azure Databricks?.

Informationen zum Migrieren zwischen Databricks Runtime-Versionen finden Sie im Databricks Runtime-Migrationshandbuch.

Migrieren von ETL-Aufträgen zu Azure Databricks

Apache Spark-Aufträge, die zum Extrahieren, Transformieren und Laden von Daten aus lokalen oder cloudnativen Implementierungen verwendet werden, lassen sich mit wenigen Schritten zu Azure Databricks migrieren. Weitere Informationen finden Sie unter Anpassen Ihres bestehenden Apache Spark-Codes für Azure Databricks.

Azure Databricks erweitert den Funktionsumfang von Spark SQL mit vorkonfigurierten Open-Source-Integrationen, Partnerintegrationen und Produktangeboten für Unternehmen. Wenn Ihre ETL-Workloads in SQL oder Hive geschrieben sind, können Sie mit minimalem Refactoring zu Azure Databricks migrieren. Weitere Informationen zu Azure Databricks-SQL-Angeboten finden Sie hier:

Eine spezifische Anleitung für die Migration verschiedener Quellsysteme zu Azure Databricks finden Sie unter Migrieren von ETL-Pipelines zu Azure Databricks.

Ersetzen Ihres Enterprise Data Warehouse durch ein Data Lakehouse

Nutzen und Leistung von Azure Databricks sind am besten, wenn Workloads auf die im Data Lakehouse gespeicherten Daten abgestimmt sind. Viele Unternehmensdatenstapel umfassen sowohl einen Data Lake als auch ein Enterprise Data Warehouse, und Organisationen erstellen komplexe ETL-Workflows, um zu versuchen, diese Systeme und Daten synchron zu halten. Mit dem Lakehouse können Sie dieselben Daten, die im Data Lake gespeichert sind, für Abfragen und Systeme verwenden, die normalerweise ein separates Data Warehouse erfordern. Weitere Informationen zum Lakehouse finden Sie unter Was ist ein Lakehouse?. Weitere Informationen zum Data Warehousing in Databricks finden Sie unter Was ist Data Warehousing in Azure Databricks?.

Die Migration von einem Enterprise Data Warehouse zum Data Lakehouse geht in der Regel mit einer Verringerung der Komplexität Ihrer Datenarchitektur und -workflows einher. Es gibt jedoch einige Einschränkungen und bewährte Methoden, die bei diesem Prozess berücksichtigt werden müssen. Weitere Informationen finden Sie unter Migrieren Ihres Data Warehouse zu Databricks Lakehouse.

Vereinheitlichen Ihrer Machine Learning-, Data Science- und Analyseworkloads

Da das Data Lakehouse optimierten Zugriff auf cloudbasierte Datendateien über Tabellenabfragen oder Dateipfade bietet, können Sie Machine Learning, Data Science und Analysen für eine einzelne Kopie Ihrer Daten durchführen. Azure Databricks vereinfacht das Verschieben von Workloads aus Open-Source-Tools und proprietären Tools und pflegt aktualisierte Versionen vieler Open-Source-Bibliotheken, die von Analysten und wissenschaftlichen Fachkräften für Daten verwendet werden.

Pandas-Workloads in Jupyter-Notebooks können mit Databricks Repos synchronisiert und ausgeführt werden. Azure Databricks bietet in allen Databricks Runtime-Versionen native Unterstützung für pandas und konfiguriert viele beliebte Bibliotheken für maschinelles Lernen und Deep Learning in Databricks Runtime für Machine Learning. Wenn Sie Ihre lokalen Workloads mithilfe von Git und Arbeitsbereichsdateien in Repos synchronisieren, können Sie die gleichen relativen Pfade für Daten und benutzerdefinierte Bibliotheken verwenden, die auch in Ihrer lokalen Umgebung vorhanden sind.

Hinweis

Für mit Databricks Repos synchronisierte Jupyter Notebook-Instanzen verwendet Azure Databricks standardmäßig die Erweiterung .ipynb. Beim Importieren über die Benutzeroberfläche werden Jupyter Notebook-Instanzen dagegen automatisch in Databricks-Notebooks konvertiert. Databricks-Notebooks werden mit der Erweiterung .py gespeichert und können daher parallel mit Jupyter Notebook-Instanzen in einem Git-Repository vorhanden sein.