將數據應用程式遷移至 Azure Databricks
本文提供將現有數據應用程式遷移至 Azure Databricks 的簡介。 Azure Databricks 提供統一的方法,可讓您在單一平臺上處理來自許多來源系統的數據。
如需平臺功能的概觀,請參閱 什麼是 Azure Databricks?。
將 ETL 作業遷移至 Azure Databricks
您可以只執行幾個步驟,將用來從內部部署或雲端原生實作擷取、轉換和載入數據的 Apache Spark 作業移轉至 Azure Databricks。 請參閱 調整 Azure Databricks 的 Apache Spark 程式代碼。
Azure Databricks 透過預先設定的 開放原始碼 整合、合作夥伴整合和企業產品供應專案,擴充 Spark SQL 的功能。 如果您的 ETL 工作負載是以 SQL 或 Hive 撰寫,您可以透過最少的重構移轉至 Azure Databricks。 深入瞭解 Azure Databricks SQL 供應專案:
如需從各種來源系統移轉至 Azure Databricks 的特定指示,請參閱 將 ETL 管線遷移至 Azure Databricks。
以 Lakehouse 取代您的企業數據倉儲
當工作負載與儲存在 Lakehouse 中的數據保持一致時,Azure Databricks 可提供最佳價值和效能。 許多企業數據堆疊包括 Data Lake 和企業數據倉儲,組織會建立複雜的 ETL 工作流程,以嘗試讓這些系統和數據保持同步。Lakehouse 可讓您跨通常依賴個別數據倉儲的查詢和系統,使用相同的數據,儲存在 Data Lake 中。 如需 Lakehouse 的詳細資訊,請參閱 什麼是 Data Lakehouse?。 如需 Databricks 上數據倉儲的詳細資訊,請參閱 什麼是 Azure Databricks 上的數據倉儲?。
從企業數據倉儲移轉至 Lakehouse 通常牽涉到減少數據架構和工作流程的複雜性,但完成這項工作時,有一些注意事項和最佳做法要記住。 請參閱 將您的數據倉儲遷移至 Databricks Lakehouse。
整合 ML、數據科學和分析工作負載
由於 Lakehouse 透過資料表查詢或檔案路徑提供雲端式數據檔的優化存取,因此您可以對單一數據複本執行 ML、數據科學和分析。 Azure Databricks 可讓您輕鬆地從 開放原始碼 和專屬工具移動工作負載,並維護分析師和數據科學家所使用的許多 開放原始碼 連結庫更新版本。
Jupyter Notebook 中的 Pandas 工作負載可以使用 Databricks Git 資料夾進行同步處理和執行。 Azure Databricks 在所有 Databricks Runtime 版本中提供 pandas 的原生支援,並在 Databricks Runtime 中設定許多熱門的 ML 和深度學習連結庫,以進行 機器學習。 如果您使用 Git 資料夾中的 Git 和工作區檔案同步處理本機工作負載,您可以在本機環境中針對資料和自訂連結庫使用相同的相對路徑。
注意
根據預設,Azure Databricks 會維護.ipynb
與 Databricks Git 資料夾同步處理的 Jupyter Notebook 擴充功能,但在使用 UI 匯入時,會自動將 Jupyter Notebook 轉換成 Databricks Notebook。 Databricks Notebook 會使用延伸模組儲存 .py
,因此可以與 Git 存放庫中的 Jupyter Notebook 並存。