Migrace datových aplikací do Azure Databricks
Tento článek obsahuje úvod k migraci existujících datových aplikací do Azure Databricks. Azure Databricks poskytuje jednotný přístup, který umožňuje pracovat s daty z mnoha zdrojových systémů na jedné platformě.
Přehled možností platformy najdete v tématu Co je Azure Databricks?
Migrace úloh ETL do Azure Databricks
Úlohy Apache Sparku používané k extrakci, transformaci a načítání dat z místních nebo cloudových nativních implementací do Azure Databricks můžete migrovat pomocí několika kroků. Viz Přizpůsobení kódu Apache Sparku pro Azure Databricks.
Azure Databricks rozšiřuje funkce Spark SQL pomocí předem nakonfigurovaných opensourcových integrací, partnerských integrací a nabídek podnikových produktů. Pokud jsou vaše úlohy ETL napsané v SQL nebo Hivu, můžete migrovat do Azure Databricks s minimálním refaktoringem. Další informace o nabídkách AZURE Databricks SQL:
- Co jsou datové sklady v Azure Databricks?
- Co jsou Delta Live Tables?
- Co je Databricks Partner Connect?
Konkrétní pokyny k migraci z různých zdrojových systémů do Azure Databricks najdete v tématu Migrace kanálů ETL do Azure Databricks.
Nahrazení podnikového datového skladu lakehousem
Azure Databricks poskytuje optimální hodnotu a výkon, když úlohy odpovídají datům uloženým v jezeře. Mnoho podnikových datových zásobníků zahrnuje datové jezero i podnikový datový sklad a organizace vytvářejí složité pracovní postupy ETL, které se snaží tyto systémy a data synchronizovat. Lakehouse umožňuje používat stejná data uložená v datovém jezeře napříč dotazy a systémy, které se obvykle spoléhají na samostatný datový sklad. Další informace o jezeře najdete v tématu Co je datové jezero?. Další informace o datových skladech v Databricks najdete v tématu Co je datové sklady v Azure Databricks?
Migrace z podnikového datového skladu do jezera obecně zahrnuje snížení složitosti architektury dat a pracovních postupů, ale při dokončení této práce je potřeba mít na paměti několik kladných a osvědčených postupů. Viz Migrace datového skladu do Databricks Lakehouse.
Sjednocení úloh ML, datových věd a analýz
Vzhledem k tomu, že lakehouse poskytuje optimalizovaný přístup ke cloudovým datovým souborům prostřednictvím dotazů tabulek nebo cest k souborům, můžete provádět strojové učení, datové vědy a analýzu jedné kopie dat. Azure Databricks usnadňuje přesun úloh z opensourcových i proprietárních nástrojů a udržuje aktualizované verze mnoha opensourcových knihoven používaných analytiky a datovými vědci.
Úlohy Pandas v poznámkových blocích Jupyter je možné synchronizovat a spouštět pomocí složek Databricks Git. Azure Databricks poskytuje nativní podporu knihovny pandas ve všech verzích Databricks Runtime a konfiguruje mnoho oblíbených knihoven STROJOVÉho učení a hlubokého učení v Databricks Runtime pro Machine Learning. Pokud synchronizujete místní úlohy pomocí souborů Gitu a pracovních prostorů ve složkách Gitu, můžete použít stejné relativní cesty k datům a vlastním knihovnám, které se nacházejí ve vašem místním prostředí.
Poznámka:
Azure Databricks ve výchozím nastavení udržuje .ipynb
rozšíření pro poznámkové bloky Jupyter synchronizované se složkami Git Databricks, ale při importu s uživatelským rozhraním automaticky převádí poznámkové bloky Jupyter na poznámkové bloky Databricks. Poznámkové bloky Databricks se ukládají s rozšířením .py
, takže můžou být vedle sebe s poznámkovými bloky Jupyter v úložišti Git.