Megosztás:


Adatalkalmazások migrálása az Azure Databricksbe

Ez a cikk bemutatja a meglévő adatalkalmazások Azure Databricksbe való migrálását. Az Azure Databricks egységes megközelítést biztosít, amellyel egyetlen platformon számos forrásrendszerből származó adatokkal dolgozhat.

A platform képességeinek áttekintéséért lásd : Mi az Azure Databricks?.

ETL-feladatok migrálása az Azure Databricksbe

Néhány lépéssel migrálhatja a helyszíni vagy natív felhőbeli implementációkból származó adatok kinyeréséhez, átalakításához és betöltéséhez használt Apache Spark-feladatokat az Azure Databricksbe. Lásd Az Azure Databrickshez készült meglévő Apache Spark-kódját igazítsa.

Az Azure Databricks előre konfigurált nyílt forráskód integrációkkal, partnerintegrációkkal és nagyvállalati termékajánlatokkal bővíti a Spark SQL funkcióit. Ha az ETL-számítási feladatok SQL-ben vagy Hive-ben vannak megírva, minimális újrabontással migrálhat az Azure Databricksbe. További információ az Azure Databricks SQL-ajánlatairól:

A különböző forrásrendszerekből az Azure Databricksbe való migrálásra vonatkozó konkrét utasításokért lásd : ETL-folyamatok migrálása az Azure Databricksbe.

A vállalati adattárház cseréje tóházra

Az Azure Databricks optimális értéket és teljesítményt nyújt, ha a számítási feladatok a lakehouse-ban tárolt adatokhoz igazodnak. Számos vállalati adatverem tartalmaz egy data lake-t és egy vállalati adattárházat is, és a szervezetek összetett ETL-munkafolyamatokat hoznak létre, hogy megpróbálják szinkronban tartani ezeket a rendszereket és adatokat. A lakehouse lehetővé teszi, hogy ugyanazokat az adatokat használja, amelyek a data lake-ben vannak tárolva olyan lekérdezésekben és rendszerekben, amelyek általában külön adattárházra támaszkodnak. További információ a lakehouse-ról: Mi az a data lakehouse?. A Databricksen végzett adattárház-készítésről további információt a Datawarehousing architektúra című témakörben talál.

A nagyvállalati adattárházból a lakehouse-ba való migrálás általában magában foglalja az adatarchitektúra és a munkafolyamatok összetettségének csökkentését, de a munka elvégzése során figyelembe kell venni néhány kikötést és ajánlott eljárást. Lásd: Adattárház migrálása a Databricks lakehouse-ba.

A gépi tanulási, adatelemzési és elemzési számítási feladatok egységesítése

Mivel a lakehouse optimalizált hozzáférést biztosít a felhőalapú adatfájlokhoz tábla-lekérdezéseken vagy fájlelérési utakon keresztül, az adatok egyetlen másolatán végezhet gépi tanulást, adatelemzést és elemzést. Az Azure Databricks megkönnyíti a számítási feladatok áthelyezését a nyílt forráskód és a védett eszközökről, és karbantartja az elemzők és adattudósok által használt nyílt forráskód kódtárak frissített verzióit.

A Jupyter-jegyzetfüzetekben lévő Pandas-számítási feladatok szinkronizálhatók és futtathatók a Databricks Git-mappák használatával. Az Azure Databricks natív támogatást nyújt a pandas számára minden Databricks Runtime-verzióban, és számos népszerű ML- és mélytanulási kódtárat konfigurál a Databricks Runtime for Machine Learningben. Ha git- és -munkaterületfájlokkal szinkronizálja a helyi számítási feladatokat a Git-mappákban, ugyanazokat a relatív elérési utakat használhatja a helyi környezetben található adatokhoz és egyéni tárakhoz.

Megjegyzés

Az Azure Databricks alapértelmezés szerint fenntartja .ipynb a Databricks Git-mappákkal szinkronizált Jupyter-jegyzetfüzetek bővítményeit, de a felhasználói felülettel való importáláskor automatikusan Átalakítja a Jupyter-jegyzetfüzeteket Databricks-jegyzetfüzetekké. A Databricks-jegyzetfüzetek egy bővítménnyel .py menthetők, így a Jupyter-jegyzetfüzetekkel párhuzamosan is élhetnek egy Git-adattárban.