Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
Ez a cikk bemutatja a meglévő adatalkalmazások Azure Databricksbe való migrálását. Az Azure Databricks egységes megközelítést biztosít, amellyel egyetlen platformon számos forrásrendszerből származó adatokkal dolgozhat.
A platform képességeinek áttekintéséért lásd : Mi az Azure Databricks?.
ETL-feladatok migrálása az Azure Databricksbe
Néhány lépéssel migrálhatja a helyszíni vagy natív felhőbeli implementációkból származó adatok kinyeréséhez, átalakításához és betöltéséhez használt Apache Spark-feladatokat az Azure Databricksbe. Lásd Az Azure Databrickshez készült meglévő Apache Spark-kódját igazítsa.
Az Azure Databricks előre konfigurált nyílt forráskód integrációkkal, partnerintegrációkkal és nagyvállalati termékajánlatokkal bővíti a Spark SQL funkcióit. Ha az ETL-számítási feladatok SQL-ben vagy Hive-ben vannak megírva, minimális újrabontással migrálhat az Azure Databricksbe. További információ az Azure Databricks SQL-ajánlatairól:
- Adatraktározás az Azure Databricksben
- Lakeflow Spark deklaratív folyamatok
- Mi az a Databricks Partner Connect?
A különböző forrásrendszerekből az Azure Databricksbe való migrálásra vonatkozó konkrét utasításokért lásd : ETL-folyamatok migrálása az Azure Databricksbe.
A vállalati adattárház cseréje tóházra
Az Azure Databricks optimális értéket és teljesítményt nyújt, ha a számítási feladatok a lakehouse-ban tárolt adatokhoz igazodnak. Számos vállalati adatverem tartalmaz egy data lake-t és egy vállalati adattárházat is, és a szervezetek összetett ETL-munkafolyamatokat hoznak létre, hogy megpróbálják szinkronban tartani ezeket a rendszereket és adatokat. A lakehouse lehetővé teszi, hogy ugyanazokat az adatokat használja, amelyek a data lake-ben vannak tárolva olyan lekérdezésekben és rendszerekben, amelyek általában külön adattárházra támaszkodnak. További információ a lakehouse-ról: Mi az a data lakehouse?. A Databricksen végzett adattárház-készítésről további információt a Datawarehousing architektúra című témakörben talál.
A nagyvállalati adattárházból a lakehouse-ba való migrálás általában magában foglalja az adatarchitektúra és a munkafolyamatok összetettségének csökkentését, de a munka elvégzése során figyelembe kell venni néhány kikötést és ajánlott eljárást. Lásd: Adattárház migrálása a Databricks lakehouse-ba.
A gépi tanulási, adatelemzési és elemzési számítási feladatok egységesítése
Mivel a lakehouse optimalizált hozzáférést biztosít a felhőalapú adatfájlokhoz tábla-lekérdezéseken vagy fájlelérési utakon keresztül, az adatok egyetlen másolatán végezhet gépi tanulást, adatelemzést és elemzést. Az Azure Databricks megkönnyíti a számítási feladatok áthelyezését a nyílt forráskód és a védett eszközökről, és karbantartja az elemzők és adattudósok által használt nyílt forráskód kódtárak frissített verzióit.
A Jupyter-jegyzetfüzetekben lévő Pandas-számítási feladatok szinkronizálhatók és futtathatók a Databricks Git-mappák használatával. Az Azure Databricks natív támogatást nyújt a pandas számára minden Databricks Runtime-verzióban, és számos népszerű ML- és mélytanulási kódtárat konfigurál a Databricks Runtime for Machine Learningben. Ha git- és -munkaterületfájlokkal szinkronizálja a helyi számítási feladatokat a Git-mappákban, ugyanazokat a relatív elérési utakat használhatja a helyi környezetben található adatokhoz és egyéni tárakhoz.
Megjegyzés
Az Azure Databricks alapértelmezés szerint fenntartja .ipynb a Databricks Git-mappákkal szinkronizált Jupyter-jegyzetfüzetek bővítményeit, de a felhasználói felülettel való importáláskor automatikusan Átalakítja a Jupyter-jegyzetfüzeteket Databricks-jegyzetfüzetekké. A Databricks-jegyzetfüzetek egy bővítménnyel .py menthetők, így a Jupyter-jegyzetfüzetekkel párhuzamosan is élhetnek egy Git-adattárban.