Megosztás a következőn keresztül:


Spark-feladatdefiníció migrálása az Azure Synapse-ból a Fabricbe

A Spark-feladatdefiníciók (SJD) Az Azure Synapse-ból a Fabricbe való áthelyezéséhez két különböző lehetőség közül választhat:

  • 1. lehetőség: hozzon létre manuálisan Spark-feladatdefiníciót a Fabricben.
  • 2. lehetőség: szkripttel exportálhatja a Spark-feladatdefiníciókat az Azure Synapse-ból, és importálhatja őket a Fabricbe az API használatával.

A Spark-feladatok definíciójának szempontjaiért tekintse meg az Azure Synapse Spark és a Fabric közötti különbségeket.

Előfeltételek

Ha még nem rendelkezik ilyenrel, hozzon létre egy Háló-munkaterületet a bérlőjében.

1. lehetőség: Spark-feladatdefiníció manuális létrehozása

Spark-feladatdefiníció exportálása az Azure Synapse-ból:

  1. Nyissa meg a Synapse Studiót: Jelentkezzen be az Azure-ba. Lépjen az Azure Synapse-munkaterületre, és nyissa meg a Synapse Studiót.
  2. Keresse meg a Python-/Scala/R Spark-feladatot: Keresse meg és azonosítsa a migrálni kívánt Python-/Scala/R Spark-feladatdefiníciót.
  3. Exportálja a feladatdefiníció konfigurációját:
    • Nyissa meg a Spark-feladatdefiníciót a Synapse Studióban.
    • Exportálja vagy jegyezze fel a konfigurációs beállításokat, beleértve a szkriptfájl helyét, a függőségeket, a paramétereket és minden egyéb releváns részletet.

Új Spark-feladatdefiníció (SJD) létrehozása a Fabricben exportált SJD-adatok alapján:

  1. Access Fabric-munkaterület: Jelentkezzen be a Fabricbe, és férhessen hozzá a munkaterülethez.
  2. Hozzon létre egy új Spark-feladatdefiníciót a Fabricben:
    • A Fabricben lépjen adatmérnök kezdőlapjára.
    • Válassza a Spark-feladatdefiníciót.
    • Konfigurálja a feladatot a Synapse-ból exportált adatok alapján, beleértve a szkript helyét, a függőségeket, a paramétereket és a fürtbeállításokat.
  3. Adaptálás és tesztelés: Végezze el a szkripthez vagy konfigurációhoz szükséges módosításokat a Fabric-környezetnek megfelelően. Tesztelje a feladatot a Hálóban, és ellenőrizze, hogy megfelelően fut-e.

Képernyőkép a Spark-feladatdefiníció létrehozásáról.

A Spark-feladat definíciójának létrehozása után ellenőrizze a függőségeket:

  • Győződjön meg arról, hogy ugyanazt a Spark-verziót használja.
  • Ellenőrizze a fő definíciós fájl meglétét.
  • Ellenőrizze a hivatkozott fájlok, függőségek és erőforrások meglétét.
  • Társított szolgáltatások, adatforrás-kapcsolatok és csatlakoztatási pontok.

További információ arról, hogyan hozhat létre Apache Spark-feladatdefiníciót a Fabricben.

2. lehetőség: A Fabric API használata

Kövesse az alábbi főbb lépéseket a migráláshoz:

  • Előfeltételek.
  • 1. lépés: Spark-feladatdefiníció exportálása az Azure Synapse-ból a OneLake-be (.json).
  • 2. lépés: A Spark-feladat definíciójának importálása automatikusan a Fabricbe a Fabric API használatával.

Előfeltételek

Az előfeltételek közé tartoznak azok a műveletek, amelyeket figyelembe kell vennie a Spark-feladatdefiníció fabricbe való migrálása előtt.

  • Háló munkaterület.
  • Ha még nincs ilyenje, hozzon létre egy Fabric lakehouse-t a munkaterületen.

1. lépés: Spark-feladatdefiníció exportálása az Azure Synapse-munkaterületről

Az 1. lépés középpontjában a Spark-feladat definíciójának exportálása az Azure Synapse-munkaterületről a OneLake-be json formátumban. Ez a folyamat a következő:

  • 1.1) SJD-migrálási jegyzetfüzet importálása Fabric-munkaterületre. Ez a jegyzetfüzet exportálja az összes Spark-feladatdefiníciót egy adott Azure Synapse-munkaterületről egy köztes könyvtárba a OneLake-ben. A Synapse API az SJD exportálására szolgál.
  • 1.2) Konfigurálja az első parancs paramétereit a Spark-feladatdefiníció közbenső tárolóba (OneLake) való exportálásához. Ez csak a json metaadatfájlt exportálja. A forrás- és célparaméterek konfigurálásához az alábbi kódrészlet szolgál. Győződjön meg arról, hogy a saját értékeire cseréli őket.
# Azure config
azure_client_id = "<client_id>"
azure_tenant_id = "<tenant_id>"
azure_client_secret = "<client_secret>"

# Azure Synapse workspace config
synapse_workspace_name = "<synapse_workspace_name>"

# Fabric config
workspace_id = "<workspace_id>"
lakehouse_id = "<lakehouse_id>"
export_folder_name = f"export/{synapse_workspace_name}"
prefix = "" # this prefix is used during import {prefix}{sjd_name}

output_folder = f"abfss://{workspace_id}@onelake.dfs.fabric.microsoft.com/{lakehouse_id}/Files/{export_folder_name}"
  • 1.3) Futtassa az exportálási/importálási jegyzetfüzet első két celláját a Spark-feladatdefiníció metaadatainak a OneLake-be való exportálásához. A cellák befejezése után létrejön ez a mappastruktúra a köztes kimeneti könyvtár alatt.

Képernyőkép a Spark-feladatdefiníció exportálásról a OneLake-ben.

2. lépés: Spark-feladatdefiníció importálása a Hálóba

A 2. lépés az, amikor a Spark-feladatdefiníciók köztes tárolóból importálódnak a Háló munkaterületre. Ez a folyamat a következő:

  • 2.1) Ellenőrizze az 1.2 konfigurációit , hogy a megfelelő munkaterület és előtag legyen megjelölve a Spark-feladatdefiníciók importálásához.
  • 2.2) Futtassa az exportálási/importálási jegyzetfüzet harmadik celláját az összes Spark-feladatdefiníció közbenső helyről való importálásához.

Feljegyzés

Az exportálási beállítás json metaadatfájlt ad ki. Győződjön meg arról, hogy a Spark-feladatdefiníció végrehajtható fájljai, referenciafájljai és argumentumai elérhetők a Fabricből.