Fase 4: Sikkerheds- og governance-migration

Denne artikel er fase 4 af 4 i Azure Synapse Spark to Microsoft Fabric migration best practices-serien.

Brug denne artikel i den sidste fase af din migration til at validere arbejdsbelastninger, tilpasse sikkerheds- og governance-kontroller og planlægge din produktionsomskæring. Denne artikel giver vejledning om sikkerhedskortlægning og en tjeklistebaseret tilgang til validering, optimering og cutover-parathed.

I denne artikel lærer du, hvordan du:

  • Kortlæg Synapse RBAC og netværksmønstre til Fabric workspace, OneLake og administrerede netværkskontroller.
  • Genforbind styringsarbejdsgange, herunder integration og mærkning af Microsoft Purview.
  • Brug tjeklisten for fase-for-fase migrering til at validere, optimere og udføre cutover.
  • Planlægger nedlukning af de gamle Synapse Spark-ressourcer efter vellykket cutover.

Adgangskontrol

  • Synapse RBAC-roller (Synapse Administrator, Synapse SQL Administrator, Synapse Spark Administrator og andre) kortlægges til Fabric workspace-roller (Admin, Medlem, Bidragyder, Viewer). Fabric's model er enklere med fire roller.

  • Synapse-tilknyttede tjenester erstattes af Fabric Connections. Opret forbindelser via arbejdsområdeindstillinger>Administrer forbindelser og gateways. For notebook-kode erstattes linked service-referencer med Key Vault-baseret autentificering eller direkte endpoint-konfiguration.

  • OneLake RBAC giver fintgående dataadgangskontrol på mappe- og tabelniveau i Lakehouse.

Netværkssikkerhed

  • Synapse Managed VNet og Private Endpoints kortlægges til Fabric Managed VNet + Managed Private Endpoints. Bemærk, at Fabric Spark kræver Custom Pools (ikke Starter Pools) til understøttelse af Managed Private Endpoints.

  • Selvhostede Integration Runtimes (SHIR) i Synapse erstattes af On-premises Data Gateways (OPDG) i Fabric. VNet IR'er erstattes af VNet Data Gateways.

Forvaltning

Hvis du bruger Azure Purview med Synapse, tilbyder Fabric native Microsoft Purview-integration til datakatalog, lineage, følsomhedsetiketter og adgangspolitikker. Genforbind din Purview-konto for at scanne Fabric-arbejdsområder.

Tjekliste til migrering

Brug denne tjekliste til at følge din fremgang i din Spark-migration. Hver fase bygger videre på den forrige. Gennemfør alle punkter i en fase, før du går videre til den næste.

Fase 1: Vurder og planlæg

For planlægningsvejledning, migrationsmønstre og funktionssammenligning, se Fase 1: Migrationsstrategi og planlægning.

  • 1.1 Komplet Spark-aktivinventar: Spark-puljer, notesbøger, Spark-jobdefinitioner, sødatabaser, Hive Metastore (HMS) databaser og linkede tjenester brugt i notebooks.
  • 1.2 Gennemgå forskelle i Synapse vs. Fabric funktionsforskelle. Flagblokkere: GPU-arbejdsbelastninger, ikke-understøttede katalog-API'er, linkede serviceafhængigheder.
  • 1.3 Kør pre-refactoring audit: søg i alle notebooks efter Synapse-specifikke mønstre (spark.synapse.linkedService, getSecretWithLS, , TokenLibrary). synapsesql Notesbøger påvirket af tælling.
  • 1.4 Tjek bibliotekkompatibilitet: kør pip freeze på Synapse-pools, sammenlign med Fabric Runtime 1.3 indbyggede biblioteker. List biblioteker, der skal være forudinstallerede.
  • 1.5 Opret Fabric arbejdsområder, provisioneringskapacitet og opret mål-Lakehouse-elementer.
  • 1.6 Eksporter Spark-poolkonfigurationer, brugerdefinerede biblioteker og Spark-egenskaber fra Synapse Studio.

Fase 2: Opsæt forbindelser og legitimationsoplysninger

For vejledning om udskiftning og autentificering af linked services, se Fase 2: Spark workload migration og Fase 4: Sikkerheds- og governance-migration.

  • 2.1 Inventar alle Synapse-tilknyttede tjenester, der bruges af notebooks, Spark-jobdefinitioner og Lakehouse-dataadgang.
  • 2.2 Opret Fabric forbindelser til eksterne datakilder (ADLS Gen2, Cosmos DB, Azure SQL og andre) via Workspace Settings>Administrer forbindelser og gateways.
  • 2.3 Opsæt Azure Key Vault med hemmeligheder til datakilder, der kræver nøglebaseret autentificering (Cosmos DB-nøgler, lagringskontonøgler, Kusto-tokens). Konfigurer adgangspolitikker for din Fabric-arbejdsområdeidentitet.
  • 2.4 Konfigurer service principal-legitimationsoplysninger til ADLS Gen2 OAuth-adgang: registrer appen i Entra ID, tildel Storage Blob Data Contributor-rollen, noter klient-ID/hemmelig/lejer.
  • 2.5 Bekræft forbindelsen: test Key Vault hemmelig hentning og adgang til lagringskontoen fra en Fabric notesbog, før du fortsætter.

Fase 3: Migrer data og Hive Metastore

For vejledning om sømetadata og dataadgangsmigration, se Fase 3: Hive Metastore og datamigrering samt Migrate data og pipelines.

  • 3.1 Opret OneLake-genveje til eksisterende ADLS Gen2-stier (zero-copy, foretrukken tilgang). Brug Fabric Connections, der er sat op i fase 2, til adgang baseret på datagateway.
  • 3.2 For ikke-Delta-filer (CSV, JSON, Parquet), opret genveje i filsektionen. Hvis datakopiering er nødvendig, brug AzCopy eller Data Factory Copy Activity.
  • 3.3 Migrer Hive Metastore-objekter. Vælg én tilgang: Mulighed A: Kør HMS eksport/import af notebooks for al metadata. Mulighed B: Brug Migration Assistant til Delta lake DB-tabeller + HMS eksport/import kun for ikke-Delta.
  • 3.4 Valider automatisk registrering af Delta-tabellen i Lakehouse Explorer.
  • 3.5 Bekræfte, at alle importerede tabeller og genveje er synlige i Lakehouse Explorer og tilgængelige fra notesbøger.

Fase 4: Migrer Spark-arbejdsbelastninger

For item migration, koderefaktorering og vejledning om miljøopsætning, se fase 2: Spark workload migration.

  • 4.1 Kør Spark Migration Assistant til notebooks, Spark-jobdefinitioner, Spark-pools og lake-databaser. Gennemgå migrationsrapporten for fejl og advarsler.
  • 4.2 Opret Fabric miljøer med målrettet Spark-runtime, poolkonfiguration og brugerdefinerede biblioteker. Forinstaller manglende biblioteker identificeret i fase 1.
  • 4.3 Refactor-notebook og SJD-kode: erstat mssparkutils med notebookutils, opdater filstier til OneLake abfss:// stier, erstat linkede servicereferencer med Key Vault eller Fabric Connections, og erstatter ikke-understøttede spark.catalog metoder med Spark SQL-ækvivalenter.
  • 4.4 Refaktoreringsstik: Kusto/ADX — erstatter linket service med accessToken via getToken(). Cosmos DB — erstatter getSecretWithLS med getSecret(akvName, secret).
  • 4.5 Erstat Synapse-tokenudbydere (LinkedServiceBasedTokenProvider, TokenLibrary) med standard OAuth ClientCredsTokenProvider via spark.conf.set().
  • 4.6 Test refaktorerede notesbøger og SJD'er fra ende til ende mod data (Fase 3) og forbindelser (Fase 2).

Fase 5: Sikkerhed, styring og netværk

For vejledning om sikkerhed, styring og netværkskortlægning, se Fase 4: Sikkerheds- og governance-migration.

  • 5.1 Kortlæg Synapse RBAC-roller til Fabric arbejdsområde-roller (Admin, Medlem, Bidragyder, Viewer).
  • 5.2 Konfigurér OneLake RBAC til finkornet dataadgangskontrol på mappe- og tabelniveau.
  • 5.3 Konfigurér Managed VNet og Managed Private Endpoints til Spark-arbejdsbelastninger, der tilgår private datakilder (kræver brugerdefinerede puljer).
  • 5.4 Erstat SHIR med On-premises Data Gateway (OPDG), og erstat VNet IR med VNet Data Gateway.
  • 5.5 Reconnect Microsoft Purview for governance, slægtslinje og følsomhedsetiketter.
  • 5.6 Gennemgå og påfør følsomhedsetiketter på migrerede Lakehouse-elementer efter behov.

Fase 6: Optimer og valider

For validering efter migration og vejledning om produktionsparathed, se Fase 4: Sikkerheds- og governance-migration.

  • 6.1 Aktiver Native Execution Engine (NEE) for forbedring af Spark-ydeevnen på Parquet- og Delta-arbejdsbelastninger.
  • 6.2 Kør OPTIMIZE VORDER på tabeller, der bruges af Power BI Direct Lake eller SQL-analyse-endpointet.
  • 6.3 Kør parallelle arbejdsbelastninger og sammenlign Spark-jobresultater og ydeevne mellem Synapse og Fabric.
  • 6.4 Omdiriger nedstrøms forbrugere, inklusive Power BI rapporter, API'er og applikationer, til Fabric endepunkter.
  • 6.5 Overvåg Fabric arbejdsbelastninger ved hjælp af Monitoring Hub og Diagnostic Emitter i mindst en til to uger.

Fase 7: Cutover

For endelig validering, downstream-omdirigering og cutover-vejledning, se Fase 4: Sikkerheds- og governance-migration.

  • 7.1 Bekræft at alle migrerede notebooks, SJD'er og Spark-jobs kører succesfuldt i Fabric.
  • 7.2 Verificér dataintegritet gennem rækkeoptællinger, skemavalidering og sammenligning af forespørgselsresultater.
  • 7.3 Kommuniker cutover til interessenter og opdaterer dokumentationen.
  • 7.4 Deaktiver Synapse Spark-puljer, notesbøger og relaterede ressourcer.

Bemærkning

Efter migreringen kan du overveje at opsætte Fabric Git-integration til dine migrerede notebooks og Spark-jobdefinitioner. Fabric understøtter Azure DevOps Git-integration til versionskontrol, forgrening og deployment-pipelines. I modsætning til Synapse (som bruger ARM-skabeloner til CI/CD), bruger Fabric en arbejdsområdebaseret model, hvor du forbinder et arbejdsområde til en Git-gren og synkroniserer genstande direkte. Notebooks, miljøer og SJD'er understøtter alle Git-integration. Opsæt deployment-pipelines (Dev → Test → Prod) for at styre promovering på tværs af miljøer.