Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este artículo es la fase 4 de 4 en la serie de procedimientos recomendados para la migración de Azure Synapse Spark a Microsoft Fabric.
Use este artículo en la fase final de la migración para validar las cargas de trabajo, alinear los controles de seguridad y gobernanza y planear la transición de producción. En este artículo se proporcionan instrucciones sobre la asignación de seguridad y un enfoque basado en listas de comprobación para la validación, optimización y preparación para la transición.
En este artículo aprenderá a:
- Mapea los patrones de RBAC y de red de Synapse a las áreas de trabajo de Fabric, OneLake y los controles de red administrados.
- Vuelva a conectar los flujos de trabajo de gobernanza, incluida la integración y el etiquetado de Microsoft Purview.
- Use la lista de comprobación de migración por fase para validar, optimizar y ejecutar la transición.
- Planee la retirada de recursos heredados de Synapse Spark tras una transición exitosa.
Control de acceso
Los roles de RBAC de Synapse (administrador de Synapse, administrador de SQL de Synapse, administrador de Spark de Synapse y otros) se asignan a los roles de área de trabajo de Fabric (administrador, miembro, colaborador, visor). el modelo de Fabric es más sencillo con cuatro roles.
Los servicios vinculados de Synapse se reemplazan por Fabric Connections. Cree conexiones a través de la Configuración del Área de Trabajo> y de Administrar conexiones y puertas de enlace. En el caso del código del notebook, reemplace las referencias de servicios vinculados por la autenticación basada en Key Vault o la configuración directa del punto de conexión.
OneLake RBAC proporciona un control de acceso a datos específico en el nivel de carpeta y tabla dentro de Lakehouse.
Seguridad de red
Las redes virtuales administradas de Synapse y los puntos de conexión privados se asignan a Fabric red virtual administrada y puntos de conexión privados administrados. Tenga en cuenta que Fabric Spark requiere grupos personalizados (no grupos de inicio) para la compatibilidad con puntos de conexión privados administrados.
Los entornos de ejecución de integración autohospedados (SHIR) de Synapse se reemplazan por Puertas de Enlace de Datos Locales (OPDG) en Fabric. Los IR de VNet se reemplazan por las puertas de enlace de datos de VNet.
Gobernanza
Si usa Azure Purview con Synapse, Fabric proporciona integración de Microsoft Purview nativa para el catálogo de datos, el linaje, las etiquetas de confidencialidad y las directivas de acceso. Vuelva a conectar su cuenta de Purview para escanear espacios de trabajo de Fabric.
Lista de comprobación para la migración
Use esta lista de comprobación para realizar un seguimiento del progreso a través de la migración de Spark. Cada fase se basa en la anterior. Complete todos los elementos de una fase antes de pasar al siguiente.
Fase 1: Evaluación y planificación
Para obtener instrucciones de planeación, patrones de migración y comparación de características, consulte Fase 1: Estrategia de migración y planeamiento.
- 1.1 Complete el inventario de recursos de Spark: grupos de Spark, cuadernos, definiciones de trabajos de Spark, bases de datos de lago, bases de datos de Metastore de Hive (HMS) y servicios vinculados usados en cuadernos.
- 1.2 Revisar las diferencias de características entre Synapse y Fabric. Bloqueadores de señal: cargas de trabajo de GPU, API de catálogo no admitidas, dependencias de servicio vinculadas.
-
1.3 Ejecute la auditoría de refactorización previa: busque todos los cuadernos para patrones específicos de Synapse (
spark.synapse.linkedService,getSecretWithLS,TokenLibrary,synapsesql). Recuento de blocs de notas afectados. -
1.4 Comprobar la compatibilidad de la biblioteca: ejecutar
pip freezeen grupos de Synapse, comparar con las bibliotecas integradas de Fabric Runtime 1.3. Enumera las bibliotecas que deben estar preinstaladas. - 1.5 Crear áreas de trabajo de Fabric, aprovisionar capacidad y crear elementos de Target Lakehouse.
- 1.6 Exportar configuraciones del grupo de Spark, bibliotecas personalizadas y propiedades de Spark desde Synapse Studio.
Fase 2: Configuración de conexiones y credenciales
Para obtener instrucciones de autenticación y reemplazo de servicios vinculados, consulte Fase 2: Migración de cargas de trabajo de Spark y Fase 4: Migración de seguridad y gobernanza.
- 2.1 Inventario de todos los servicios vinculados de Synapse usados por cuadernos, definiciones de trabajos de Spark y acceso a datos de Lakehouse.
- 2.2 Crear conexiones de Fabric para orígenes de datos externos (ADLS Gen2, Cosmos DB, Azure SQL y otros) a través de Configuración del espacio de trabajo>Administrar conexiones y puentes de enlace.
- 2.3 Configurar Azure Key Vault con secretos para orígenes de datos que requieren autenticación basada en claves (claves de Cosmos DB, claves de cuenta de almacenamiento, tokens de Kusto). Configure las directivas de acceso para la identidad del área de trabajo de Fabric.
- 2.4 Configure las credenciales del principal de servicio para el acceso OAuth de ADLS Gen2: registre la aplicación en Entra ID, conceda el rol Colaborador de datos de Storage Blob, anote el identificador de cliente/secreto/inquilino.
- 2.5 Verifique la conectividad: pruebe la recuperación de secretos desde Key Vault y el acceso a la cuenta de almacenamiento desde un cuaderno de Fabric antes de continuar.
Fase 3: Migrar datos y el Metastore de Hive
Para obtener instrucciones de migración de acceso a datos y metadatos del lago, consulte Fase 3: Metastore de Hive y migración de datos y Migrar datos y canalizaciones.
- 3.1 Crear accesos directos de OneLake a las rutas de acceso existentes de ADLS Gen2 (enfoque preferido sin duplicación de datos). Utilice las Conexiones de Fabric configuradas en la Fase 2 para el acceso basado en una puerta de enlace de datos.
- 3.2 Para archivos no delta (CSV, JSON, Parquet), cree accesos directos en la sección Archivos. Si se requiere copia de datos, use AzCopy o la actividad de copia de Data Factory.
- 3.3 Migrar objetos de Metastore de Hive. Elija un enfoque: Opción A: Ejecutar cuadernos de exportación e importación de HMS para todos los metadatos. Opción B: Utilice Migration Assistant para tablas de Delta Lake DB + Exportación/importación de HMS solo para tablas que no son Delta.
- 3.4 Valide el registro automático de la tabla Delta en Lakehouse Explorer.
- 3.5 Compruebe que todas las tablas y accesos directos importados están visibles en el Explorador de Lakehouse y accesibles desde cuadernos.
Fase 4: Migración de cargas de trabajo de Spark
Para obtener instrucciones sobre la migración de elementos, la refactorización de código y la configuración del entorno, consulte Fase 2: Migración de cargas de trabajo de Spark.
- 4.1 Ejecutar Spark Migration Assistant para cuadernos, definiciones de trabajos de Spark, grupos de Spark y bases de datos del lago. Revise el informe de migración para ver si hay errores y advertencias.
- 4.2 Crear entornos de Fabric con el entorno de ejecución de Spark de destino, la configuración del grupo y las bibliotecas personalizadas. Preinstala las bibliotecas que faltan identificadas en la fase 1.
-
4.3 Refactorizar cuaderno y código SJD: reemplace
mssparkutilspornotebookutils, actualice las rutas de acceso de archivo a las rutas de acceso de OneLakeabfss://, reemplace las referencias de servicio vinculadas por conexiones de Key Vault o Fabric y reemplace los métodos no admitidosspark.catalogpor equivalentes de Spark SQL. -
4.4 Refactorizar conectores: Kusto/ADX: reemplace el servicio vinculado por
accessTokena través degetToken(). Cosmos DB: reemplacegetSecretWithLSporgetSecret(akvName, secret). -
4.5 Reemplace los proveedores de tokens de Synapse (
LinkedServiceBasedTokenProvider,TokenLibrary) por OAuthClientCredsTokenProviderestándar a través despark.conf.set(). - 4.6 Prueba integral de cuadernos refactorizados y SJDs con los datos (fase 3) y las conexiones (fase 2).
Fase 5: Seguridad, gobernanza y red
Para obtener instrucciones sobre seguridad, gobernanza y asignación de red, consulte Fase 4: Migración de seguridad y gobernanza.
- 5.1 Mapear los roles de RBAC de Synapse a los roles del área de trabajo de Fabric (Administrador, Miembro, Colaborador, Visor).
- 5.2 Configure OneLake RBAC para el control de acceso a datos específico en el nivel de carpeta y tabla.
- 5.3 Configure una red virtual administrada y puntos de conexión privados administrados para cargas de trabajo de Spark que accedan a orígenes de datos privados (requiere grupos personalizados).
- 5.4 Reemplace SHIR por puerta de enlace de datos local (OPDG) y reemplace VNet IR por VNet Data Gateway.
- 5.5 Volver a conectar Microsoft Purview para etiquetas de gobernanza, linaje y confidencialidad.
- 5.6 Revise y aplique etiquetas de confidencialidad a los elementos de Lakehouse migrados según sea necesario.
Fase 6: Optimizar y validar
Para obtener instrucciones sobre la validación posterior a la migración y la preparación de producción, consulte Fase 4: Migración de seguridad y gobernanza.
- 6.1 Habilite el motor de ejecución nativo (NEE) para mejorar el rendimiento de Spark en las cargas de trabajo Parquet y Delta.
-
6.2 Ejecutar
OPTIMIZE VORDERen tablas consumidas por Power BI Direct Lake o el terminal de SQL Analytics. - 6.3 Ejecutar cargas de trabajo paralelas y comparar los resultados y el rendimiento del trabajo de Spark entre Synapse y Fabric.
- 6.4 Redirija a los consumidores posteriores, incluidos los informes de Power BI, las API y las aplicaciones, a los puntos de conexión de Fabric.
- 6.5 Supervisar cargas de trabajo de Fabric mediante el centro de supervisión y el emisor de diagnóstico durante al menos una o dos semanas.
Fase 7: Transición
Para orientación sobre validación final, reenrutamiento descendente y transición, consulte Fase 4: Migración de seguridad y gobernanza.
- 7.1 Confirmar que todos los cuadernos migrados, los SJD y los trabajos de Spark se ejecutan correctamente en Fabric.
- 7.2 Compruebe la integridad de los datos a través de recuentos de filas, validación de esquemas y comparación de resultados de consulta.
- 7.3 Comunicar la transición a las partes interesadas y actualizar la documentación.
- 7.4 Desmantelar grupos de Synapse Spark, notebooks y recursos relacionados.
Note
Después de la migración, considere configurar la integración de Git de Fabric para los cuadernos migrados y las definiciones de trabajos de Spark. Fabric admite la integración con Git de Azure DevOps para el control de versiones, la gestión de ramas y las canalizaciones de implementación. A diferencia de Synapse (que usa plantillas de ARM para CI/CD), Fabric usa un modelo basado en el área de trabajo donde se conecta un área de trabajo a una rama de Git y se sincronizan los elementos directamente. Todos los cuadernos, entornos y SJD admiten la integración de Git. Configure canalizaciones de implementación (desarrollo → prueba → producción) para gestionar la promoción entre los entornos.
Contenido relacionado
- Fase 1: Estrategia de migración y planeación
- Fase 2: migración de cargas de trabajo de Spark
- Fase 3: Metastore de Hive y migración de datos
- Fase 4: Migración de seguridad y gobernanza
- Migrar de Azure Synapse Spark a Fabric (visión general)
- Asistente de Migración de Spark Synapse a Fabric Spark
- Compare Fabric y Azure Synapse Spark: diferencias clave
- Migrar grupos de Spark de Azure Synapse a Fabric
- Migrar bibliotecas de Spark de Azure Synapse a Fabric
- Migrar metadatos del metastore de Hive
- Synapse Spark Runtime: manifiestos de biblioteca
- Herramienta de evaluación de Fabric