从 Azure Synapse Spark 迁移到 Fabric
开始迁移之前,应验证 Fabric 数据工程是否是最适合你的工作负载的解决方案。 Fabric 数据工程支持湖屋、笔记本、环境、Spark 作业定义 (SJD) 和数据管道项,包括不同的运行时和 Spark 功能支持。
重要注意事项
制定迁移策略的第一步是评估适用性。 值得注意的是,与 Spark 相关的某些 Fabric 功能目前正在开发或规划中。 有关更多详细信息和更新,请访问 Fabric 路线图。
对于 Spark,请参阅 Azure Synapse Spark 与 Fabric 之间的差异的详细比较。
迁移方案
如果确定 Fabric 数据工程适合于迁移现有 Spark 工作负载,迁移过程可能涉及多个方案和阶段:
- 项:项迁移涉及将一个或多个项从现有 Azure Synapse 工作区传输到 Fabric。 详细了解如何迁移Spark 池、Spark 配置、Spark 库、笔记本和 Spark 作业定义。
- 数据和管道:使用 OneLake 快捷方式,可以使 ADLS Gen2 数据(链接到 Azure Synapse 工作区)在 Fabric 湖屋中可用。 管道迁移涉及将现有数据管道移动到 Fabric,包括笔记本和 Spark 作业定义管道活动。 详细了解数据和管道迁移。
- 元数据:元数据迁移涉及将 Spark 目录元数据(数据库、表和分区)从 Azure Synapse 中的现有 Hive 元存储 (HMS) 移动到 Fabric 湖屋。 详细了解 HMS 元数据迁移。
- 工作区:用户可以通过在 Microsoft Fabric 中创建新工作区(包括元数据)来迁移现有的 Azure Synapse 工作区。 本指南未介绍工作区迁移,假设用户需要创建新工作区或拥有现有的 Fabric 工作区。 详细了解 Fabric 中的工作区角色。
要想从 Azure Synapse Spark 过渡到 Fabric Spark,用户需要深入了解当前体系结构以及 Azure Synapse Spark 与 Fabric 之间的差异。 第一个关键步骤是评估,然后创建详细的迁移计划。 可以自定义此计划,以匹配系统的独特特征、阶段依赖项和工作负荷复杂性。