将 Spark 库从 Azure Synapse 迁移到 Fabric

Azure Synapse Spark 池提供不同的源和自定义库选项。 在 Fabric 中,每个运行时都附带一组预安装的库(内置库)。 不过,你还可以根据自己的情况和特定需求,使用环境库内联库来包含其他库。 若要将 Azure Synapse Spark 池库移至 Fabric,请使用环境库。

有关 Spark 库注意事项,请参阅 Azure Synapse Spark 和 Fabric 之间的差异

先决条件

  • 如果还没有工作区,请在租户中创建一个 Fabric 工作区
  • 请在工作区中创建一个环境(如果还没有)。

选项 1:将 Spark 库添加到自定义环境

可以将 Spark 池库移到环境中,如下所示:

  1. 打开 Synapse Studio:登录到 Azure。 导航到 Azure Synapse 工作区,打开 Synapse Studio。
  2. 找到 Spark 库
    • 转到“管理”区域,选择“Apache Spark 池”
    • 找到 Apache Spark 池,选择“包”并找到该池的 Spark 库。
  3. 获取 Spark 库:找到 requirements.txt、environment.yml 或池中安装的工作区包。 获取池中已安装库的列表。
  4. 有了 Spark 库后,将自定义 Spark 库添加到 Fabric 中的环境。 在“环境”中转到“库”,然后添加库:
    • 可以从“公用库”上传 .yml 文件。 还可以使用 PyPI 和 Conda 来安装库。
    • 在“自定义库”中,可以使用 .jar/.whl/.tar.gz 文件来安装库
  5. 单击“保存”,然后单击“发布”来发布更改。

Screenshot showing Spark libraries.

详细了解如何将 Spark 库添加到某个环境

注意

请注意,库安装可能需要一些时间。