Spark 作业定义 Git 集成
本文介绍 Microsoft Fabric 中 Spark 作业定义 (SJD) 的 Git 集成工作原理。 了解如何设置存储库连接、通过源控件管理 Spark 作业定义更改,以及如何在各种工作区中部署它们。
通过在 Azure DevOps 中为 Spark 作业定义启用 Git 集成,你可以通过完整的 git 历史记录来跟踪更改。 如果选择 PySpark 或 SparkR,将包含主定义文件和参考文件作为提交的一部分。 还会跟踪对这些文件中的源代码所做的更改。
重要
此功能目前为预览版。
设置连接
从工作区设置中,可以轻松设置到存储库的连接,以提交和同步更改。 要设置连接,请参阅 Git 集成入门一文。 连接后,你的项目(如 Spark 作业定义)将显示在“源控件”面板中。
将 Spark 作业定义提交到 Git 存储库后,作业定义文件夹结构将显示于存储库中。
Git 中的 Spark 作业定义表示形式
下图是存储库中每个 Spark 作业定义项目的文件结构示例:
将 Spark 作业定义项提交到存储库时,会为每个项创建一个 git 文件夹,并根据此架构为其命名:<项目名称> + "SparkJobDefinition"。 不要重命名文件夹,因为它用于跟踪工作区中的项目。 例如,如果项目名称为“sjd1”,则 git 文件夹名称将为“sjd1SparkJobDefinition”。
git 文件夹中有两个子文件夹。 它们是主文件夹和参考文件夹。 主文件夹包含主要定义文件,参考文件夹包含参考文件。
除了主文件和参考文件,还有一个 SparkJobDefinitionV1.json 文件。 它将保存 Spark 作业定义项的元数据,因此不要对其进行修改。 .platform 文件包含与 Git 设置相关的平台信息>,因此也不应对其进行修改。
注意
- 如果选择 Java 或 Scala 作为语言,则作为 .jar 文件上传时,不会提交主文件和参考文件。
- 从存储库同步到 Fabric 工作区后,附加环境将持续存在于 Spark 作业定义中。 目前不支持跨工作区引用环境。 必须手动附加到新环境或使用工作区默认设置才能运行作业定义。
- Spark 作业定义在从存储库同步到 Fabric 工作区时保留默认的湖屋 ID。 如果使用默认的湖屋提交笔记本,则必须手动引用新创建的湖屋项。 有关详细信息,请参阅湖屋 Git 集成。