Spark 作业定义 Git 集成

2024-05-10

本文介绍 Microsoft Fabric 中 Spark 作业定义 (SJD) 的 Git 集成工作原理。了解如何设置存储库连接、通过源控件管理 Spark 作业定义更改，以及如何在各种工作区中部署它们。

通过在 Azure DevOps 中为 Spark 作业定义启用 Git 集成，你可以通过完整的 git 历史记录来跟踪更改。如果选择 PySpark 或 SparkR，将包含主定义文件和参考文件作为提交的一部分。还会跟踪对这些文件中的源代码所做的更改。

重要

此功能目前为预览版。

设置连接

从工作区设置中，可以轻松设置到存储库的连接，以提交和同步更改。要设置连接，请参阅 Git 集成入门一文。连接后，你的项目（如 Spark 作业定义）将显示在“源控件”面板中。

将 Spark 作业定义提交到 Git 存储库后，作业定义文件夹结构将显示于存储库中。

Git 中的 Spark 作业定义表示形式

下图是存储库中每个 Spark 作业定义项目的文件结构示例：

将 Spark 作业定义项提交到存储库时，会为每个项创建一个 git 文件夹，并根据此架构为其命名：<项目名称> + "SparkJobDefinition"。不要重命名文件夹，因为它用于跟踪工作区中的项目。例如，如果项目名称为“sjd1”，则 git 文件夹名称将为“sjd1SparkJobDefinition”。

git 文件夹中有两个子文件夹。它们是主文件夹和参考文件夹。主文件夹包含主要定义文件，参考文件夹包含参考文件。

除了主文件和参考文件，还有一个 SparkJobDefinitionV1.json 文件。它将保存 Spark 作业定义项的元数据，因此不要对其进行修改。 .platform 文件包含与 Git 设置相关的平台信息>，因此也不应对其进行修改。

注意

如果选择 Java 或 Scala 作为语言，则作为 .jar 文件上传时，不会提交主文件和参考文件。
从存储库同步到 Fabric 工作区后，附加环境将持续存在于 Spark 作业定义中。目前不支持跨工作区引用环境。必须手动附加到新环境或使用工作区默认设置才能运行作业定义。
Spark 作业定义在从存储库同步到 Fabric 工作区时保留默认的湖屋 ID。如果使用默认的湖屋提交笔记本，则必须手动引用新创建的湖屋项。有关详细信息，请参阅湖屋 Git 集成。

Git 集成简介

通过

Spark 作业定义 Git 集成

设置连接

Git 中的 Spark 作业定义表示形式

相关内容

反馈

其他资源