什么是 Apache Spark 作业定义?

Apache Spark 作业定义是一个 Microsoft Fabric 代码项,可用于将批处理作业/流式处理作业提交到 Spark 群集。 通过上传来自不同语言的编译输出(例如 Java 中的 .jar)的二进制文件,可以将不同的转换逻辑应用于湖屋上托管的数据。 除了二进制文件外,还可以通过上传更多库和命令行参数来进一步自定义作业的行为。

若要运行 Spark 作业定义,必须至少有一个与之关联的湖屋。 此默认湖屋上下文用作 Spark 运行时的默认文件系统。 对于任何使用相对路径读取/写入数据的 Spark 代码,数据都是从默认湖屋提供的。

提示

要运行 Spark 作业定义项,必须具有主要定义文件和默认湖屋上下文。 如果没有湖屋,请按照创建湖屋中的步骤创建一个。