O que é uma definição de trabalho do Apache Spark?

Uma definição de trabalho do Apache Spark é um item de código do Microsoft Fabric que permite que você envie trabalhos em lote/streaming para clusters do Spark. Ao fazer upload dos arquivos binários da saída de compilação de diferentes linguagens (por exemplo, .jar de Java), você deve aplicar diferentes lógicas de transformação aos dados hospedados em um lakehouse. Além do arquivo binário, você pode personalizar ainda mais o comportamento do trabalho fazendo upload de mais bibliotecas e argumentos de linha de comando.

Para executar uma definição de trabalho do Spark, você deve ter pelo menos um lakehouse associado a ela. Esse contexto padrão do lakehouse serve como o sistema de arquivos padrão para o runtime do Spark. Para qualquer código do Spark que utilize um caminho relativo para leitura/gravação de dados, os dados são fornecidos a partir do lakehouse padrão.

Dica

Para executar um item de definição de trabalho do Spark, você precisa ter um arquivo de definição principal e um contexto padrão do lakehouse. Se você não tem um lakehouse, crie um seguindo os passos em Criar um lakehouse.