Transformar dados ao executar uma definição de tarefa do Synapse Spark

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde o movimento de dados à ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova versão de avaliação gratuitamente!

A Azure Synapse definição de tarefas do Spark Atividade num pipeline executa uma definição de tarefa do Synapse Spark na área de trabalho do Azure Synapse Analytics. Este artigo baseia-se no artigo atividades de transformação de dados , que apresenta uma descrição geral da transformação de dados e das atividades de transformação suportadas.

Definir a tela de definição de tarefas do Apache Spark

Para utilizar uma atividade de definição de tarefas do Spark para o Synapse num pipeline, conclua os seguintes passos:

Definições gerais

  1. Procure a definição da tarefa do Spark no painel Atividades do pipeline e arraste uma atividade de definição de tarefa do Spark no Synapse para a tela do pipeline.

  2. Selecione a nova atividade de definição de tarefas do Spark na tela se ainda não estiver selecionada.

  3. No separador Geral , introduza o exemplo de Nome.

  4. (Opção) Também pode introduzir uma descrição.

  5. Tempo limite: quantidade máxima de tempo que uma atividade pode executar. A predefinição é de sete dias, que é também o período máximo de tempo permitido. O formato está em D.HH:MM:SS.

  6. Repetição: número máximo de tentativas de repetição.

  7. Intervalo de repetição: o número de segundos entre cada tentativa de repetição.

  8. Saída segura: quando selecionada, o resultado da atividade não será capturado no registo.

  9. Entrada segura: quando selecionada, as entradas da atividade não serão capturadas no registo.

definições do Azure Synapse Analytics (Artefactos)

  1. Selecione a nova atividade de definição de tarefas do Spark na tela se ainda não estiver selecionada.

  2. Selecione o separador Análise de Azure Synapse (Artefactos) para selecionar ou criar um novo serviço ligado do Azure Synapse Analytics que executará a atividade de definição de tarefas do Spark.

    Captura de ecrã que mostra a IU do separador do serviço ligado para uma atividade de definição de tarefa do Spark.

Separador Definições

  1. Selecione a nova atividade de definição de tarefas do Spark na tela se ainda não estiver selecionada.

  2. Selecione o separador Settings (Definições).

  3. Expanda a lista de definições de tarefas do Spark, pode selecionar uma definição de tarefa existente do Apache Spark na área de trabalho ligada Azure Synapse Analytics.

  4. (Opcional) Pode preencher informações sobre a definição da tarefa do Apache Spark. Se as seguintes definições estiverem vazias, as definições da própria definição da tarefa do Spark serão utilizadas para serem executadas; Se as seguintes definições não estiverem vazias, estas definições irão substituir as definições da própria definição da tarefa do Spark.

    Propriedade Descrição
    Ficheiro de definição principal O ficheiro principal utilizado para a tarefa. Selecione um ficheiro PY/JAR/ZIP no seu armazenamento. Pode selecionar Carregar ficheiro para carregar o ficheiro para uma conta de armazenamento.
    Exemplo: abfss://…/path/to/wordcount.jar
    Referências de subpastas Ao analisar subpastas da pasta raiz do ficheiro de definição principal, estes ficheiros serão adicionados como ficheiros de referência. As pastas denominadas "jars", "pyFiles", "files" ou "archives" serão analisadas e o nome das pastas é sensível às maiúsculas e minúsculas.
    Nome da classe principal O identificador completamente qualificado ou a classe principal que está no ficheiro de definição principal.
    Exemplo: WordCount
    Argumentos da linha de comandos Pode adicionar argumentos de linha de comandos ao clicar no botão Novo . Deve observar-se que adicionar argumentos de linha de comandos substituirá os argumentos da linha de comandos definidos pela definição da tarefa do Spark.
    Exemplo: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Conjunto do Apache Spark Pode selecionar o conjunto do Apache Spark na lista.
    Referência de código python Ficheiros de código python adicionais utilizados para referência no ficheiro de definição principal.
    Suporta a passagem de ficheiros (.py, .py3, .zip) para a propriedade "pyFiles". Irá substituir a propriedade "pyFiles" definida na definição da tarefa do Spark.
    Ficheiros de referência Ficheiros adicionais utilizados para referência no ficheiro de definição principal.
    Conjunto do Apache Spark Pode selecionar o conjunto do Apache Spark na lista.
    Alocar dinamicamente executores Esta definição mapeia para a propriedade de alocação dinâmica na configuração do Spark para alocação de executores da Aplicação Spark.
    Executores min Número mínimo de executores a atribuir no conjunto do Spark especificado para a tarefa.
    Máx. executors Número máximo de executores a atribuir no conjunto do Spark especificado para a tarefa.
    Tamanho do controlador Número de núcleos e memória a utilizar para o controlador indicado no conjunto do Apache Spark especificado para a tarefa.
    Configuração do Spark Especifique os valores das propriedades de configuração do Spark listadas no tópico: Configuração do Spark – Propriedades da aplicação. Os utilizadores podem utilizar a configuração predefinida e a configuração personalizada.

    Captura de ecrã que mostra a IU da atividade de definição de tarefas do Spark.

  5. Pode adicionar conteúdo dinâmico clicando no botão Adicionar Conteúdo Dinâmico ou premindo a tecla de atalho Alt+Shift+D. Na página Adicionar Conteúdo Dinâmico , pode utilizar qualquer combinação de expressões, funções e variáveis de sistema para adicionar a conteúdo dinâmico.

    Captura de ecrã a mostrar a IU para adicionar conteúdo dinâmico às atividades de definição de tarefas do Spark.

Separador Propriedades do utilizador

Pode adicionar propriedades para a atividade de definição de tarefas do Apache Spark neste painel.

Captura de ecrã que mostra a IU das propriedades de uma atividade de definição de tarefa do Spark.

Azure Synapse definição de atividade de definição de tarefa do Spark

Eis a definição JSON de exemplo de uma Atividade do Bloco de Notas do Azure Synapse Analytics:

 {
        "activities": [
            {
                "name": "Spark job definition1",
                "type": "SparkJob",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "sparkJob": {
                        "referenceName": {
                            "value": "Spark job definition 1",
                            "type": "Expression"
                        },
                        "type": "SparkJobDefinitionReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ],
    }

Azure Synapse propriedades de definição de tarefas do Spark

A tabela seguinte descreve as propriedades JSON utilizadas na definição JSON:

Propriedade Descrição Necessário
name Nome da atividade no pipeline. Sim
descrição Texto que descreve o que a atividade faz. No
tipo Para Azure Synapse definição de trabalho do Spark Atividade, o tipo de atividade é SparkJob. Sim

Veja Azure Synapse histórico de execuções de atividades de definição de tarefas do Spark

Aceda a Execuções de pipeline no separador Monitor . Verá o pipeline que acionou. Abra o pipeline que contém Azure Synapse atividade de definição de tarefas do Spark para ver o histórico de execuções.

Captura de ecrã que mostra a IU da entrada e saída de uma atividade de definição de tarefa do Spark.

Pode ver a entrada ou saída da atividade do bloco de notas ao selecionar o botão entrada ou Saída. Se o pipeline tiver falhado com um erro de utilizador, selecione o resultado para verificar o campo de resultado para ver a análise detalhada de erros do utilizador.

Captura de ecrã a mostrar a IU para o erro de utilizador de saída de uma atividade de definição de tarefa do Spark executada.