Transformar dados ao executar uma definição de tarefa do Synapse Spark
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Dica
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde o movimento de dados à ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova versão de avaliação gratuitamente!
A Azure Synapse definição de tarefas do Spark Atividade num pipeline executa uma definição de tarefa do Synapse Spark na área de trabalho do Azure Synapse Analytics. Este artigo baseia-se no artigo atividades de transformação de dados , que apresenta uma descrição geral da transformação de dados e das atividades de transformação suportadas.
Definir a tela de definição de tarefas do Apache Spark
Para utilizar uma atividade de definição de tarefas do Spark para o Synapse num pipeline, conclua os seguintes passos:
Definições gerais
Procure a definição da tarefa do Spark no painel Atividades do pipeline e arraste uma atividade de definição de tarefa do Spark no Synapse para a tela do pipeline.
Selecione a nova atividade de definição de tarefas do Spark na tela se ainda não estiver selecionada.
No separador Geral , introduza o exemplo de Nome.
(Opção) Também pode introduzir uma descrição.
Tempo limite: quantidade máxima de tempo que uma atividade pode executar. A predefinição é de sete dias, que é também o período máximo de tempo permitido. O formato está em D.HH:MM:SS.
Repetição: número máximo de tentativas de repetição.
Intervalo de repetição: o número de segundos entre cada tentativa de repetição.
Saída segura: quando selecionada, o resultado da atividade não será capturado no registo.
Entrada segura: quando selecionada, as entradas da atividade não serão capturadas no registo.
definições do Azure Synapse Analytics (Artefactos)
Selecione a nova atividade de definição de tarefas do Spark na tela se ainda não estiver selecionada.
Selecione o separador Análise de Azure Synapse (Artefactos) para selecionar ou criar um novo serviço ligado do Azure Synapse Analytics que executará a atividade de definição de tarefas do Spark.
Separador Definições
Selecione a nova atividade de definição de tarefas do Spark na tela se ainda não estiver selecionada.
Selecione o separador Settings (Definições).
Expanda a lista de definições de tarefas do Spark, pode selecionar uma definição de tarefa existente do Apache Spark na área de trabalho ligada Azure Synapse Analytics.
(Opcional) Pode preencher informações sobre a definição da tarefa do Apache Spark. Se as seguintes definições estiverem vazias, as definições da própria definição da tarefa do Spark serão utilizadas para serem executadas; Se as seguintes definições não estiverem vazias, estas definições irão substituir as definições da própria definição da tarefa do Spark.
Propriedade Descrição Ficheiro de definição principal O ficheiro principal utilizado para a tarefa. Selecione um ficheiro PY/JAR/ZIP no seu armazenamento. Pode selecionar Carregar ficheiro para carregar o ficheiro para uma conta de armazenamento.
Exemplo:abfss://…/path/to/wordcount.jar
Referências de subpastas Ao analisar subpastas da pasta raiz do ficheiro de definição principal, estes ficheiros serão adicionados como ficheiros de referência. As pastas denominadas "jars", "pyFiles", "files" ou "archives" serão analisadas e o nome das pastas é sensível às maiúsculas e minúsculas. Nome da classe principal O identificador completamente qualificado ou a classe principal que está no ficheiro de definição principal.
Exemplo:WordCount
Argumentos da linha de comandos Pode adicionar argumentos de linha de comandos ao clicar no botão Novo . Deve observar-se que adicionar argumentos de linha de comandos substituirá os argumentos da linha de comandos definidos pela definição da tarefa do Spark.
Exemplo:abfss://…/path/to/shakespeare.txt
abfss://…/path/to/result
Conjunto do Apache Spark Pode selecionar o conjunto do Apache Spark na lista. Referência de código python Ficheiros de código python adicionais utilizados para referência no ficheiro de definição principal.
Suporta a passagem de ficheiros (.py, .py3, .zip) para a propriedade "pyFiles". Irá substituir a propriedade "pyFiles" definida na definição da tarefa do Spark.Ficheiros de referência Ficheiros adicionais utilizados para referência no ficheiro de definição principal. Conjunto do Apache Spark Pode selecionar o conjunto do Apache Spark na lista. Alocar dinamicamente executores Esta definição mapeia para a propriedade de alocação dinâmica na configuração do Spark para alocação de executores da Aplicação Spark. Executores min Número mínimo de executores a atribuir no conjunto do Spark especificado para a tarefa. Máx. executors Número máximo de executores a atribuir no conjunto do Spark especificado para a tarefa. Tamanho do controlador Número de núcleos e memória a utilizar para o controlador indicado no conjunto do Apache Spark especificado para a tarefa. Configuração do Spark Especifique os valores das propriedades de configuração do Spark listadas no tópico: Configuração do Spark – Propriedades da aplicação. Os utilizadores podem utilizar a configuração predefinida e a configuração personalizada. Pode adicionar conteúdo dinâmico clicando no botão Adicionar Conteúdo Dinâmico ou premindo a tecla de atalho Alt+Shift+D. Na página Adicionar Conteúdo Dinâmico , pode utilizar qualquer combinação de expressões, funções e variáveis de sistema para adicionar a conteúdo dinâmico.
Separador Propriedades do utilizador
Pode adicionar propriedades para a atividade de definição de tarefas do Apache Spark neste painel.
Azure Synapse definição de atividade de definição de tarefa do Spark
Eis a definição JSON de exemplo de uma Atividade do Bloco de Notas do Azure Synapse Analytics:
{
"activities": [
{
"name": "Spark job definition1",
"type": "SparkJob",
"dependsOn": [],
"policy": {
"timeout": "7.00:00:00",
"retry": 0,
"retryIntervalInSeconds": 30,
"secureOutput": false,
"secureInput": false
},
"typeProperties": {
"sparkJob": {
"referenceName": {
"value": "Spark job definition 1",
"type": "Expression"
},
"type": "SparkJobDefinitionReference"
}
},
"linkedServiceName": {
"referenceName": "AzureSynapseArtifacts1",
"type": "LinkedServiceReference"
}
}
],
}
Azure Synapse propriedades de definição de tarefas do Spark
A tabela seguinte descreve as propriedades JSON utilizadas na definição JSON:
Propriedade | Descrição | Necessário |
---|---|---|
name | Nome da atividade no pipeline. | Sim |
descrição | Texto que descreve o que a atividade faz. | No |
tipo | Para Azure Synapse definição de trabalho do Spark Atividade, o tipo de atividade é SparkJob. | Sim |
Veja Azure Synapse histórico de execuções de atividades de definição de tarefas do Spark
Aceda a Execuções de pipeline no separador Monitor . Verá o pipeline que acionou. Abra o pipeline que contém Azure Synapse atividade de definição de tarefas do Spark para ver o histórico de execuções.
Pode ver a entrada ou saída da atividade do bloco de notas ao selecionar o botão entrada ou Saída. Se o pipeline tiver falhado com um erro de utilizador, selecione o resultado para verificar o campo de resultado para ver a análise detalhada de erros do utilizador.