Início Rápido: Transformar dados com a definição de tarefas do Apache Spark
Neste início rápido, irá utilizar o Azure Synapse Analytics para criar um pipeline com a definição da tarefa do Apache Spark.
Pré-requisitos
- Subscrição do Azure: se não tiver uma subscrição do Azure, crie uma conta gratuita do Azure antes de começar.
- Azure Synapse área de trabalho: crie uma área de trabalho do Synapse com o portal do Azure seguindo as instruções em Início Rápido: Criar uma área de trabalho do Synapse.
- Definição da tarefa do Apache Spark: crie uma definição de tarefa do Apache Spark na área de trabalho do Synapse, seguindo as instruções no Tutorial: Criar a definição de tarefas do Apache Spark no Synapse Studio.
Navegar para o Synapse Studio
Após a criação da área de trabalho Azure Synapse, tem duas formas de abrir Synapse Studio:
- Abra a área de trabalho do Synapse no portal do Azure. Selecione Abrir no cartão Abrir Synapse Studio em Introdução.
- Abra o Azure Synapse Analytics e inicie sessão na área de trabalho.
Neste início rápido, utilizamos a área de trabalho denominada "sampletest" como exemplo. Irá navegar automaticamente para a home page Synapse Studio.
Criar um pipeline com uma definição de tarefa do Apache Spark
Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta secção, irá criar um pipeline que contém uma atividade de definição de tarefas do Apache Spark.
Aceda ao separador Integrar . Selecione o ícone de adição junto ao cabeçalho dos pipelines e selecione Pipeline.
Na página Definições de propriedades do pipeline, introduza demonstração para Nome.
Em Synapse , no painel Atividades , arraste a definição da tarefa do Spark para a tela do pipeline.
Definir a tela de definição de tarefas do Apache Spark
Assim que criar a definição da tarefa do Apache Spark, será enviado automaticamente para a tela de definição de tarefas do Spark.
Definições gerais
Selecione o módulo de definição de tarefa do Spark na tela.
No separador Geral , introduza o exemplode Nome.
(Opção) Também pode introduzir uma descrição.
Tempo limite: quantidade máxima de tempo que uma atividade pode executar. A predefinição é de sete dias, que é também o período máximo de tempo permitido. O formato está em D.HH:MM:SS.
Repetição: número máximo de tentativas de repetição.
Intervalo de repetição: o número de segundos entre cada tentativa de repetição.
Saída segura: quando selecionada, o resultado da atividade não será capturado no registo.
Entrada segura: quando selecionada, as entradas da atividade não serão capturadas no registo.
Separador Definições
Neste painel, pode fazer referência à definição da tarefa do Spark a executar.
Expanda a lista de definições de tarefas do Spark, pode escolher uma definição de tarefa existente do Apache Spark. Também pode criar uma nova definição de tarefa do Apache Spark ao selecionar o botão Novo para referenciar a definição da tarefa do Spark a ser executada.
(Opcional) Pode preencher informações sobre a definição da tarefa do Apache Spark. Se as seguintes definições estiverem vazias, as definições da própria definição da tarefa do Spark serão utilizadas para serem executadas; Se as seguintes definições não estiverem vazias, estas definições irão substituir as definições da própria definição da tarefa do Spark.
Propriedade Descrição Ficheiro de definição principal O ficheiro principal utilizado para a tarefa. Selecione um ficheiro PY/JAR/ZIP no seu armazenamento. Pode selecionar Carregar ficheiro para carregar o ficheiro para uma conta de armazenamento.
Exemplo:abfss://…/path/to/wordcount.jar
Referências de subpastas Ao analisar subpastas da pasta raiz do ficheiro de definição principal, estes ficheiros serão adicionados como ficheiros de referência. As pastas denominadas "jars", "pyFiles", "files" ou "archives" serão analisadas e o nome das pastas é sensível às maiúsculas e minúsculas. Nome da classe principal O identificador completamente qualificado ou a classe principal que está no ficheiro de definição principal.
Exemplo:WordCount
Argumentos da linha de comandos Pode adicionar argumentos de linha de comandos ao clicar no botão Novo . Deve observar-se que adicionar argumentos de linha de comandos substituirá os argumentos da linha de comandos definidos pela definição da tarefa do Spark.
Exemplo:abfss://…/path/to/shakespeare.txt
abfss://…/path/to/result
Conjunto do Apache Spark Pode selecionar o conjunto do Apache Spark na lista. Referência de código python Ficheiros de código Python adicionais utilizados para referência no ficheiro de definição principal.
Suporta a passagem de ficheiros (.py, .py3, .zip) para a propriedade "pyFiles". Irá substituir a propriedade "pyFiles" definida na definição da tarefa do Spark.Ficheiros de referência Ficheiros adicionais utilizados para referência no ficheiro de definição principal. Alocar dinamicamente executores Esta definição mapeia para a propriedade de alocação dinâmica na configuração do Spark para alocação de executores da Aplicação Spark. Executores min Número mínimo de executores a atribuir no conjunto do Spark especificado para a tarefa. Máx. executors Número máximo de executores a atribuir no conjunto do Spark especificado para a tarefa. Tamanho do controlador Número de núcleos e memória a utilizar para o controlador indicado no conjunto do Apache Spark especificado para a tarefa. Configuração do Spark Especifique os valores das propriedades de configuração do Spark listadas no tópico: Configuração do Spark – Propriedades da aplicação. Os utilizadores podem utilizar a configuração predefinida e a configuração personalizada. Pode adicionar conteúdo dinâmico clicando no botão Adicionar Conteúdo Dinâmico ou premindo a tecla de atalho Alt+Shift+D. Na página Adicionar Conteúdo Dinâmico , pode utilizar qualquer combinação de expressões, funções e variáveis de sistema para adicionar a conteúdo dinâmico.
Separador Propriedades do utilizador
Pode adicionar propriedades para a atividade de definição de tarefas do Apache Spark neste painel.
Passos seguintes
Avance para os seguintes artigos para saber mais sobre o suporte do Azure Synapse Analytics: