Início Rápido: Transformar dados com a definição de tarefas do Apache Spark
Neste início rápido, irá utilizar o Azure Synapse Analytics para criar um pipeline com a definição de tarefas do Apache Spark.
Pré-requisitos
- Subscrição do Azure: se não tiver uma subscrição do Azure, crie uma conta gratuita do Azure antes de começar.
- Azure Synapse área de trabalho: crie uma área de trabalho do Synapse com o portal do Azure ao seguir as instruções em Início Rápido: Criar uma área de trabalho do Synapse.
- Definição da tarefa do Apache Spark: crie uma definição de tarefa do Apache Spark na área de trabalho do Synapse ao seguir as instruções em Tutorial: Criar a definição de tarefas do Apache Spark no Synapse Studio.
Navegue para o Synapse Studio
Depois de criar a área de trabalho Azure Synapse, tem duas formas de abrir Synapse Studio:
- Abra a área de trabalho do Synapse no portal do Azure. Selecione Abrir no cartão Abrir Synapse Studio em Introdução.
- Abra o Azure Synapse Analytics e inicie sessão na sua área de trabalho.
Neste início rápido, utilizamos a área de trabalho com o nome "sampletest" como exemplo. Irá navegar automaticamente para a home page do Synapse Studio.
Criar um pipeline com uma definição de tarefa do Apache Spark
Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta secção, irá criar um pipeline que contém uma atividade de definição de tarefas do Apache Spark.
Aceda ao separador Integrar . Selecione o ícone de adição junto ao cabeçalho pipelines e selecione Pipeline.
Na página Definições de propriedades do pipeline, introduza demonstração para Nome.
Em Synapse , no painel Atividades , arraste a definição da tarefa do Spark para a tela do pipeline.
Definir a tela de definições de tarefas do Apache Spark
Depois de criar a definição da tarefa do Apache Spark, será automaticamente enviado para a tela de definições de tarefas do Spark.
Definições gerais
Selecione o módulo de definição de tarefas do Spark na tela.
No separador Geral , introduza exemplo para Nome.
(Opção) Também pode introduzir uma descrição.
Tempo limite: quantidade máxima de tempo que uma atividade pode ser executada. A predefinição é sete dias, que é também a quantidade máxima de tempo permitida. O formato está em D.HH:MM:SS.
Repetição: número máximo de tentativas de repetição.
Intervalo de repetição: o número de segundos entre cada tentativa de repetição.
Saída segura: quando selecionada, o resultado da atividade não será capturado no registo.
Entrada segura: quando selecionada, a entrada da atividade não será capturada no registo.
Separador Definições
Neste painel, pode fazer referência à definição da tarefa do Spark a executar.
Expanda a lista de definições de tarefas do Spark, pode escolher uma definição de tarefa do Apache Spark existente. Também pode criar uma nova definição de tarefa do Apache Spark ao selecionar o botão Novo para referenciar a definição da tarefa do Spark a ser executada.
(Opcional) Pode preencher informações sobre a definição de tarefas do Apache Spark. Se as seguintes definições estiverem vazias, as definições da própria definição da tarefa do Spark serão utilizadas para execução; Se as seguintes definições não estiverem vazias, estas definições irão substituir as definições da própria definição da tarefa do Spark.
Propriedade Descrição Ficheiro de definição principal O ficheiro principal utilizado para a tarefa. Selecione um ficheiro PY/JAR/ZIP no seu armazenamento. Pode selecionar Carregar ficheiro para carregar o ficheiro para uma conta de armazenamento.
Exemplo:abfss://…/path/to/wordcount.jar
Referências de subpastas Ao analisar subpastas da pasta raiz do ficheiro de definição principal, estes ficheiros serão adicionados como ficheiros de referência. As pastas denominadas "jars", "pyFiles", "ficheiros" ou "arquivos" serão analisadas e o nome das pastas é sensível às maiúsculas e minúsculas. Nome da classe principal O identificador completamente qualificado ou a classe principal que está no ficheiro de definição principal.
Exemplo:WordCount
Argumentos da linha de comandos Pode adicionar argumentos da linha de comandos ao clicar no botão Novo . É de observar que adicionar argumentos da linha de comandos substituirá os argumentos da linha de comandos definidos pela definição da tarefa do Spark.
Exemplo:abfss://…/path/to/shakespeare.txt
abfss://…/path/to/result
Conjunto do Apache Spark Pode selecionar o conjunto do Apache Spark na lista. Referência de código python Ficheiros de código Python adicionais utilizados para referência no ficheiro de definição principal.
Suporta a transmissão de ficheiros (.py, .py3, .zip) para a propriedade "pyFiles". Substituirá a propriedade "pyFiles" definida na definição da tarefa do Spark.Ficheiros de referência Ficheiros adicionais utilizados para referência no ficheiro de definição principal. Alocar executores dinamicamente Esta definição mapeia para a propriedade de alocação dinâmica na configuração do Spark para alocação de executores da Aplicação Spark. Executores min Número mínimo de executores a alocar no conjunto do Spark especificado para a tarefa. Máx. de executores Número máximo de executores a alocar no conjunto do Spark especificado para a tarefa. Tamanho do controlador Número de núcleos e memória a utilizar para o controlador fornecido no conjunto do Apache Spark especificado para a tarefa. Configuração do Spark Especifique os valores das propriedades de configuração do Spark listadas no tópico: Configuração do Apache Spark – Propriedades da aplicação. Os utilizadores podem utilizar a configuração predefinida e a configuração personalizada. Pode adicionar conteúdo dinâmico ao clicar no botão Adicionar Conteúdo Dinâmico ou ao premir a tecla de atalho Alt+Shift+D. Na página Adicionar Conteúdo Dinâmico , pode utilizar qualquer combinação de expressões, funções e variáveis de sistema para adicionar ao conteúdo dinâmico.
Separador Propriedades do utilizador
Pode adicionar propriedades para a atividade de definição de tarefas do Apache Spark neste painel.
Passos seguintes
Avance para os seguintes artigos para saber mais sobre o suporte do Azure Synapse Analytics: