Início Rápido: Transformar dados com a definição de tarefas do Apache Spark

Neste início rápido, irá utilizar o Azure Synapse Analytics para criar um pipeline com a definição da tarefa do Apache Spark.

Pré-requisitos

Após a criação da área de trabalho Azure Synapse, tem duas formas de abrir Synapse Studio:

Neste início rápido, utilizamos a área de trabalho denominada "sampletest" como exemplo. Irá navegar automaticamente para a home page Synapse Studio.

home page do synapse studio

Criar um pipeline com uma definição de tarefa do Apache Spark

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta secção, irá criar um pipeline que contém uma atividade de definição de tarefas do Apache Spark.

  1. Aceda ao separador Integrar . Selecione o ícone de adição junto ao cabeçalho dos pipelines e selecione Pipeline.

    Criar um novo pipeline

  2. Na página Definições de propriedades do pipeline, introduza demonstração para Nome.

  3. Em Synapse , no painel Atividades , arraste a definição da tarefa do Spark para a tela do pipeline.

    arrastar a definição da tarefa do Spark

Definir a tela de definição de tarefas do Apache Spark

Assim que criar a definição da tarefa do Apache Spark, será enviado automaticamente para a tela de definição de tarefas do Spark.

Definições gerais

  1. Selecione o módulo de definição de tarefa do Spark na tela.

  2. No separador Geral , introduza o exemplode Nome.

  3. (Opção) Também pode introduzir uma descrição.

  4. Tempo limite: quantidade máxima de tempo que uma atividade pode executar. A predefinição é de sete dias, que é também o período máximo de tempo permitido. O formato está em D.HH:MM:SS.

  5. Repetição: número máximo de tentativas de repetição.

  6. Intervalo de repetição: o número de segundos entre cada tentativa de repetição.

  7. Saída segura: quando selecionada, o resultado da atividade não será capturado no registo.

  8. Entrada segura: quando selecionada, as entradas da atividade não serão capturadas no registo.

    definição geral da tarefa do Spark

Separador Definições

Neste painel, pode fazer referência à definição da tarefa do Spark a executar.

  • Expanda a lista de definições de tarefas do Spark, pode escolher uma definição de tarefa existente do Apache Spark. Também pode criar uma nova definição de tarefa do Apache Spark ao selecionar o botão Novo para referenciar a definição da tarefa do Spark a ser executada.

  • (Opcional) Pode preencher informações sobre a definição da tarefa do Apache Spark. Se as seguintes definições estiverem vazias, as definições da própria definição da tarefa do Spark serão utilizadas para serem executadas; Se as seguintes definições não estiverem vazias, estas definições irão substituir as definições da própria definição da tarefa do Spark.

    Propriedade Descrição
    Ficheiro de definição principal O ficheiro principal utilizado para a tarefa. Selecione um ficheiro PY/JAR/ZIP no seu armazenamento. Pode selecionar Carregar ficheiro para carregar o ficheiro para uma conta de armazenamento.
    Exemplo: abfss://…/path/to/wordcount.jar
    Referências de subpastas Ao analisar subpastas da pasta raiz do ficheiro de definição principal, estes ficheiros serão adicionados como ficheiros de referência. As pastas denominadas "jars", "pyFiles", "files" ou "archives" serão analisadas e o nome das pastas é sensível às maiúsculas e minúsculas.
    Nome da classe principal O identificador completamente qualificado ou a classe principal que está no ficheiro de definição principal.
    Exemplo: WordCount
    Argumentos da linha de comandos Pode adicionar argumentos de linha de comandos ao clicar no botão Novo . Deve observar-se que adicionar argumentos de linha de comandos substituirá os argumentos da linha de comandos definidos pela definição da tarefa do Spark.
    Exemplo: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Conjunto do Apache Spark Pode selecionar o conjunto do Apache Spark na lista.
    Referência de código python Ficheiros de código Python adicionais utilizados para referência no ficheiro de definição principal.
    Suporta a passagem de ficheiros (.py, .py3, .zip) para a propriedade "pyFiles". Irá substituir a propriedade "pyFiles" definida na definição da tarefa do Spark.
    Ficheiros de referência Ficheiros adicionais utilizados para referência no ficheiro de definição principal.
    Alocar dinamicamente executores Esta definição mapeia para a propriedade de alocação dinâmica na configuração do Spark para alocação de executores da Aplicação Spark.
    Executores min Número mínimo de executores a atribuir no conjunto do Spark especificado para a tarefa.
    Máx. executors Número máximo de executores a atribuir no conjunto do Spark especificado para a tarefa.
    Tamanho do controlador Número de núcleos e memória a utilizar para o controlador indicado no conjunto do Apache Spark especificado para a tarefa.
    Configuração do Spark Especifique os valores das propriedades de configuração do Spark listadas no tópico: Configuração do Spark – Propriedades da aplicação. Os utilizadores podem utilizar a configuração predefinida e a configuração personalizada.

    definições de pipline de definição de tarefa spark

  • Pode adicionar conteúdo dinâmico clicando no botão Adicionar Conteúdo Dinâmico ou premindo a tecla de atalho Alt+Shift+D. Na página Adicionar Conteúdo Dinâmico , pode utilizar qualquer combinação de expressões, funções e variáveis de sistema para adicionar a conteúdo dinâmico.

    adicionar conteúdo dinâmico

Separador Propriedades do utilizador

Pode adicionar propriedades para a atividade de definição de tarefas do Apache Spark neste painel.

propriedades do utilizador

Passos seguintes

Avance para os seguintes artigos para saber mais sobre o suporte do Azure Synapse Analytics: