Criar seu primeiro fluxo de trabalho com um trabalho do Azure Databricks

Este artigo demonstra um trabalho do Azure Databricks que orquestra tarefas para ler e processar um exemplo de conjunto de dados. Neste início rápido, você:

  1. Criará um notebook e adicionará um código para recuperar um exemplo de conjunto de dados que contém nomes populares de bebês por ano.
  2. Salve o conjunto de dados de amostra no Catálogo do Unity.
  3. Crie um novo notebook e adicione código para ler o conjunto de dados do Catálogo do Unity, filtrá-lo por ano e exibir os resultados.
  4. Criará um trabalho e definirá duas tarefas usando os notebooks.
  5. Executará o trabalho e verá os resultados.

Requisitos

Se o seu espaço de trabalho estiver habilitado para o Unity Catalog e Fluxos de trabalho sem servidor estiver habilitado, por padrão, o trabalho será executado na computação sem servidor. Você não precisa de permissão de criação de cluster para executar seu trabalho com computação sem servidor.

Caso contrário, você deverá ter permissão de criação de cluster para criar computação de trabalho ou permissões para recursos de computação para todos os fins.

Você deve ter um volume no Catálogo Unity. Este artigo usa um volume denominado my-volume em um esquema denominado default em um catálogo denominado main. Além disso, você deve ter as seguintes permissões no Unity Catalog:

  • READ VOLUME e WRITE VOLUME, ou ALL PRIVILEGES, para o my-volume volume.
  • USE SCHEMA ou ALL PRIVILEGES para o default esquema.
  • USE CATALOG ou ALL PRIVILEGES para o main catálogo.

Para definir essas permissões, consulte o administrador do Databricks ou Privilégios e objetos protegíveis do Catálogo Unity.

Criar os notebooks

Recuperar e salvar dados

Para criar um notebook para recuperar o conjunto de dados de amostra e salvá-lo no Unity Catalog:

  1. Vá para a página de aterrissagem do Azure Databricks, clique no ícone NovoNovo na barra lateral e selecione Notebook. O Databricks cria e abre um novo notebook em branco em sua pasta padrão. O idioma padrão é o idioma usado mais recentemente e o notebook é anexado automaticamente ao recurso de computação que você usou mais recentemente.

  2. Se necessário, altere o idioma padrão para Python.

  3. Copie o código Python a seguir e cole-o na primeira célula do notebook.

    import requests
    
    response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
    csvfile = response.content.decode('utf-8')
    dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
    

Ler e exibir os dados filtrados

Para criar um notebook a fim de ler e apresentar os dados para filtragem:

  1. Vá para a página de aterrissagem do Azure Databricks, clique no ícone NovoNovo na barra lateral e selecione Notebook. O Databricks cria e abre um novo notebook em branco em sua pasta padrão. O idioma padrão é o idioma usado mais recentemente e o notebook é anexado automaticamente ao recurso de computação que você usou mais recentemente.

  2. Se necessário, altere o idioma padrão para Python.

  3. Copie o código Python a seguir e cole-o na primeira célula do notebook.

    babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
    babynames.createOrReplaceTempView("babynames_table")
    years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
    years.sort()
    dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
    display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
    

Criar um trabalho

  1. Clique no ícone TrabalhosFluxos de Trabalho na barra lateral.

  2. Clique no Botão Criar Trabalho.

    A guia Tarefas é exibida com a caixa de diálogo Criar tarefa.

    Criar caixa de diálogo da primeira tarefa

  3. Substitua Adicionar um nome ao trabalho… pelo nome do trabalho.

  4. No campo Nome da tarefa, insira um nome para a tarefa, por exemplo, retrieve-baby-names.

  5. No menu suspenso Tipo, selecione Notebook.

  6. Use o navegador de arquivos para encontrar o notebook que você criou, clique no nome dele e em Confirmar.

  7. Clique em Criar tarefa.

  8. Clique no botão Adicionar Tarefa abaixo da tarefa recém-criadas para adicionar outra tarefa.

  9. No campo Nome da tarefa, insira um nome para a tarefa, por exemplo, filter-baby-names.

  10. No menu suspenso Tipo, selecione Notebook.

  11. Use o navegador de arquivos para encontrar o segundo notebook que você criou, clique no nome dele e em Confirmar.

  12. Clique em Adicionar em Parâmetros. No campo Chave, insira year. No campo Valor, insira 2014.

  13. Clique em Criar tarefa.

Executar o trabalho

Para executar o trabalho imediatamente, clique no botão Executar Agora no canto superior direito. Execute também o trabalho clicando na guia Execuções e clicando em Executar Agora na tabela Execuções Ativas.

Exibir detalhes de execução

  1. Clique na guia Execuções e no link para a execução na tabela Execuções Ativas ou na tabela Execuções Concluídas (últimos 60 dias).

  2. Clique em uma das tarefas para ver a saída e os detalhes. Por exemplo, clique na tarefa filter-baby-names para ver os detalhes da saída e da execução da tarefa de filtro:

    Exibir os resultados dos nomes do filtro

Execução com parâmetros diferentes

Para executar novamente o trabalho e filtrar os nomes de bebês para um ano diferente:

  1. Clique no cursor Azul para Baixo ao lado de Executar Agora e selecione Executar Agora com Parâmetros Diferentes ou clique em Executar Agora com Parâmetros Diferentes na tabela Execuções Ativas.
  2. No campo Valor, insira 2015.
  3. Clique em Executar.