Criar seu primeiro fluxo de trabalho com um trabalho do Azure Databricks

Artigo
10/14/2024

Este artigo demonstra um trabalho do Azure Databricks que orquestra tarefas para ler e processar um exemplo de conjunto de dados. Neste início rápido, você:

Criará um notebook e adicionará um código para recuperar um exemplo de conjunto de dados que contém nomes populares de bebês por ano.
Salve o conjunto de dados de amostra no Catálogo do Unity.
Crie um novo notebook e adicione código para ler o conjunto de dados do Catálogo do Unity, filtrá-lo por ano e exibir os resultados.
Criará um trabalho e definirá duas tarefas usando os notebooks.
Executará o trabalho e verá os resultados.

Requisitos

Se seu espaço de trabalho tiver o Catálogo do Unity habilitado e os Trabalhos Sem Servidor estiverem habilitados, o trabalho será executado em computação sem servidor por padrão. Você não precisa de permissão de criação de cluster para executar seu trabalho com computação sem servidor.

Caso contrário, você deverá ter permissão de criação de cluster para criar computação de trabalho ou permissões para recursos de computação para todos os fins.

Você deve ter um volume no Catálogo Unity. Este artigo usa um volume denominado my-volume em um esquema denominado default em um catálogo denominado main. Além disso, você deve ter as seguintes permissões no Unity Catalog:

READ VOLUME e WRITE VOLUME, ou ALL PRIVILEGES, para o volume my-volume.
USE SCHEMA ou ALL PRIVILEGES para o esquema default.
USE CATALOG ou ALL PRIVILEGES para o catálogo main.

Para definir essas permissões, consulte o administrador do Databricks ou Privilégios e objetos protegíveis do Catálogo Unity.

Criar os notebooks

Recuperar e salvar dados

Para criar um notebook para recuperar o conjunto de dados de amostra e salvá-lo no Unity Catalog:

Vá para a página de aterrissagem do Azure Databricks e clique em Novo na barra lateral e selecione Notebook. O Databricks cria e abre um novo notebook em branco em sua pasta padrão. O idioma padrão é o idioma usado mais recentemente e o notebook é anexado automaticamente ao recurso de computação que você usou mais recentemente.
Se necessário, altere o idioma padrão para Python.

Copie o código Python a seguir e cole-o na primeira célula do notebook.

import requests

response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
csvfile = response.content.decode('utf-8')
dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)

Ler e exibir os dados filtrados

Para criar um notebook a fim de ler e apresentar os dados para filtragem:

Vá para a página de aterrissagem do Azure Databricks e clique em Novo na barra lateral e selecione Notebook. O Databricks cria e abre um novo notebook em branco em sua pasta padrão. O idioma padrão é o idioma usado mais recentemente e o notebook é anexado automaticamente ao recurso de computação que você usou mais recentemente.
Se necessário, altere o idioma padrão para Python.

Copie o código Python a seguir e cole-o na primeira célula do notebook.

babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))

Criar um trabalho

Clique em Fluxos de trabalho na barra lateral.
Clique no .

A guia Tarefas é exibida com a caixa de diálogo Criar tarefa.
Substitua Adicionar um nome ao trabalho… pelo nome do trabalho.
No campo Nome da tarefa, insira um nome para a tarefa, por exemplo, retrieve-baby-names.
No menu suspenso Tipo, selecione Notebook.
Use o navegador de arquivos para encontrar o notebook que você criou, clique no nome dele e em Confirmar.
Clique em Criar tarefa.
Clique no abaixo da tarefa recém-criadas para adicionar outra tarefa.
No campo Nome da tarefa, insira um nome para a tarefa, por exemplo, filter-baby-names.
No menu suspenso Tipo, selecione Notebook.
Use o navegador de arquivos para encontrar o segundo notebook que você criou, clique no nome dele e em Confirmar.
Clique em Adicionar em Parâmetros. No campo Chave, insira year. No campo Valor, insira 2014.
Clique em Criar tarefa.

Executar o trabalho

Para executar o trabalho imediatamente, clique no no canto superior direito. Execute também o trabalho clicando na guia Execuções e clicando em Executar agora na tabela Execuções ativas.

Exibir detalhes de execução

Clique na guia Execuções e no link para a execução na tabela Execuções Ativas ou na tabela Execuções Concluídas (últimos 60 dias).
Clique em uma das tarefas para ver a saída e os detalhes. Por exemplo, clique na tarefa filter-baby-names para ver os detalhes da saída e da execução da tarefa de filtro:

Execução com parâmetros diferentes

Para executar novamente o trabalho e filtrar os nomes de bebês para um ano diferente:

Clique no ao lado de Executar agora e selecione Executar agora com parâmetros diferentes ou clique em Executar agora com parâmetros diferentes na tabela Execuções ativas.
No campo Valor, insira 2015.
Clique em Executar.

Compartilhar via