Crie seu primeiro fluxo de trabalho com um trabalho do Azure Databricks
Este artigo demonstra um trabalho do Azure Databricks que orquestra tarefas para ler e processar um conjunto de dados de exemplo. Neste início rápido, irá:
- Crie um novo bloco de anotações e adicione código para recuperar um conjunto de dados de exemplo contendo nomes populares de bebês por ano.
- Salve o conjunto de dados de exemplo no Unity Catalog.
- Crie um novo bloco de anotações e adicione código para ler o conjunto de dados do Catálogo Unity, filtre-o por ano e exiba os resultados.
- Crie um novo trabalho e configure duas tarefas usando os blocos de anotações.
- Execute o trabalho e visualize os resultados.
Requisitos
Se o espaço de trabalho estiver habilitado para Unity Catalog e o Serverless Jobs estiver habilitado, por padrão, o trabalho será executado na computação Serverless. Você não precisa de permissão de criação de cluster para executar seu trabalho com computação sem servidor.
Caso contrário, você deve ter permissão de criação de cluster para criar computação de trabalho ou permissões para recursos de computação para todos os fins.
Você deve ter um volume no Catálogo Unity. Este artigo usa um volume nomeado my-volume
em um esquema nomeado default
dentro de um catálogo chamado main
. Além disso, você deve ter as seguintes permissões no Catálogo Unity:
READ VOLUME
eWRITE VOLUME
, ouALL PRIVILEGES
, para omy-volume
volume.USE SCHEMA
ouALL PRIVILEGES
para odefault
esquema.USE CATALOG
ouALL PRIVILEGES
para omain
catálogo.
Para definir essas permissões, consulte os privilégios e objetos protegíveis do administrador do Databricks ou do Catálogo Unity.
Criar os blocos de notas
Recuperar e salvar dados
Para criar um bloco de anotações para recuperar o conjunto de dados de exemplo e salvá-lo no Unity Catalog:
Vá para a página inicial do Azure Databricks, clique em Novo na barra lateral e selecione Bloco de Anotações. O Databricks cria e abre um novo bloco de anotações em branco na pasta padrão. O idioma padrão é o idioma usado mais recentemente e o bloco de anotações é automaticamente anexado ao recurso de computação usado mais recentemente.
Se necessário, altere a linguagem padrão para Python.
Copie o seguinte código Python e cole-o na primeira célula do bloco de anotações.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Ler e exibir dados filtrados
Para criar um bloco de anotações para ler e apresentar os dados para filtragem:
Vá para a página inicial do Azure Databricks, clique em Novo na barra lateral e selecione Bloco de Anotações. O Databricks cria e abre um novo bloco de anotações em branco na pasta padrão. O idioma padrão é o idioma usado mais recentemente e o bloco de anotações é automaticamente anexado ao recurso de computação usado mais recentemente.
Se necessário, altere a linguagem padrão para Python.
Copie o seguinte código Python e cole-o na primeira célula do bloco de anotações.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Criar um trabalho
Clique em Fluxos de trabalho na barra lateral.
Clique em .
A guia Tarefas é exibida com a caixa de diálogo Criar tarefa.
Substitua Adicione um nome para o seu trabalho... pelo nome do seu trabalho.
No campo Nome da tarefa , insira um nome para a tarefa, por exemplo, retrieve-baby-names.
No menu suspenso Tipo, selecione Bloco de Anotações.
Use o navegador de arquivos para localizar o primeiro bloco de anotações que você criou, clique no nome do bloco de anotações e clique em Confirmar.
Clique em Criar tarefa.
Clique abaixo da tarefa que você acabou de criar para adicionar outra tarefa.
No campo Nome da tarefa , insira um nome para a tarefa, por exemplo, filter-baby-names.
No menu suspenso Tipo, selecione Bloco de Anotações.
Use o navegador de arquivos para localizar o segundo bloco de anotações que você criou, clique no nome do bloco de anotações e clique em Confirmar.
Clique em Adicionar em Parâmetros. No campo Chave, digite
year
. No campo Valor, insira2014
.Clique em Criar tarefa.
Executar a tarefa
Para executar o trabalho imediatamente, clique no canto superior direito. Você também pode executar o trabalho clicando na guia Executa e clicando em Executar agora na tabela Execuções Ativas.
Ver detalhes da execução
Clique na guia Execuções e clique no link para a execução na tabela Execuções Ativas ou na tabela Execuções Concluídas (últimos 60 dias).
Clique em qualquer uma das tarefas para ver a saída e os detalhes. Por exemplo, clique na tarefa filter-baby-names para exibir a saída e executar os detalhes da tarefa de filtro:
Executar com parâmetros diferentes
Para executar novamente o trabalho e filtrar nomes de bebês para um ano diferente:
- Clique ao lado de Executar agora e selecione Executar agora com parâmetros diferentes ou clique em Executar agora com parâmetros diferentes na tabela Execuções ativas .
- No campo Valor, insira
2015
. - Clique em Executar.