Como criar uma preparação de dados visuais no Lakeflow Designer

Important

Esse recurso está em Visualização Pública.

O Lakeflow Designer permite criar fluxos de trabalho de transformação de dados em uma tela visual, arrastar e soltar. Esta página explica como criar uma preparação visual de dados, desde adicionar uma fonte de dados e encadear operadores até visualizar resultados e gravar no Unity Catalog.

Para criar uma preparação visual de dados:

  1. Verificar os requisitos
  2. Criar um preparo visual de dados
  3. Adicionar uma fonte de dados
  4. Adicionar e configurar operadores
  5. Conectar operadores
  6. Visualizar resultados
  7. Gravar resultados no Catálogo do Unity
  8. Agendar ou executar em produção
  9. Armazenar e gerenciar no Git

Requirements

Para usar o Lakeflow Designer, você deve ter:

  • Um workspace do Azure Databricks com o Unity Catalog habilitado.
  • CAN USE permissão em pelo menos um recurso de computação de uso geral (sem servidor ou para todas as finalidades).

Criar uma nova preparação de dados visuais

Para criar uma nova preparação de dados visuais, clique no ícone Plus.Novo na barra lateral e selecione Preparação de dados visuais.

O Designer é aberto com uma tela de boas-vindas na qual você pode adicionar uma fonte de dados ou explorar uma preparação visual de dados de exemplo.

Adicionar uma fonte de dados

Cada fluxo de trabalho do Designer começa com uma ou mais fontes de dados. O operador de origem representa uma fonte de dados na tela.

Para adicionar uma fonte de dados:

  1. Adicionar um operador de origem. Na tela de boas-vindas, clique em Selecionar operador de origem. Na tela, abra o menu do operador e selecione Origem.
  2. No painel Configuração de origem, escolha como trazer seus dados. Você pode procurar uma tabela existente, carregar um CSV local ou Excel arquivo, criar uma tabela a partir de um arquivo ou importar do Google Drive ou SharePoint.
  3. Selecione ou configure sua fonte de dados. O operador de origem aparece na tela.

Você também pode arrastar e soltar um arquivo CSV ou Excel diretamente na tela para criar rapidamente um operador de origem.

Para alterar a origem posteriormente, abra o operador De origem e clique em Selecionar uma nova fonte de dados. Alterar a origem invalida o cache de saída para todos os operadores downstream.

Para obter detalhes completos sobre cada opção de ingestão, consulte Ingestão de dados no Lakeflow Designer.

Adicionar e configurar operadores

Para adicionar um operador, abra o menu do operador no painel lateral no lado esquerdo da tela. Clique em um operador para adicioná-lo ao painel ou arraste um operador do menu para o painel. Você também pode clicar no + botão ao lado de qualquer operador existente para adicionar um novo operador com uma conexão automática.

Menu do operador LFD com arrastar e soltar na tela.

Para configurar um operador, clique duas vezes nele ou segure o ponteiro sobre ele e clique no ícone Lápis. (Operador Editar) para abrir o painel de configuração. Defina as opções para esse tipo de operador e clique em Aplicar.

Para obter detalhes sobre cada operador disponível, consulte operadores internos no Lakeflow Designer. Para obter detalhes sobre como criar seus próprios operadores definidos pelo usuário, consulte operadores definidos pelo usuário no Lakeflow Designer.

Conectar operadores

Para conectar dois operadores, clique e arraste do identificador de saída (o pequeno círculo na borda direita de um operador) para o identificador de entrada (o pequeno círculo na borda esquerda do próximo operador). Isso especifica que os dados fluem do primeiro operador para o segundo. Os dados fluem da esquerda para a direita por meio da preparação de dados visuais.

Tela LFD mostrando uma conexão entre dois operadores.

Alguns operadores, como Join e Combine, aceitam várias entradas.

Usar Código Genial

A qualquer momento durante a edição no Lakeflow Designer, você pode criar prompts para o Genie Code para ajudar.

Prompt de comando de código LFD Genie

Ao usar o Genie Code, os seguintes botões fornecem funcionalidade adicional:

  • Ícone de imagem. : carrega uma imagem a ser usada como parte do prompt.
  • No ícone. : Utilize para mencionar objetos, como tabelas ou arquivos, como parte do prompt.
  • Ícone de mais bolha de fala. : inicia um novo thread de chat com o novo contexto do agente.
  • Ícone do modo leitor. : abre o painel lateral para o histórico de conversas e uma exibição mais detalhada do que o agente está fazendo.

O Genie Code mostra um resumo de uma linha de sua edição mais recente acima da caixa de entrada.

Visualizar resultados

Selecione qualquer operador para ver os resultados no painel de saída na parte inferior da tela. Para a maioria dos tipos de operador, os dados de entrada estão à esquerda e os dados de saída estão à direita. Operadores que produzem resultados que não são de tabela, como gráficos, HTML ou imagens, renderizam essas saídas diretamente no painel de saída.

Use o controle de exibição no painel de saída para alternar entre entrada e saída (o padrão), somente entrada ou saída. No modo de exibição combinado, arraste o divisor para redimensionar os painéis de entrada e saída.

Painel de saída LFD abaixo da tela.

Por padrão, os operadores processam um exemplo limitado de dados. Use a lista suspensa Linhas digitalizadas no painel de saída para controlar quantas linhas processar:

  • Linhas examinadas: Limite: processa as primeiras N linhas de entrada. Especifique o número de linhas no campo ao lado da lista suspensa.
  • Linhas examinadas: Máx: Processa todas as linhas de entrada.

Aviso

Executar com Linhas examinadas: Max executa novamente todos os operadores anteriores com o conjunto de dados completo e ilimitado e pode levar muito tempo.

Criação de perfil de dados

No painel de saída, você pode optar por mostrar detalhes dos dados na saída. No canto superior direito do painel de saída, escolha o ícone barra lateral . Botão barra lateral para abrir os detalhes da seleção. Selecione um subconjunto de seus dados para ver detalhes sobre sua seleção.

Barra lateral mostrando grafos e detalhes sobre os dados de saída selecionados.

Gravar resultados no Catálogo do Unity

Adicione um operador de saída para gravar seus resultados em uma tabela no Catálogo do Unity:

  1. Abra o menu do operador e selecione Saída ou clique + ao lado do último operador e selecione Saída.
  2. Conecte o identificador de saída da última transformação ao identificador de entrada do operador de saída se ainda não estiver conectado.
  3. Clique duas vezes no operador De saída para abrir seu painel de configuração.
  4. Digite um nome de tabela e selecione o local de saída (catálogo e esquema).
  5. Clique em Executar.

Agendar ou executar em produção

Você pode automatizar seus fluxos de trabalho agendando-os como trabalhos.

  • Agendar diretamente: clique no botão Agendar no menu superior para criar um trabalho agendado para sua preparação de dados visuais.
  • Adicionar a um job: Crie um job do Azure Databricks e escolha sua preparação visual de dados como tarefa. Isso permite combinar essa preparação de dados visuais com outras tarefas em um pipeline maior.

Controle de agendamento LFD para automatizar uma preparação visual de dados como uma tarefa.

Armazenar e gerenciar arquivos de preparação de dados visuais no Git

Os arquivos de preparação de dados visuais residem nativamente no workspace. Para usá-los com o Git, crie uma pasta Git e coloque o arquivo lá. Quando o arquivo está em uma pasta Git, você pode usar o Git como faria para qualquer arquivo ou notebook regular.

O arquivo aparece no Git como um notebook com o formato file_name.designer.ipynb.

Dicas adicionais ao trabalhar na tela

As ações a seguir estão disponíveis na tela para ajudá-lo a editar sua preparação de dados visuais.

  • Renomeie um operador: clique no campo de texto na parte superior de qualquer painel de configuração para renomear o operador. Nomes descritivos tornam a preparação visual de dados mais fácil de entender à primeira vista. Alguns operadores, como o operador SQL, podem referenciar a saída de outros operadores pelo nome.
  • Copie um operador: segure o ponteiro sobre um operador e clique em Copiar ícone., ou selecione um operador e pressione Cmd/Ctrl+C e, em seguida, Cmd/Ctrl+V.
  • Layout automático: clique no ícone horizontal do DAG na barra de ferramentas do cabeçalho para organizar automaticamente todos os operadores em uma disposição compacta.
  • Ajustar à visualização: clique em ícone Ajustar zoom. na barra de ferramentas do cabeçalho para ver todos os operadores na área de visualização atual.
  • Desfazer e refazer: pressione Cmd/Ctrl+Z e Cmd/Ctrl+Shift+Z ou use os botões desfazer e refazer na barra de ferramentas de cabeçalho.
  • Exibir o código gerado: para ver o código PySpark gerado pelo Designer, abra o histórico de versão no painel direito, envie o arquivo para uma pasta Git e exiba-o lá ou exiba o código nos detalhes da execução do trabalho.

Próximas Etapas