Partilhar via


Acelerar a preparação de dados com o Data Wrangler no Microsoft Fabric

O Data Wrangler acelera o seu fluxo de trabalho de preparação de dados ao proporcionar uma interface visual imersiva para análise exploratória de dados. Neste artigo, você aprenderá a:

  • Inicie o Data Wrangler a partir do seu caderno Fabric
  • Explore dados com visualizações interativas e estatísticas sumarizadas
  • Aplicar operações comuns de limpeza de dados com geração automática de código
  • Exporte funções reutilizáveis de pandas ou PySpark de volta ao seu caderno

Este artigo foca-se nos DataFrames do pandas. Para Spark DataFrames, consulte este recurso.

Prerequisites

Limitations

  • As operações de código personalizado suportam atualmente apenas DataFrames pandas.
  • O ecrã Data Wrangler funciona melhor em monitores grandes. No entanto, você pode minimizar ou ocultar diferentes partes da interface para acomodar telas menores.

Lançamento do Data Wrangler

Pode iniciar o Data Wrangler diretamente a partir de um portátil Microsoft Fabric para explorar e transformar qualquer panda ou Spark DataFrame.

Para começar com dados de exemplo:

Este trecho de código mostra como ler dados de exemplo em um DataFrame pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Na guia "Página inicial" da faixa de opções do caderno, use a lista suspensa Data Wrangler para procurar os DataFrames ativos disponíveis para edição. Selecione o que deseja abrir no Data Wrangler.

Tip

Não podes abrir o Data Wrangler enquanto o kernel do notebook está ocupado. Uma célula de execução deve ser concluída antes que o Data Wrangler possa ser iniciado, conforme mostrado nesta captura de tela:

Captura de ecrã mostrando um Fabric notebook com o prompt suspenso do Data Wrangler.

Escolhendo amostras personalizadas

Para abrir uma amostra personalizada de qualquer DataFrame ativo com o Data Wrangler, selecione Escolher amostra personalizada no menu suspenso, como mostrado nesta captura de ecrã:

Captura de ecrã mostrando o menu suspenso do Data Wrangler com a opção exemplo destacada.

Esta ação abre uma caixa de diálogo com opções para especificar o tamanho da amostra desejada (número de linhas) e o método de amostragem (primeiros registros, últimos registros ou um conjunto aleatório). As primeiras 5.000 linhas do DataFrame servem como o tamanho de amostra padrão, conforme mostrado nesta captura de tela:

Captura de tela mostrando o prompt de exemplo personalizado do Data Wrangler.

Visualizar estatísticas de resumo

Quando o Data Wrangler carrega, apresenta uma visão descritiva do DataFrame escolhido no painel de Resumo . Esta visão geral inclui informações sobre as dimensões do DataFrame, valores ausentes e muito mais. Quando seleciona qualquer coluna na grelha do Data Wrangler, o painel de Resumo atualiza-se para mostrar estatísticas descritivas sobre essa coluna específica. Informações rápidas sobre cada coluna também estão disponíveis em seu cabeçalho.

Tip

Estatísticas e visuais específicos das colunas (tanto no painel de Resumo como nos cabeçalhos das colunas) dependem do tipo de dado da coluna. Por exemplo, um histograma vinculado de uma coluna numérica aparece no cabeçalho da coluna somente se a coluna for convertida como um tipo numérico, conforme mostrado nesta captura de tela:

Captura de tela mostrando a grade de exibição do Data Wrangler e o painel Resumo.

Navegando por operações relacionadas à limpeza de dados

O painel de Operações fornece uma lista pesquisável das operações de limpeza de dados. Quando seleciona uma operação de limpeza de dados a partir do painel de Operações , precisa de fornecer uma coluna ou colunas alvo, juntamente com quaisquer parâmetros necessários para completar a operação. Por exemplo, o prompt para dimensionar numericamente uma coluna requer um novo intervalo de valores, conforme mostrado nesta captura de tela:

Captura de tela mostrando o painel Operações do Data Wrangler.

Tip

Você pode aplicar uma seleção menor de operações no menu de cada cabeçalho de coluna, conforme mostrado nesta captura de tela:

Captura de ecrã que mostra uma operação do Data Wrangler que pode ser aplicada a partir do menu de cabeçalho da coluna.

Pré-visualização e aplicação de operações

A grade de exibição do Data Wrangler visualiza automaticamente os resultados de uma operação selecionada e o código correspondente aparece automaticamente no painel abaixo da grade. Para confirmar o código pré-visualizado, selecione Aplicar em qualquer um dos locais. Para apagar o código pré-visualizado e tentar uma nova operação, selecione Descartar conforme mostrado nesta captura de ecrã:

Captura de ecrã a mostrar uma operação do Data Wrangler em curso.

Depois de aplicar uma operação, o Data Wrangler apresenta a grelha e as estatísticas resumidas atualizam-se para refletir os resultados. O código aparece na lista atual de operações comprometidas no painel Etapas de Limpeza, como mostrado nesta captura de ecrã.

Captura de tela mostrando uma operação do Data Wrangler aplicada.

Tip

Você sempre pode desfazer a etapa aplicada mais recentemente. No painel de passos de limpeza , aparece um ícone do caixote do lixo quando passa o cursor sobre o passo mais recentemente aplicado, como mostrado nesta captura de ecrã:

Captura de tela mostrando uma operação do Data Wrangler que pode ser desfeita.

Esta tabela resume as operações que o Data Wrangler suporta atualmente:

Operation Description
Sort Ordenar uma coluna por ordem crescente ou decrescente
Filter Filtrar linhas com base em uma ou mais condições
Codificação a quente Crie novas colunas para cada valor exclusivo em uma coluna existente, indicando a presença ou ausência desses valores por linha
Binarizador de múltiplas etiquetas Divida dados usando um separador e crie novas colunas para cada categoria, marcando 1 se uma linha tiver essa categoria e 0 se não tiver
Alterar o tipo de coluna Alterar o tipo de dados de uma coluna
Eliminar coluna Excluir uma ou mais colunas
Selecionar coluna Escolha uma ou mais colunas para manter e exclua o restante
Renomear coluna Renomear uma coluna
Eliminar valores ausentes Remover linhas com valores em falta
Remover linhas duplicadas Eliminar todas as linhas que têm valores duplicados em uma ou mais colunas
Preencher valores em falta Substituir células com valores em falta por um novo valor
Localizar e substituir Substituir células por um padrão de correspondência exato
Agrupar por coluna e agregar Agrupar valores por coluna e agregar resultados
Remover espaços em branco Remover espaços em branco do início e do fim do texto
Dividir texto Dividir uma coluna em várias colunas com base em um delimitador definido pelo usuário
Converter texto em minúsculas Converter texto em minúsculas
Converter texto em maiúsculas Converter texto em letras maiúsculas
Valores mínimos/máximos da escala Dimensionar uma coluna numérica entre um valor mínimo e máximo
Preenchimento de Flash Criar automaticamente uma nova coluna com base em exemplos derivados de uma coluna existente

Personalize o seu ecrã

A qualquer momento, pode personalizar a interface usando o separador "Views" na barra de ferramentas acima da grelha de exibição do Data Wrangler. Esta opção pode ocultar ou mostrar diferentes painéis com base nas suas preferências e no tamanho do ecrã, conforme mostrado nesta captura de ecrã:

Captura de ecrã a mostrar o menu Data Wrangler para personalizar a vista de visualização.

Guardar e exportar código

A barra de ferramentas acima da grade de exibição do Data Wrangler fornece opções para salvar o código gerado. Você pode copiar o código para a área de transferência ou exportá-lo para o bloco de anotações como uma função. A exportação do código fecha o Data Wrangler e adiciona a nova função a uma célula de código no bloco de anotações. Você também pode baixar o DataFrame limpo como um arquivo CSV.

Tip

O Data Wrangler gera código que só corre quando executas manualmente a nova célula, e não sobrescreve o teu DataFrame original, como mostrado nesta captura de ecrã:

Captura de tela mostrando as opções para exportar código no Data Wrangler.

Em seguida, você pode executar esse código exportado, conforme mostrado nesta captura de tela:

Captura de tela mostrando o código gerado pelo Data Wrangler de volta no bloco de anotações.

Próximos passos

Agora que já sabe como usar o Data Wrangler com pandas DataFrames, explore estes recursos:

Tem comentários? Partilhe as suas ideias no fórum Fabric Ideas.