Cómo acelerar la preparación de datos con Data Wrangler en Microsoft Fabric

Data Wrangler es una herramienta basada en cuadernos que proporciona a los usuarios una interfaz inmersiva para realizar análisis exploratorios de datos. La característica combina una presentación de datos similar a una cuadrícula con estadísticas de resumen dinámico, visualizaciones integradas y una biblioteca de operaciones comunes de limpieza de datos. Cada operación se puede aplicar en cuestión de clics, actualizando los datos que se muestran en tiempo real y generando código en Pandas o PySpark que se puede guardar de nuevo en el cuaderno como una función reutilizable. Este artículo se centra en la exploración y transformación de DataFrames de Pandas. Puede encontrar instrucciones para usar Data Wrangler en DataFrames de Spark aquí.

Requisitos previos

Limitaciones

  • Data Wrangler admite actualmente la generación de código de Pandas en disponibilidad general y generación de código de Spark en versión preliminar pública.
  • Actualmente, las operaciones de código personalizado solo se admiten para DataFrames de Pandas.
  • La pantalla de Data Wrangler funciona mejor en monitores grandes, aunque se pueden minimizar o ocultar diferentes partes de la interfaz para acomodar pantallas más pequeñas.

Inicio de Data Wrangler

Puede iniciar Data Wrangler directamente desde un cuaderno de Microsoft Fabric para explorar y transformar cualquier DataFrame de Pandas o Spark. Para obtener información general sobre el uso de Data Wrangler con DataFrames de Spark, consulte este artículo complementario. El siguiente fragmento de código muestra cómo leer datos de ejemplo en un DataFrame de Pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

En la pestaña "Datos" de la cinta de cuadernos, use el símbolo del menú desplegable de Data Wrangler para examinar los DataFrames activos disponibles para su edición. Seleccione la que desea abrir en Data Wrangler.

Sugerencia

El Wrangler de datos no se puede abrir mientras el kernel del cuaderno está ocupado. Una celda en ejecución debe finalizar su ejecución antes de que se pueda iniciar Data Wrangler.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Elección de ejemplos personalizados

Data Wrangler permite abrir un ejemplo personalizado de cualquier DataFrame activo seleccionando "Elegir ejemplo personalizado" en la lista desplegable. Al hacerlo, se inicia un elemento emergente con opciones para especificar el tamaño del ejemplo deseado (número de filas) y el método de muestreo (primeros registros, últimos registros o un conjunto aleatorio).

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Visualización de estadísticas de resumen

Cuando se carga Data Wrangler, muestra una descripción general descriptiva del DataFrame elegido en el panel Resumen. Esta información general incluye información sobre las dimensiones, los valores que faltan y mucho más. Al seleccionar cualquier columna de la cuadrícula Wrangler de datos, se solicita al panel Resumen que actualice y muestre estadísticas descriptivas sobre esa columna específica. También hay información rápida sobre cada columna disponible en su encabezado.

Sugerencia

Las estadísticas y los objetos visuales específicos de columna (tanto en el panel Resumen como en los encabezados de columna) dependen del tipo de datos de columna. Por ejemplo, un histograma binned de una columna numérica aparecerá en el encabezado de columna solo si la columna se convierte como un tipo numérico. Use el panel Operaciones para volver a convertir los tipos de columna para la visualización más precisa.

Screenshot showing the Data Wrangler display grid and Summary panel.

Exploración de operaciones de limpieza de datos

Puede encontrar una lista de pasos de limpieza de datos en el panel Operaciones. (Hay disponible una selección más pequeña de las mismas operaciones en el menú de cada encabezado de columna). En el panel Operaciones, al seleccionar un paso de limpieza de datos se le pide que proporcione una columna o columnas de destino, junto con los parámetros necesarios para completar el paso. Por ejemplo, la solicitud para escalar una columna numéricamente requiere un nuevo intervalo de valores.

Screenshot showing the Data Wrangler Operations panel.

Vista previa y aplicación de operaciones

Los resultados de una operación seleccionada se previsualizarán automáticamente en la cuadrícula de visualización Wrangler de datos y el código correspondiente aparecerá automáticamente en el panel debajo de la cuadrícula. Para confirmar el código previsualizado, seleccione "Aplicar" en cualquiera de los dos lugares. Para deshacerse del código previsualizado e intentar una nueva operación, seleccione "Descartar".

Screenshot showing a Data Wrangler operation in progress.

Una vez aplicada una operación, la cuadrícula de visualización de Data Wrangler y las estadísticas de resumen se actualizan para reflejar los resultados. El código aparece en la lista en ejecución de operaciones confirmadas, que se encuentra en el panel Pasos de limpieza.

Screenshot showing an applied Data Wrangler operation.

Sugerencia

Siempre puede deshacer el paso aplicado más recientemente con el icono de papelera junto a él, que aparece si mantiene el cursor sobre ese paso en el panel Pasos de limpieza.

Screenshot showing a Data Wrangler operation that can be undone.

En la tabla siguiente se resumen las operaciones que admite Actualmente Data Wrangler:

Operación Descripción
Sort Ordenar una columna en orden ascendente o descendente
Filter Filtrar filas en función de una o varias condiciones
Codificación de acceso único Cree nuevas columnas para cada valor único de una columna existente, lo que indica la presencia o ausencia de esos valores por fila
Codificación de un solo uso con delimitador Dividir y codificar datos categóricos con un delimitador
Cambiar el tipo de columna Para cambiar el tipo de datos de una columna
Columna desplegable Seleccione una o más columnas
Seleccionar columna Elija una o varias columnas para mantener y elimine el resto
Renombrar columna Cambio del nombre de una columna
Excluir valores omitidos Quitar filas con valores que faltan
Excluir filas duplicadas Quitar todas las filas que tienen valores duplicados en una o varias columnas
Rellenar los valores que faltan Reemplazar celdas por valores que faltan por un nuevo valor
Buscar y reemplazar Reemplazar celdas por un patrón de coincidencia exacto
Agrupar por columna y agregado Agrupar por valores de columna y agregar resultados
Eliminar espacio en blanco Quitar espacios en blanco del principio y el final del texto
Dividir texto Dividir una columna en varias columnas basadas en un delimitador definido por el usuario
Convertir texto en minúsculas Convertir texto en mayúsculas
Convertir texto en mayúsculas Convertir texto en MAYÚSCULAS
Escalar valores mínimos o máximos Escalado de una columna numérica entre un valor mínimo y máximo
Relleno rápido Crear automáticamente una nueva columna basada en ejemplos derivados de una columna existente

Guardar y exportar código

La barra de herramientas situada encima de la cuadrícula de visualización de Data Wrangler proporciona opciones para guardar el código generado. Puede copiar el código en el Portapapeles o exportarlo al cuaderno como una función. Al exportar el código, se cierra Data Wrangler y se agrega la nueva función a una celda de código del cuaderno. También puede descargar el DataFrame limpio como un archivo CSV.

Sugerencia

El código generado por Data Wrangler no se aplicará hasta que ejecute manualmente la nueva celda y no sobrescribirá el dataframe original.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.