Generación de perfiles de datos en Power BI

Completado

La generación de perfiles de datos se trata de analizar los matices de los datos: la determinación de anomalías, el examen y el desarrollo de las estructuras de datos subyacentes, así como la consulta de estadísticas de datos, como recuentos de filas, distribuciones de valores, valores mínimos y máximos, promedios y mucho más. Este concepto es importante porque permite dar forma a los datos y organizarlos para que la interacción con los datos y la identificación de su distribución no sea complicada, lo que ayuda a que la tarea de trabajar con los datos en el front-end a fin de desarrollar elementos de informe se realice casi sin esfuerzo.

Supongamos que está desarrollando informes para el equipo de ventas de su organización.  No está seguro de cómo se estructuran los datos ni de cómo se incluyen en las tablas, por lo que quiere generar perfiles de los datos en segundo plano antes de empezar a desarrollar los objetos visuales.  Power BI tiene una función inherente que hace que estas tareas resulten fáciles y sencillas.

Examen de las estructuras de datos

Antes de empezar a examinar los datos en el Editor de Power Query, en primer lugar debe obtener información sobre las estructuras de datos subyacentes en las que se organizan los datos. Se puede ver el modelo de datos actual en la pestaña Modelo de Power BI Desktop.

ejemplo de estructura de datos y barra de cinta de opciones

En la pestaña Modelo se pueden editar propiedades de tabla y columna específicas si se seleccionan una tabla o columnas, y puede transformar los datos mediante el botón Transformar datos, que le lleva al Editor de Power Query. Asimismo, puede administrar, crear, editar y eliminar relaciones entre diferentes tablas mediante la opción Administrar relaciones, que se encuentra en la cinta de opciones.

Búsqueda de anomalías y estadísticas de datos

Una vez que se ha creado una conexión a un origen de datos y ha seleccionado Transformar datos, se abre el Editor de Power Query, donde se puede determinar si existen anomalías en los datos.  Las anomalías de datos son valores atípicos que hay en los datos. Determinar las anomalías puede ayudar a identificar qué aspecto tiene la distribución normal de los datos y si existen puntos de datos específicos que se deben investigar más. El Editor de Power Query determina las anomalías de datos mediante la característica Distribución de columnas.

Seleccione Ver en la cinta de opciones y, en Vista previa de datos, elija entre varias opciones. Para comprender las anomalías y las estadísticas de los datos, seleccione las opciones Distribución de columnas, Calidad de columnas y Perfil de columna.  En la ilustración siguiente se muestran las estadísticas que aparecen.

Las opciones Calidad de columnas y Distribución de columnas se muestran en los gráficos situados encima de las columnas de datos. En Calidad de columnas se muestran los porcentajes de datos válidos, con error y vacíos. En una situación ideal, se quiere que el 100 por cien de los datos sean válidos.

anomalías y estadísticas de datos de una columna de datos

Nota

De forma predeterminada, Power Query examina las primeras 1000 filas del conjunto de datos. Para cambiar esto, seleccione el estado de generación de perfiles en la barra de estado y seleccione Generación de perfiles de columnas en función del conjunto de datos completo. ]

Distribución de columnas muestra la distribución de los datos en la columna y los recuentos de valores distintos y únicos. Ambos pueden indicarle los detalles sobre los recuentos de datos. Los valores distintos son todos los diferentes valores de una columna, incluidos los duplicados y los valores NULL, mientras que los valores únicos no incluyen los duplicados ni los valores NULL. Por lo tanto, distinct en esta tabla indica el número total de valores que hay presentes, mientras que unique indica cuántos de esos valores aparecen solo una vez.

En Perfil de columna se proporciona una visión más detallada de las estadísticas de las columnas para las primeras 1000 filas de datos. Esta columna proporciona varios valores distintos, incluido el recuento de filas, que es importante al comprobar si la importación de los datos se ha realizado correctamente. Por ejemplo, si la base de datos original tenía 100 filas, podría usar este recuento de filas para comprobar que las 100 filas se importaron correctamente. Además, en este recuento de filas se mostrará el número de filas que Power BI ha considerado como valores atípicos, filas y cadenas vacías, y los valores mínimo y máximo, que indicarán, respectivamente, el valor más pequeño y el más grande de una columna. Esta distinción es especialmente importante en el caso de los datos numéricos, ya que le notificará inmediatamente si tiene un valor máximo que supera lo que su empresa identifica como "máximo". Este valor llama la atención sobre estos valores, lo que significa que puede centrar sus esfuerzos al profundizar más en los datos.  En el caso de que los datos estuvieran en la columna de texto, tal como se ha mostrado en la imagen anterior, el valor mínimo es el primer valor y el valor máximo es el último valor en orden alfabético.

Además, el gráfico Distribución de valores indica los recuentos de cada uno de los valores diferentes de esa columna específica. Al examinar el gráfico de la imagen anterior, observe que la distribución de valores indica que el nombre "Anthony Grosse" es el que más veces aparece en la columnaSalesPerson y "Lily Code", el que menos. Esta información es especialmente importante porque identifica los valores atípicos.  Si un valor aparece mucho más que otros valores en una columna, la característica Distribución de valores permite identificar un lugar en el que empezar a investigar el motivo de que esto ocurra.

En una columna numérica, Estadísticas de columna incluirá también el número de ceros y valores NULL, junto con el valor medio de la columna, la desviación estándar de los valores de la columna y el número de valores pares e impares que hay en esta columna. Estas estadísticas proporcionan una idea de la distribución de los datos en la columna y son importantes porque resumen los datos de la columna y sirven como punto inicial para determinar cuáles son los valores atípicos.

Por ejemplo, mientras se examinan los datos de la factura, se fija en que el gráfico Distribución de valores muestra que algunos vendedores de la columna SalesPerson aparecen la misma cantidad de veces en los datos. Además, se fija en que se ha producido la misma situación en la columna Profit y también en otras tablas. Durante la investigación, descubre que los datos que estaba usando eran datos incorrectos y debían actualizarse, por lo que se completa inmediatamente la actualización. Sin haber visto este gráfico, sería posible que no hubiera visto este error tan rápidamente y, por este motivo, la distribución de valores es fundamental.

Una vez que haya completado las ediciones en el Editor de Power Query y esté listo para empezar a compilar objetos visuales, vuelva a Inicio en la cinta de opciones del Editor de Power Query. SeleccioneCerrar y aplicar, que le devolverá a Power BI Desktop y también hará que se apliquen las ediciones o transformaciones de las columnas.

Ahora se han determinado los elementos que componen la generación de perfiles de datos en Power BI, que incluye la carga de datos en Power BI, la interrogación de propiedades de columnas para obtener claridad y realizar más ediciones en el tipo y el formato de los datos en columnas, la búsqueda de anomalías de datos y la vista de estadísticas de datos en el Editor de Power Query. Con este conocimiento, se puede incluir en el cuadro de herramientas la capacidad de estudiar los datos de manera eficaz y eficiente.