Limpieza y transformación de datos con el editor de Power Query

Completado

Ahora que nos hemos conectado a un origen de datos mediante Microsoft Power BI Desktop, tenemos que ajustar los datos para que satisfagan nuestras necesidades. Ajustar a veces significa transformar los datos, como cambiar el nombre de las columnas o las tablas, convertir texto en números, quitar filas o configurar la primera fila como encabezado.

El Editor de Power Query de Power BI Desktop hace un amplio uso de los menús contextuales (también conocidos como menús emergentes), además de tener tareas disponibles en la cinta de opciones. La mayoría de las opciones que puede seleccionar en la pestaña Transformar de la cinta de opciones también están disponibles si hace clic con el botón derecho en un elemento (como una columna) y luego selecciona un comando en el menú contextual que aparece.

Dar forma a los datos

Al dar forma a los datos en el Editor de Power Query, proporciona instrucciones detalladas que el Editor de Power Query lleva a cabo par ajustar los datos a medida que los carga y los presenta. El origen de datos original no se ve afectado. Solo se ajusta o se da forma a esta vista particular de los datos.

El Editor de Power Query registra los pasos especificados, como cambiar el nombre de una tabla, transformar un tipo de datos o eliminar columnas. Esos pasos después se llevan a cabo cada vez que la consulta se conecta al origen de datos, para que siempre se dé forma a los datos de la forma especificada. Este proceso se produce cada vez que use la consulta en Power BI Desktop, o cuando alguien use su consulta compartida, por ejemplo, en el servicio Power BI. Estos pasos se capturan, de manera secuencial, en los Pasos aplicados del panel Configuración de Power Query.

En la imagen siguiente se muestra el panel Configuración de la consulta para una consulta a la que se ha dado forma. Revisaremos cada uno de los pasos en los siguientes párrafos.

Configuración de la consulta

Volvamos al tema de nuestros datos de jubilación, que encontramos al establecer conexión con un origen de datos web. Ahora les daremos forma para que se adapten a nuestras necesidades.

Nota

Consulte la página de la unidad anterior si no ha descargado el conjunto de datos de ejemplo.

Necesitamos que los datos sean números, En este caso están bien, pero si alguna vez necesita cambiar el tipo de datos, solo tiene que hacer clic en el encabezado de la columna y seleccionar Cambiar tipo > Número entero. Si tiene que cambiar más de una columna, seleccione una de ellas y luego mantenga presionada la tecla Mayús mientras selecciona columnas adyacentes adicionales. A continuación, haga clic con el botón derecho en un encabezado de columna para cambiar todas las columnas seleccionadas. También puede usar la tecla CTRL para seleccionar columnas no adyacentes.

Tipo cambiado de paso aplicado

Nota

A menudo, Power Query detectará que una columna de texto debe contener números y cambiará automáticamente el tipo de datos al importar la tabla al Editor de Power Query. En este caso, un paso de los Pasos aplicados identifica lo que Power Query hizo por usted.

También puede cambiar o transformar estas columnas de texto a encabezado mediante la pestaña Transformar de la cinta de opciones. En la imagen siguiente se muestra la pestaña Transformar. El cuadro rojo resalta el botón Tipo de datos, que permite transformar el tipo de datos actual en otro.

Cinta de opciones Transformar y botón Tipo de datos

Tenga en cuenta que la lista Pasos aplicados del panel Configuración de la consulta refleja todos los cambios realizados. Para quitar cualquier paso del proceso de ajuste, solo selecciónelo y luego seleccione la X que se encuentra a la izquierda.

Ventana Configuración de la consulta

Establecer conexión con los datos

Esos datos sobre distintos estados son interesantes y resultarán útiles para crear consultas y trabajos de análisis adicionales. No obstante, hay un problema: la mayoría de los datos usan una abreviatura de dos letras para los códigos de estado, en lugar del nombre completo del estado. Por tanto, necesitamos una manera de poder asociar los nombres de los estados con sus abreviaturas.

Por suerte, existe otro origen de datos públicos que hace justamente eso, pero necesita una gran cantidad de ajustes para que podamos conectarlo con la tabla de jubilación. Este es el recurso web de abreviaturas de estado:

http://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations

En el Editor de Power Query, en la pestaña Inicio de la cinta de opciones, seleccione Nuevo origen > Web. A continuación, escriba la dirección y seleccione Aceptar. En la ventana del Navegador se muestra lo que se encontró en dicha página web.

Abreviaturas de estado de EE. UU. del sitio web

Seleccionamos la tabla Codes and abbreviations... (Códigos y abreviaturas...) porque incluye los datos que queremos, pero se tendrán que aplicar varios ajustes para reducir los datos.

Seleccione Cargar para importar los datos al Editor de Power Query y poder darles forma. A continuación, siga estos pasos:

  • Quitar las primeras tres filas: esas filas son el resultado de la forma en que se creó la tabla de la página web y no las necesitamos. Para quitarlas, en la pestaña Inicio de la cinta de opciones, seleccione Quitar filas > Quitar filas superiores. En el cuadro de diálogo que aparece, escriba 3 como el número de filas que se van a quitar.

    Quitar filas superiores

  • Quitar las 26 filas inferiores: esas filas son todos los territorios y no hace falta que los incluyamos. El proceso es el mismo, pero esta vez, seleccione Quitar filas > Quitar filas inferiores y escriba 26 como el número de filas que se deben quitar.

    Quitar filas inferiores

  • Filtrar Washington DC: la tabla de estadísticas de jubilación no incluye Washington DC, por lo que lo excluiremos de nuestra lista. Seleccione la flecha desplegable situada junto a la columna Federal state y luego, desactive la casilla Federal District.

    Quitar una fila que contiene un valor determinado

  • Eliminación de algunas columnas innecesarias: solo es necesario asignar a cada estado su abreviatura oficial de dos letras, y esa información se proporciona en la primera y la cuarta columna. Por tanto, solo tenemos que dejar esas dos columnas, y podemos quitar el resto. Seleccione la primera columna para eliminarla, mantenga presionada la tecla CTRL y seleccione las otras columnas que se deben quitar (esto le permite seleccionar varias columnas no adyacentes). Después, en la pestaña Inicio de la cinta de opciones, seleccione Quitar columnas > Quitar columnas.

    Quitar columnas concretas

  • Usar primera fila como encabezado: puesto que eliminamos las tres primeras filas, la fila superior actual es el encabezado que queremos. Seleccione el botón Usar primera fila como encabezado.

    Usar primera fila como encabezado

    Nota

    Es un buen momento para señalar que la secuencia de los pasos aplicados en el Editor de Power Query es importante y puede afectar a la forma en que se ajustan los datos. También es importante tener en cuenta cómo un paso puede afectar a otro paso posterior. Si elimina un paso de la lista de Pasos aplicados, es posible que los pasos siguientes no se comporten según lo previsto, debido al impacto de la secuencia de la consulta de los pasos.

  • Cambiar el nombre de las columnas y la tabla: como es habitual, hay un par de formas de cambiar el nombre de una columna. Puede utilizar la que prefiera. Vamos a cambiar el nombre a Nombre de estado y Código de estado. Para cambiar el nombre de la tabla, escriba el nombre en el campo Nombre del panel Configuración de la consulta. Denominaremos a esta tabla CódigosEstado.

    Cambio de nombre de las columnas

Combinar datos

Ahora que se ha dado forma a la tabla CódigosEstado, podemos combinar las dos tablas en una. Dado que las tablas que tenemos ahora son el resultado de las consultas aplicadas a los datos, se conocen a menudo como consultas.

Hay dos formas principales de combinar las consultas: combinar y anexar.

Cuando tenga una o varias columnas que quiera agregar a otra consulta, combine las consultas. Cuando tenga filas de datos adicionales que quiera agregar a una consulta existente, anexe la consulta.

En este caso, queremos combinar las consultas. Para empezar, seleccione la otra consulta con la que desea combinar la consulta. Después, en la pestaña Inicio de la cinta de opciones, seleccione Combinar consultas. Primero, queremos seleccionar nuestra consulta de jubilación. Mientras lo hacemos, cambiaremos el nombre de la consulta a EstadosJubilación.

Botón Combinar consultas

Se abrirá el cuadro de diálogo Combinar, en la que se nos pedirá que seleccionemos la tabla que queremos combinar con la tabla seleccionada y, luego, las columnas coincidentes que se deben usar para la combinación.

Seleccione Estado en la tabla EstadosJubilación (consulta) y luego seleccione la consulta CódigosEstado. (En este caso, la elección es fácil, porque solo hay otra consulta. Pero si se conecta a muchos orígenes de datos, habrá muchas consultas para elegir). Una vez seleccionadas las columnas coincidentes correctas (Estado de EstadosJubilación y Nombre de estado de CódigosEstado), el cuadro de diálogo Combinar tendrá un aspecto similar al siguiente y, además, el botón Aceptar estará habilitado.

Cuadro de diálogo Combinar

Se crea la columna NewColumn al final de la consulta, que incluye el contenido de la tabla (consulta) que se combinó con la consulta existente. Todas las columnas de la consulta combinada se comprimen en la columna NewColumn, pero puede expandir la tabla e incluir las columnas que quiera. Para expandir la tabla combinada y seleccionar las columnas que quiere incluir, seleccione el icono Expandir (icono Expandir). Aparecerá el cuadro de diálogo Expandir.

Cuadro de diálogo Expandir

En este caso, solo queremos la columna Código de estado. Por lo tanto, seleccione solo dicha columna y, a continuación, seleccione Aceptar. También puede desactivar la casilla Usar nombre de columna original como prefijo. Si la deja seleccionada, la columna combinada adoptará el nombre NewColumn.Código de estado (el nombre de columna original o NewColumn, seguido de un punto y el nombre de la columna importada en la consulta).

Nota

Si quiere, puede realizar las pruebas que quiera con la forma en la que se importa la tabla NewColumn. Si los resultados no le convencen, elimine el paso Expandir de la lista Pasos aplicados en el panel Configuración de la consulta. La consulta devolverá al estado que tenía antes de aplicar ese paso. Es como tener una segunda oportunidad y puede probarlo tantas veces como quiera hasta que el proceso de expansión tenga el aspecto que quiere.

Ahora tenemos una sola consulta (tabla) que combina dos orígenes de datos, cada uno de los cuales se ha adaptado para satisfacer nuestras necesidades. Esta consulta puede servir como base para una gran cantidad de conexiones de datos adicionales. Por ejemplo, las estadísticas de los costos de las viviendas, los datos demográficos o las oportunidades de trabajo de cualquier estado.

Para aplicar los cambios en el Editor de Power Query y cargarlos en Power BI Desktop, seleccione Cerrar y aplicar en la pestaña Inicio de la cinta de opciones.

Cerrar y aplicar la configuración de datos

Ya puede trabajar con los datos de su modelo. A continuación, vamos a crear algunos objetos visuales para el informe.

Por ahora, tenemos datos suficientes para crear algunos informes interesantes en Power BI Desktop. Como se trata de un hito, vamos a guardar este archivo de Power BI Desktop. Seleccione Archivo > Guardar en la pestaña Inicio de la cinta de opciones para guardar el informe; lo llamaremos Introducción a Power BI Desktop.

Estupendo. Ahora, en la siguiente unidad, vamos a crear algunos objetos visuales interesantes.