Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Este artículo contiene algunas sugerencias y trucos para sacar el máximo partido de la experiencia de limpieza de datos en Power Query.
Elección del conector adecuado
Power Query ofrece un gran número de conectores de datos. Estos conectores van desde orígenes de datos como archivos TXT, CSV y Excel, a bases de datos como Microsoft SQL Server y a servicios SaaS populares como Microsoft Dynamics 365 y Salesforce. Si no ve su origen de datos listado en la ventana Obtener datos, siempre puede utilizar el conector ODBC o OLEDB para conectarse al origen de datos.
El uso del mejor conector para la tarea proporciona la mejor experiencia y rendimiento. Por ejemplo, el uso del conector de SQL Server en lugar del conector ODBC al conectarse a una base de datos de SQL Server no solo proporciona una mejor experiencia obtener datos , sino que el conector de SQL Server también ofrece características que pueden mejorar la experiencia y el rendimiento, como el plegado de consultas. Para más información sobre el plegado de consultas, vaya a Información general sobre la evaluación de consultas y el plegado de consultas en Power Query.
Cada conector de datos sigue una experiencia estándar, como se explica en Obtención de datos. Esta experiencia estandarizada tiene una fase denominada Vista previa de datos. En esta fase, se le proporciona una ventana fácil de usar para seleccionar los datos que desea obtener del origen de datos, si el conector lo permite y una vista previa de datos simple de esos datos. Incluso puede seleccionar varios conjuntos de datos desde el origen de datos a través de la ventana Navegador .
Nota:
Para ver la lista completa de conectores disponibles en Power Query, vaya a Conectores en Power Query.
Filtrar temprano
Siempre se recomienda filtrar los datos en las primeras fases de la consulta o tan pronto como sea posible. Algunos conectores utilizan tus filtros a través del plegado de consultas, como se describe en Información general sobre la evaluación de consultas y el plegado de consultas en Power Query. También es un procedimiento recomendado filtrar los datos que no sean relevantes para su caso. Este filtrado le permite centrarse mejor en la tarea a mano solo mostrando los datos relevantes en la sección de vista previa de datos.
Puede usar el menú filtro automático que muestra una lista distinta de los valores que se encuentran en la columna para seleccionar los valores que desea mantener o filtrar. También puede usar la barra de búsqueda para ayudarle a encontrar los valores de la columna.
También puede aprovechar los filtros de tipo específico, como En el anterior para una columna de fecha, fecha y hora o incluso zona horaria.
Estos filtros específicos de tipo pueden ayudarle a crear un filtro dinámico que siempre recupera los datos que están en el número x anterior de segundos, minutos, horas, días, semanas, meses, trimestres o años.
Captura de pantalla del cuadro de diálogo Filtrar filas que muestra el filtro específico de fecha "Está en el anterior".
Nota:
Para más información sobre cómo filtrar los datos en función de los valores de una columna, vaya a Filtrar por valores.
Realizar operaciones costosas por última vez
Algunas operaciones requieren leer el origen de datos completo para devolver cualquier resultado, por lo que es lento previsualizarlo en el editor de Power Query. Por ejemplo, si realiza una ordenación, es posible que las primeras filas ordenadas estén al final de los datos de origen. Por lo tanto, para devolver los resultados, la operación de ordenación debe leer primero todas las filas.
Otras operaciones (como filtros) no necesitan leer todos los datos antes de devolver los resultados. En su lugar, operan sobre los datos de manera que se denomina "streaming". Los datos fluyen y los resultados se devuelven a medida que avanzan. En el editor de Power Query, estas operaciones solo necesitan leer lo suficiente de los datos de origen para rellenar la versión preliminar.
Cuando sea posible, realice primero estas operaciones de streaming y realice las operaciones más costosas en último lugar. La realización de operaciones en este orden ayuda a minimizar la cantidad de tiempo que dedica a esperar a que la vista previa se represente cada vez que agregue un nuevo paso a la consulta.
Trabajar temporalmente con un subconjunto de los datos
Si agregar nuevos pasos a la consulta en el editor de Power Query es lento, considere la posibilidad de realizar primero una operación "Conservar las primeras filas" y limitar el número de filas con las que está trabajando. Después, una vez que agregue todos los pasos que necesita, quite el paso "Mantener primeras filas".
Uso de los tipos de datos correctos
Algunas características de Power Query son contextuales para el tipo de datos de la columna seleccionada. Por ejemplo, al seleccionar una columna de fecha, se pueden usar las opciones disponibles en el grupo de columnas Fecha y hora del menú Agregar columna . Pero si la columna no tiene un conjunto de tipos de datos, estas opciones se atenuan.
Se produce una situación similar para los filtros específicos del tipo, ya que son específicos de determinados tipos de datos. Si la columna no tiene definido el tipo de datos correcto, estos filtros específicos del tipo no están disponibles.
Es fundamental que siempre trabaje con los tipos de datos correctos para las columnas. Cuando se trabaja con orígenes de datos estructurados como bases de datos, la información del tipo de datos se extrae del esquema de tabla que se encuentra en la base de datos. Pero para orígenes de datos no estructurados, como archivos TXT y CSV, es importante establecer los tipos de datos correctos para las columnas procedentes de ese origen de datos. De forma predeterminada, Power Query ofrece una detección automática de tipos de datos para orígenes de datos no estructurados. Puede obtener más información sobre esta característica y cómo puede ayudarle en Tipos de datos.
Nota:
Para obtener más información sobre la importancia de los tipos de datos y cómo trabajar con ellos, vaya a Tipos de datos.
Exploración de los datos
Antes de empezar a preparar los datos y agregar nuevos pasos de transformación, se recomienda habilitar las herramientas de generación de perfiles de datos de Power Query para detectar fácilmente información sobre los datos.
Estas herramientas de generación de perfiles de datos le ayudan a comprender mejor los datos. Las herramientas proporcionan visualizaciones pequeñas que muestran información por columna, como:
- Calidad de columna: proporciona un gráfico de barras pequeño y tres indicadores con una representación de cuántos valores de la columna se encuentran en las categorías de valores válidos, de error o vacíos.
- Distribución de columnas: proporciona un conjunto de objetos visuales debajo de los nombres de las columnas que muestran la frecuencia y distribución de los valores en cada una de las columnas.
- Perfil de columna: proporciona una vista más exhaustiva de la columna y las estadísticas asociadas a ella.
También puede interactuar con estas características, lo que le ayuda a preparar los datos.
Nota:
Para más información sobre las herramientas de generación de perfiles de datos, vaya a Herramientas de generación de perfiles de datos.
Documente su trabajo
Se recomienda documentar las consultas cambiando el nombre o agregando una descripción a los pasos, consultas o grupos según se ajuste.
Aunque Power Query crea automáticamente un nombre de paso en el panel de pasos aplicados, también puede cambiar el nombre de los pasos o agregar una descripción a cualquiera de ellos.
Nota:
Para obtener más información sobre todas las características y componentes disponibles que se encuentran en el panel de pasos aplicados, vaya a Uso de la lista Pasos aplicados.
Adoptar un enfoque modular
Es totalmente posible crear una sola consulta que contenga todas las transformaciones y cálculos que pueda necesitar. Pero si la consulta contiene un gran número de pasos, puede ser una buena idea dividir la consulta en varias consultas, donde una consulta hace referencia a la siguiente. El objetivo de este enfoque es simplificar y desacoplar las fases de transformación en partes más pequeñas para que sean más fáciles de entender.
Por ejemplo, supongamos que tiene una consulta con los nueve pasos que se muestran en la imagen siguiente.
Puede dividir esta consulta en dos en el paso Combinar con la tabla de precios. De este modo, es más fácil comprender los pasos que se aplicaron a la consulta de ventas antes de la combinación. Para realizar esta operación, haga clic con el botón derecho en el paso Combinar con Precios y seleccione la opción Extraer el Paso Anterior.
A continuación, se le pedirá un cuadro de diálogo para asignar un nombre a la nueva consulta. Este paso divide eficazmente la consulta en dos consultas. Una consulta contiene todas las consultas antes de la fusión. La otra consulta tiene un paso inicial que hace referencia a la nueva consulta y el resto de los pasos que tenía la consulta original desde el paso Combinar con Precios hacia abajo.
También puede hacer uso de la referencia de consultas como mejor le parezca. Pero es una buena idea mantener las consultas en un nivel que no parezca abrumador a primera vista con tantos pasos.
Nota:
Para obtener más información sobre la referencia de consultas, vaya al panel Descripción de las consultas.
Crear grupos
Una excelente manera de mantener el trabajo organizado es hacer uso de grupos en el panel de consultas.
El único propósito de los grupos es ayudarle a mantener el trabajo organizado al servir como carpetas para las consultas. Puede crear grupos dentro de los grupos si necesita. Mover consultas entre grupos es tan fácil como arrastrar y colocar.
Intente dar a los grupos un nombre significativo que tenga sentido para usted y su caso.
Nota:
Para obtener más información sobre todas las características y componentes disponibles que se encuentran en el panel de consultas, vaya a Descripción del panel de consultas.
Preparación de consultas para el futuro
Asegurarse de crear una consulta que no tenga ningún problema durante una actualización futura es una prioridad principal. Hay varias características en Power Query para que la consulta sea resistente a los cambios y pueda actualizarse incluso cuando algunos componentes del origen de datos cambian.
Se recomienda definir el ámbito de la consulta en cuanto a lo que debe hacer y lo que debe tener en cuenta en términos de estructura, diseño, nombres de columna, tipos de datos y cualquier otro componente que considere relevante para el ámbito.
Algunos ejemplos de transformaciones que pueden ayudarle a hacer que la consulta sea resistente a los cambios son:
Si la consulta tiene un número dinámico de filas con datos, pero un número fijo de filas que sirven como pie de página que se debe quitar, puede usar la característica Quitar filas inferiores .
Nota:
Para más información sobre cómo filtrar los datos por posición de fila, vaya a Filtrar una tabla por posición de fila.
Si la consulta tiene un número dinámico de columnas, pero solo necesita seleccionar columnas específicas del conjunto de datos, puede usar la característica Elegir columnas .
Nota:
Para obtener más información sobre cómo elegir o quitar columnas, vaya a Elegir o quitar columnas.
Si su consulta tiene un número dinámico de columnas y necesita anular la dinamización de solo un subconjunto de las columnas, puede usar la característica de anulación de dinamización solo de columnas seleccionadas.
Nota:
Para obtener más información sobre las opciones para anular la dinamización de las columnas, vaya a Anular dinamización de columnas.
Si la consulta tiene un paso que cambia el tipo de datos de una columna, pero algunas celdas producen errores, ya que los valores no se ajustan al tipo de datos deseado, puede quitar las filas que generaron valores de error.
Nota:
Para más información sobre cómo trabajar y tratar los errores, vaya a Tratar con errores.
Uso de parámetros
La creación de consultas dinámicas y flexibles es un procedimiento recomendado. Los parámetros de Power Query le ayudan a hacer que las consultas sean más dinámicas y flexibles. Un parámetro sirve como una manera de almacenar y administrar fácilmente un valor que se puede reutilizar de muchas maneras diferentes. Pero se usa con más frecuencia en dos escenarios:
Argumento de paso: Puede usar un parámetro como argumento de varias transformaciones impulsadas desde la interfaz de usuario.
Argumento de función personalizada: puede crear una nueva función a partir de una consulta y hacer referencia a parámetros como argumentos de la función personalizada.
Las principales ventajas de crear y usar parámetros son:
Vista centralizada de todos los parámetros a través de la ventana Administrar parámetros .
Reutilización del parámetro en varios pasos o consultas.
Hace que la creación de funciones personalizadas sea sencilla y fácil.
Incluso puede usar parámetros en algunos de los argumentos de los conectores de datos. Por ejemplo, podría crear un parámetro para el nombre del servidor al conectarse a la base de datos de SQL Server. A continuación, puede usar ese parámetro dentro del cuadro de diálogo de base de datos de SQL Server.
Si cambia la ubicación del servidor, lo único que debe hacer es actualizar el parámetro del nombre del servidor y las consultas se actualizan.
Nota:
Para más información sobre cómo crear y usar parámetros, vaya a Uso de parámetros.
Creación de funciones reutilizables
Es posible que se encuentre en una situación en la que necesite aplicar el mismo conjunto de transformaciones a diferentes consultas o valores. En este caso, la creación de una función personalizada de Power Query que se puede reutilizar tantas veces como necesite podría ser beneficiosa. Una función personalizada de Power Query es una asignación de un conjunto de valores de entrada a un único valor de salida y se crea a partir de funciones y operadores nativos de M.
Por ejemplo, supongamos que tiene varias consultas o valores que requieren el mismo conjunto de transformaciones. Podrías crear una función personalizada que luego puedas invocar en las consultas o valores que prefieras. Esta función personalizada le ahorraría tiempo y le ayudará a administrar el conjunto de transformaciones en una ubicación central, que puede modificar en cualquier momento.
Las funciones personalizadas de Power Query se pueden crear a partir de consultas y parámetros existentes. Por ejemplo, imagine una consulta que tiene varios códigos como una cadena de texto y desea crear una función que descodifique esos valores.
Para empezar, debe tener un parámetro con un valor que actúa como ejemplo.
A partir de ese parámetro, se crea una nueva consulta en la que se aplican las transformaciones que necesita. En este caso, quiere dividir el código PTY-CM1090-LAX en varios componentes:
- Origen = PTY
- destino = LAX
- Aerolínea = CM
- FlightID = 1090
Después, puede transformar esa consulta en una función haciendo clic con el botón derecho en la consulta y seleccionando Crear función. Por último, puede invocar la función personalizada en cualquiera de las consultas o valores.
Después de algunas transformaciones más, puede ver que alcanzó la salida deseada y aplicó la lógica para esta transformación desde una función personalizada.
Nota:
Para más información sobre cómo crear y usar funciones personalizadas en Power Query desde el artículo Funciones personalizadas.