Procedimientos recomendados para diseñar y desarrollar flujos de datos complejos

Si el flujo de datos que está desarrollando se está volviendo más grande y más complejo, estas son algunas cosas que puede hacer para mejorar el diseño original.

Dividirlo en varios flujos de datos

No hagas todo en un flujo de datos. No solo hace un flujo de datos único y complejo hace que el proceso de transformación de datos sea más largo, sino que también dificulta la comprensión y reutilización del flujo de datos. La separación del flujo de datos en varios flujos de datos se puede realizar separando tablas en diferentes flujos de datos o incluso una tabla en varios flujos de datos. Puede usar el concepto de una tabla calculada o una tabla vinculada para crear parte de la transformación en un flujo de datos y reutilizarla en otros flujos de datos.

Divida los flujos de datos de transformación de los flujos de datos de almacenamiento provisional y/o extracción.

Tener algunos flujos de datos solo para extraer datos (es decir, flujos de datos de almacenamiento provisional) y otros solo para transformar datos es útil no solo para crear una arquitectura multicapa, también resulta útil para reducir la complejidad de los flujos de datos. Algunos pasos simplemente extraen datos del origen de datos, como obtener datos, navegación y cambios en el tipo de datos. Al separar los flujos de datos de almacenamiento provisional y los flujos de datos de transformación, los flujos de datos son más sencillos de desarrollar.

Arquitectura de flujo de datos multicapa.

Uso de funciones personalizadas

Las funciones personalizadas son útiles en escenarios en los que es necesario realizar un determinado número de pasos para una serie de consultas de orígenes diferentes. Las funciones personalizadas se pueden desarrollar a través de la interfaz gráfica en el Editor de Power Query o mediante un script M. Las funciones se pueden reutilizar en un flujo de datos en tantas tablas como sea necesario.

Tener una función personalizada ayuda a tener solo una versión del código fuente, por lo que no es necesario duplicar el código. Como resultado, mantener la lógica de transformación de Power Query y todo el flujo de datos es mucho más fácil. Para obtener más información, vaya a la siguiente entrada de blog: Custom Functions Made Easy in Power BI Desktop (Funciones personalizadas fáciles en Power BI Desktop).

Captura de pantalla del panel Consultas con la función personalizada Get Holidays y sus datos resaltados.

Nota:

A veces, puede recibir una notificación que indica que se requiere una capacidad premium para actualizar un flujo de datos con una función personalizada. Puede omitir este mensaje y volver a abrir el editor de flujo de datos. Esto suele resolver el problema a menos que su función haga referencia a una consulta "habilitada para la carga".

Colocar consultas en carpetas

El uso de carpetas para consultas ayuda a agrupar consultas relacionadas. Al desarrollar el flujo de datos, dedique un poco más tiempo a organizar consultas en carpetas que tengan sentido. Con este enfoque, puede encontrar consultas más fácilmente en el futuro y mantener el código es mucho más fácil.

Uso de tablas calculadas

Las tablas calculadas no solo hacen que el flujo de datos sea más comprensible, sino que también proporcionan un mejor rendimiento. Cuando se usa una tabla calculada, las demás tablas a las que se hace referencia obtienen datos de una tabla "ya procesada y almacenada". La transformación es mucho más sencilla y rápida.

Aprovechar el motor de proceso mejorado

En el caso de los flujos de datos desarrollados en el portal de administración de Power BI, asegúrese de usar el motor de proceso mejorado realizando primero combinaciones y transformaciones de filtro en una tabla calculada antes de realizar otros tipos de transformaciones.

Desglosa varios pasos en múltiples consultas

Es difícil realizar un seguimiento de un gran número de pasos en una tabla. En su lugar, debe dividir un gran número de pasos en varias tablas. Puede usar Habilitar carga para otras consultas y deshabilitarlas si son consultas intermedias y solo cargar la tabla final a través del flujo de datos. Cuando tiene varias consultas con pasos más pequeños en cada una, es más fácil usar el diagrama de dependencias y realizar un seguimiento de cada consulta para realizar una investigación más detallada, en lugar de profundizar en cientos de pasos en una consulta.

Agregar propiedades para consultas y pasos

La documentación es la clave para tener código fácil de mantener. En Power Query, puede agregar propiedades a las tablas y también a los pasos. El texto que añadas en las propiedades se muestra como un tooltip al colocar el puntero sobre esa consulta o paso. Esta documentación le ayuda a mantener el modelo en el futuro. Con solo un vistazo a una tabla o un paso, puedes comprender lo que está sucediendo allí, en lugar de tener que replantearte y recordar lo que has hecho en ese paso.

Asegurarse de que la capacidad está en la misma región

Los flujos de datos no admiten actualmente varios países o regiones. La capacidad Premium debe estar en la misma región que el entorno de Power BI.

Separar orígenes locales de orígenes en la nube

Se recomienda crear un flujo de datos independiente para cada tipo de origen, como local, nube, SQL Server, Spark y Dynamics 365. La separación de flujos de datos por tipo de origen facilita la solución de problemas rápida y evita límites internos al actualizar los flujos de datos.

Separar flujos de datos en función de la actualización programada necesaria para las tablas

Si tiene una tabla de transacciones de ventas que se actualiza en el sistema de origen cada hora y tiene una tabla de asignación de productos que se actualiza cada semana, divida estas dos tablas en dos flujos de datos con diferentes programaciones de actualización de datos.

Evitar programar la actualización de tablas vinculadas en el mismo espacio de trabajo

Si regularmente se queda bloqueado de sus flujos de datos que contienen tablas vinculadas, podría deberse a un flujo de datos dependiente correspondiente en la misma área de trabajo que se bloquea durante la actualización del flujo de datos. Este bloqueo proporciona precisión transaccional y garantiza que ambos flujos de datos se actualicen correctamente, pero puede impedir que se edite.

Si configura una programación independiente para el flujo de datos vinculado, este puede actualizarse innecesariamente e impedir que edite dicho flujo de datos. Hay dos recomendaciones para evitar este problema:

No establezca una programación de actualización para un flujo de datos vinculado en la misma área de trabajo que el flujo de datos de origen.
Si desea configurar una programación de actualización por separado y desea evitar el comportamiento de bloqueo, mueva el flujo de datos a un área de trabajo independiente.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2025-11-26