Compartir a través de


Ciclo de vida de datos de un extremo a otro en Microsoft Fabric

Normalmente, las organizaciones dependen de varios servicios desconectados para ingerir, almacenar, transformar, analizar y visualizar datos. Esta fragmentación crea silos de datos, aumenta la sobrecarga asociada a la integración y ralentiza el tiempo para obtener información valiosa. Microsoft Fabric aborda estos desafíos mediante la unificación de cada fase del ciclo de vida de los datos en una sola plataforma basada en una base compartida.

En el centro de esta arquitectura se encuentra OneLake, un único lago de datos organizativo que almacena todos los datos en formato Delta Parquet abierto. OneLake se aprovisiona automáticamente con cada cliente de Fabric. Como cada carga de trabajo de Fabric lee y escribe en OneLake, los datos no se transfieren entre motores. Un conjunto de datos ingerido a través de una canalización, refinado en un cuaderno y visualizado en un informe de Power BI permanece en un solo lugar a lo largo de su recorrido.

El ciclo de vida de los datos consta de seis fases y Fabric proporciona herramientas diseñadas específicamente para cada una de ellas:

  • Obtener datos: incorpore datos a OneLake desde cientos de orígenes en tiempo real, según una programación, a través de la replicación continua de la base de datos o haciendo referencia al almacenamiento externo en su lugar.

  • Almacenar datos: conserve los datos en formatos de almacenamiento optimizados para la carga de trabajo, tanto si son análisis de macrodatos flexibles, consultas SQL estructuradas, análisis de eventos en tiempo real, procesamiento transaccional o informes empresariales regulados.

  • Preparación y transformación: limpie, vuelva a configurar y enriquecer los datos mediante transformaciones visuales de poco código o cuadernos de código primero y funciones reutilizables, sin mover datos de OneLake.

  • Analizar y entrenar: compile y ponga en funcionamiento modelos de aprendizaje automático, ejecute análisis avanzados, consulte datos mediante programación y explore información a través de agentes de inteligencia artificial en lenguaje natural.

  • Realizar un seguimiento y visualizar: Surface Insights a través de informes interactivos, supervisar flujos de datos en vivo en paneles en tiempo real y desencadenar acciones automatizadas cuando se cumplan las condiciones.

  • Integración externa: conéctese de forma segura a servicios externos para automatización, colaboración, gobernanza, herramientas de desarrollo y CI/CD.

En el diagrama siguiente se muestra cómo se conectan estas fases y qué elementos de Fabric participan en cada fase. Cada fase se trata en profundidad en un artículo dedicado. Use los vínculos de cada sección para explorar las funcionalidades y herramientas disponibles en esa fase.

Diagrama que muestra el ciclo de vida de los datos de un extremo a otro en Microsoft Fabric, desde la ingesta de datos a través del almacenamiento, la preparación, el análisis y la visualización.

Obtención de datos

Diferentes tipos de conjuntos de datos proceden de una amplia variedad de orígenes de datos en distintos escenarios de datos, como la replicación de datos, las referencias de almacenamiento externo, los conjuntos de datos por lotes y los flujos de datos en tiempo real. Estos conjuntos de datos se ingieren y transforman a través de las herramientas de integración de Fabric. Los datos llegan a OneLake, el almacenamiento de datos centralizado para todo Fabric. Entre los métodos de ingesta de claves se incluyen:

  • Secuencias de eventos para la ingesta y el enrutamiento de eventos en tiempo real.
  • Canalizaciones de datos para movimiento de datos por lotes y programado con más de 200 conectores.
  • Creación de reflejo para la replicación continua desde bases de datos operativas sin compilar canalizaciones ETL.
  • Accesos directos para la virtualización de datos sin copia desde almacenamiento externo, como Azure Data Lake, Amazon S3 o Google Cloud Storage.

Para obtener más información, vea Obtener datos en Microsoft Fabric.

Almacenamiento de datos

Una vez ingeridos, todos los datos llegan a OneLake en formato Delta Parquet abierto. OneLake proporciona un único lago de datos para toda la organización sin necesidad de aprovisionamiento independiente. Fabric ofrece varios elementos de almacenamiento optimizados para diferentes cargas de trabajo:

  • Lakehouse para un almacenamiento flexible de macrodatos que combina archivos y tablas Delta administradas con un punto de conexión SQL automático.
  • Almacén de datos para análisis estructurados relacionales con soporte completo para T-SQL, procedimientos almacenados y transacciones ACID.
  • Eventhouse para análisis en tiempo real sobre datos de streaming y telemetría mediante el lenguaje de consulta Kusto (KQL).
  • SQL Database para cargas de trabajo transaccionales y análisis operativos.
  • Modelos semánticos para la lógica de negocios, las medidas y las jerarquías seleccionadas que potencian los informes y la inteligencia artificial.

Para obtener más información, consulte Almacenamiento de datos en Microsoft Fabric.

Preparación y transformación de datos

Una vez en OneLake, puede transformar aún más los datos mediante motores de código primero o herramientas de código bajo, todo dentro de Fabric sin movimiento de datos entre motores:

  • Dataflow Gen2 proporciona una interfaz de Power Query de poco código para la limpieza, transformación y enriquecimiento de datos.
  • Los cuadernos ofrecen un entorno similar a Jupyter para la ingeniería de datos basada en Python, T-SQL y Scala.
  • Las funciones de datos de usuario permiten insertar lógica de Python personalizada reutilizable que se puede invocar desde canalizaciones, cuadernos y reglas activator.

Para obtener más información, consulte Preparación y transformación de datos.

Análisis de datos y entrenamiento de modelos

Use los datos preparados para entrenar modelos de ML y realizar análisis avanzados. La carga de trabajo ciencia de datos de Fabric proporciona un entorno para crear, entrenar y poner en marcha modelos de ML:

  • Los experimentos de MLflow realizan un seguimiento de las ejecuciones de entrenamiento del modelo con el registro automático de hiperparámetros, métricas y elementos.
  • Los modelos de ML se registran en un registro con tecnología MLflow para el control de versiones, el seguimiento de metadatos y la reproducibilidad.
  • Los agentes de datos y los agentes de operaciones permiten interactuar con los datos mediante lenguaje natural y actuar en condiciones y patrones encontrados.
  • Las API de GraphQL proporcionan una capa de acceso a datos flexible para que los desarrolladores consulten varios orígenes de datos de Fabric a través de un único punto de conexión.
  • Copilot para Power BI utiliza IA generativa para el análisis ad hoc, la generación de DAX y la exploración de datos en lenguaje natural.

Para obtener más información, consulte Análisis y entrenamiento de datos en Microsoft Fabric.

Seguimiento y visualización de datos

Use los datos preparados y modelados para crear informes, paneles y alertas en tiempo real:

  • Los informes de Power BI proporcionan visualización de datos interactiva basada en modelos semánticos, con distribución en aplicaciones de Microsoft 365 como Teams, SharePoint, PowerPoint y Excel.
  • Los flujos de tareas translíticos permiten a los usuarios tomar medidas directamente desde informes de Power BI mediante una llamada a funciones de datos de usuario.
  • Paneles de inteligencia en tiempo real supervisan los datos de streaming con latencia de subsegundo mediante consultas KQL y creación visual.
  • Activator detecta condiciones en los datos de streaming y desencadena acciones automatizadas, como alertas de Teams, correos electrónicos o flujos de Power Automate.
  • Fabric IQ asigna datos empresariales a una ontología empresarial compartida y permite a los agentes de inteligencia artificial razonar sobre los datos con un contexto empresarial completo.

Para obtener más información, consulte Seguimiento y visualización de datos.

Integración externa

Fabric se integra con sistemas externos para la ingesta de datos y la entrega de información:

  • Power Automate y Data Activator permiten la automatización del flujo de trabajo en tiempo real en función de las condiciones de datos.
  • La integración de Microsoft 365 muestra información detallada en Teams, SharePoint, PowerPoint y Excel.
  • Las API REST y las bibliotecas cliente proporcionan acceso mediante programación a los recursos de Fabric.
  • Microsoft Entra ID controla la autenticación, el acceso condicional y la compatibilidad con la entidad de servicio.
  • La integración de Git con Azure DevOps y GitHub habilita el control de versiones y CI/CD para elementos de Fabric.
  • Microsoft Purview proporciona gobernanza, catalogación y cumplimiento unificados de datos en todo el patrimonio de datos de Fabric.

Para obtener más información, consulte Conectividad de plataforma y integración externa.

Compatibilidad con lenguaje natural e inteligencia artificial

La compatibilidad con lenguaje natural tiene la forma de Power BI Copilot, Data Agents y Operations Agents, que puede razonar sobre los datos empresariales en OneLake y generar respuestas basadas en los elementos de datos a los que los usuarios pueden acceder. Puede integrar Data Agents en Microsoft 365 Copilot, Microsoft Foundry y Copilot Studio para que los usuarios puedan obtener información de OneLake dentro de sus flujos de trabajo existentes en diferentes aplicaciones.