Comparteix via


Guía de decisión de Microsoft Fabric: Elección de una estrategia de movimiento de datos

Microsoft Fabric proporciona varias maneras de incorporar datos a Fabric, en función de lo que necesite. En la actualidad, puede usar reflejo, actividades de copia en tuberías, tarea de copia o flujo de eventos. Cada opción ofrece un nivel diferente de control y complejidad, por lo que puede elegir lo que mejor se adapte a su escenario.

El reflejo está diseñado para ser una solución sencilla y gratuita para reflejar la base de datos en Fabric, pero no cubrirá todos los escenarios avanzados. Las actividades de copia en canalizaciones proporcionan características de ingesta de datos totalmente personalizables, pero requieren que cree y administre la canalización por su cuenta. La tarea de copia cubre el espacio entre estas 2 opciones. Ofrece más flexibilidad y control que la creación de reflejos, además de compatibilidad nativa para la copia por lotes e incremental, sin la complejidad de la creación de canalizaciones.

Para escenarios de ingesta de streaming en tiempo real y basados en eventos, pruebe Eventstreams en Real-Time Intelligence. Proporcionan movimiento de datos de baja latencia, permiten transformar datos sin transformaciones de código o SQL y admiten el enrutamiento basado en contenido en varios destinos, como Eventhouse, Lakehouse y Activator.

Captura de pantalla de un árbol de decisión de estrategia de movimiento de datos, comparando reflejo, transmisión de eventos, trabajo de copia y actividad de copia.

Conceptos clave

  • Espejado ofrece una manera sencilla y gratuita de reflejar los datos operativos en Fabric para su análisis. Está optimizado para facilitar el uso con una configuración mínima y escribe en un único destino de solo lectura en OneLake.

  • Las actividades de copia de Pipelines se crean para los usuarios que necesitan flujos de trabajo de ingesta de datos orquestados basados en canalizaciones. Puede personalizarla ampliamente y agregar lógica de transformación, pero debe definir y administrar los componentes de canalización usted mismo, incluido el seguimiento del estado de la última ejecución para la copia incremental.

  • Copy Job facilita la ingesta de datos con compatibilidad nativa con varios estilos de entrega, como la copia masiva, la copia incremental y la replicación de captura de datos modificados (CDC), y no es necesario crear canalizaciones, y proporciona acceso a muchas opciones avanzadas. Admite muchos orígenes y destinos, y funciona bien cuando se quiere más control que la creación de reflejo, pero menos complejidad que la administración de canalizaciones con la actividad de copia.

  • Eventstreams: diseñado para la ingesta, transformación y procesamiento de datos de streaming en tiempo real. Admite canalizaciones de baja latencia, administración de esquemas y enrutamiento a destinos como Eventhouse, Lakehouse, Activator y Puntos de conexión personalizados compatibles (AMQP, Kafka y puntos de conexión HTTP).

Guía de decisión del movimiento de datos

Espejado Trabajo de copia Actividad de copia (canalización) Secuencias de eventos
Fuentes Bases de datos y integración de terceros en Open Mirroring Todos los orígenes de datos y formatos admitidos Todos los orígenes de datos y formatos admitidos Más de 25 orígenes y todos los formatos
Destinos Formato tabular en Fabric OneLake (solo lectura) Todos los destinos y formatos admitidos Todos los destinos y formatos admitidos Más de 4 destinos
Flexibilidad Configuración sencilla con comportamiento fijo Fácil de usar + Opciones avanzadas Opciones avanzadas y totalmente personalizables Opciones sencillas y personalizables
Capacidad Espejado Trabajo de copia Actividad de copia (canalización) Secuencias de eventos
Programación personalizada Continuo
Administración de tablas y columnas Sí (esquema, administración de eventos y campos)
Comportamiento de copia: Append, Upsert, Override Append
Observabilidad avanzada y auditoría
Modos de copia
Replicación continua basada en CDC
Copia masiva o por lotes Sí (replicación inicial de instantáneas de CDC)
Compatibilidad nativa con copia incremental (basada en marcas de agua)
Copia mediante una consulta definida por el usuario
Casos de uso
Replicación continua para análisis e informes
ELT/ETL controlado por metadatos para el almacenamiento de datos
Consolidación de datos
Migración de datos/ Copia de seguridad de datos/ Uso compartido de datos
Gratis de costo
Rendimiento predecible

Escenarios

Revise estos escenarios para ayudarle a elegir qué estrategia de movimiento de datos funciona mejor para sus necesidades.

Escenario 1

James es gerente financiero de una compañía de seguros. Su equipo usa Azure SQL Database para realizar un seguimiento de los datos de directivas, las notificaciones y la información del cliente en varias unidades de negocio. El equipo ejecutivo quiere crear paneles en tiempo real para la supervisión del rendimiento empresarial, pero James no puede permitir que las consultas de análisis ralentice los sistemas operativos que procesan miles de transacciones diarias.

James necesita replicación continua de datos sin ninguna complejidad de configuración ni mantenimiento continuo. No quiere administrar la programación, configurar cargas incrementales ni preocuparse por la selección de tablas: necesita todo lo reflejado automáticamente. Puesto que esto es solo para los informes ejecutivos, tener los datos en un formato de solo lectura en OneLake funciona perfectamente. La solución también debe ser rentable, ya que sale de su presupuesto de departamento.

James examina las opciones y elige Creación de reflejo. La creación de reflejo proporciona la replicación continua basada en CDC que necesita, controlando automáticamente todas las tablas sin ninguna configuración. La configuración sencilla significa que no necesita experiencia técnica y el costo gratuito se ajusta a su presupuesto. El formato tabular de solo lectura en OneLake proporciona a su equipo el acceso de análisis en tiempo real que necesitan sin afectar al rendimiento operativo.

Escenario 2

Lisa es analista de negocios en una empresa logística. Necesita copiar datos de envío de varias bases de datos de Snowflake en tablas de Fabric Lakehouse para el análisis de la cadena de suministro. Los datos incluyen registros históricos para la carga inicial y los nuevos envíos que llegan a lo largo del día. Lisa quiere ejecutar este proceso según una programación personalizada, cada 4 horas durante el horario comercial.

Lisa debe seleccionar tablas específicas de cada instancia de Snowflake, asignar columnas a nombres estandarizados y usar el comportamiento upsert para controlar las actualizaciones de los registros de envío existentes. Necesita funcionalidades de administración de tablas y columnas para controlar distintos esquemas entre regiones y quiere una supervisión avanzada para realizar un seguimiento de la calidad y el rendimiento del procesamiento de los datos.

Lisa examina las opciones y selecciona Copiar trabajo. El trabajo de copia proporciona la programación personalizada que necesita para sus requisitos de horas laborables, admite todos los orígenes de datos, como Snowflake, y ofrece las funcionalidades de administración de tablas y columnas para su configuración en varias regiones. La interfaz fácil de usar con opciones de configuración avanzadas le permite controlar la copia incremental con detección basada en marcas de agua y comportamiento upsert sin generar canalizaciones.

Escenario 3

David es ingeniero de datos sénior en una empresa de telecomunicaciones. Está creando un flujo de trabajo complejo de ingesta de datos que necesita extraer datos de uso de clientes de Oracle mediante consultas SQL personalizadas, aplicar transformaciones empresariales y cargarlos en varios destinos, incluidos Fabric Warehouse y sistemas externos. El flujo de trabajo también debe coordinarse con otras actividades de canalización, como los pasos de validación y notificación de datos.

David necesita un control total sobre el proceso de copia, incluida la capacidad de usar consultas definidas por el usuario para combinar tablas y filtrar datos en el origen. Necesita opciones de configuración avanzadas y totalmente personalizables, rendimiento predecible para grandes volúmenes de datos y la capacidad de integrar el proceso de copia en flujos de trabajo de orquestación de canalizaciones más amplios con dependencias y control de errores.

David revisa las opciones disponibles y elige Copiar actividades en canalizaciones. Este enfoque le proporciona la configuración avanzada y totalmente personalizable que necesita, admite consultas definidas por el usuario para la extracción de datos complejas y proporciona la orquestación basada en canalizaciones necesaria para su flujo de trabajo. Las funcionalidades avanzadas de supervisión y auditoría le ayudan a realizar un seguimiento del proceso complejo, mientras que el marco de canalización le permite coordinar las actividades de copia con otros pasos de procesamiento de datos.

Escenario 4

Ash es gerente de productos en una empresa de telecomunicaciones. Su equipo debe supervisar las métricas de soporte al cliente, como volúmenes de llamadas, tiempos de espera y rendimiento del agente, en tiempo real para garantizar el cumplimiento del Acuerdo de Nivel de Servicio y mejorar la satisfacción del cliente. Los datos proceden de varios sistemas operativos, incluidas las plataformas CRM, los registros del centro de llamadas y las bases de datos de asignación de agentes, y llegan a alta frecuencia a lo largo del día.

Ash usa secuencias de eventos de Fabric para ingerir y transformar estos datos en movimiento. Configura conectores de streaming para extraer datos de varios orígenes, aplica transformaciones mediante la experiencia sin código y enruta los eventos procesados a Eventhouse para el análisis en tiempo real. Integra Data Activator para desencadenar alertas y flujos de trabajo automatizados cuando se infringen los umbrales del Acuerdo de Nivel de Servicio para poder enviar notificaciones a los supervisores o ajustar los niveles de personal dinámicamente.

El resultado es un panel en tiempo real que se actualiza en cuestión de segundos, lo que proporciona visibilidad al equipo de Ash sobre las métricas de rendimiento en vivo y permite decisiones rápidas controladas por datos. Esta arquitectura de streaming elimina la latencia de las canalizaciones por lotes y permite a la empresa responder al instante a las necesidades de los clientes.

Comienza

Ahora que tiene una idea de la estrategia de movimiento de datos que se va a usar, puede empezar a trabajar con estos recursos: