Guía de decisión de Microsoft Fabric: actividad de copia, flujo de datos o Spark
Use esta guía de referencia y los escenarios de ejemplo para ayudarle a decidir si necesita una actividad de copia, un flujo de datos o Spark para las cargas de trabajo mediante Microsoft Fabric.
Importante
Microsoft Fabric está en versión preliminar.
propiedades de actividad de copia, flujo de datos y Spark
Actividad de copia de canalización | Flujo de datos Gen 2 | Spark | |
---|---|---|---|
Caso de uso | Migración de Data Lake y almacenamiento de datos, ingesta de datos, transformación ligera |
Ingesta de datos, transformación de datos, limpieza de datos, generación de perfiles de datos |
Ingesta de datos, transformación de datos, procesamiento de datos, generación de perfiles de datos |
Rol de desarrollador principal | Ingeniero de datos, integrador de datos |
Ingeniero de datos, integrador de datos, analista de negocios |
Ingeniero de datos, científico de datos, desarrollador de datos |
Conjunto de aptitudes para desarrolladores principales | ETL SQL JSON |
ETL M SQL |
Spark (Scala, Python, Spark SQL, R) |
Código escrito | Sin código, código bajo |
Sin código, código bajo |
Código |
Volumen de datos | Baja a alta | Baja a alta | Baja a alta |
Interfaz de desarrollo | Hechicero Lona |
Power Query | Cuaderno Definición de trabajos de Spark |
Sources | Conectores de más de 30 | Conectores de más de 150 | Cientos de bibliotecas de Spark |
Destinations | Conectores de más de 18 | Lakehouse, Azure SQL base de datos, Explorador de datos de Azure, análisis de Azure Synapse |
Cientos de bibliotecas de Spark |
Complejidad de la transformación | Baja: ligero: conversión de tipos, asignación de columnas, archivos de combinación o división, jerarquía plana |
Baja a alta: Más de 300 funciones de transformación |
Baja a alta: compatibilidad con las bibliotecas nativas de Spark y de código abierto |
Revise los tres escenarios siguientes para obtener ayuda con la elección de cómo trabajar con los datos en Fabric.
Escenario 1
Leo, ingeniero de datos, debe ingerir un gran volumen de datos de sistemas externos, tanto locales como en la nube. Estos sistemas externos incluyen bases de datos, sistemas de archivos y API. Leo no quiere escribir y mantener código para cada operación de movimiento de datos o conector. Quiere seguir las prácticas recomendadas de las capas de medallón, con bronce, plata y oro. Leo no tiene ninguna experiencia con Spark, por lo que prefiere la interfaz de usuario de arrastrar y colocar tanto como sea posible, con una codificación mínima. Y también quiere procesar los datos según una programación.
El primer paso es obtener los datos sin procesar en el lago de la capa de bronce de los recursos de datos de Azure y varios orígenes de terceros (como Snowflake Web, REST, AWS S3, GCS, etc.). Quiere un lakehouse consolidado, de modo que todos los datos de varios LOB, locales y orígenes en la nube residan en un solo lugar. Leo revisa las opciones y selecciona la actividad de copia de canalización como opción adecuada para su copia binaria sin procesar. Este patrón se aplica a la actualización de datos históricos e incrementales. Con la actividad de copia, Leo puede cargar datos Gold en un almacenamiento de datos sin código si surge la necesidad y las canalizaciones proporcionan una ingesta de datos a gran escala que puede mover datos a escala de petabyte. actividad de copia es la mejor opción de código bajo y sin código para mover petabytes de datos a almacenes y almacenes de variedades de orígenes, ya sea ad hoc o a través de una programación.
Escenario 2
Mary es un ingeniero de datos con un profundo conocimiento de los requisitos de informes analíticos de varios LOB. Un equipo ascendente ha implementado correctamente una solución para migrar varios datos históricos e incrementales de loB a un lago común. Mary se ha encargado de limpiar los datos, aplicar lógicas de negocios y cargarlos en varios destinos (como Azure SQL DB, ADX y lakehouse) en preparación para sus respectivos equipos de informes.
Mary es un usuario experimentado Power Query y el volumen de datos está en el intervalo bajo a medio para lograr el rendimiento deseado. Los flujos de datos proporcionan interfaces sin código o poco código para ingerir datos de cientos de orígenes de datos. Con los flujos de datos, puede transformar los datos con más de 300 opciones de transformación de datos y escribir los resultados en varios destinos con una interfaz de usuario muy visual fácil de usar. Mary revisa las opciones y decide que tiene sentido usar Dataflow Gen 2 como su opción de transformación preferida.
Escenario 3
Adam es un ingeniero de datos que trabaja para una gran empresa minorista que usa un lakehouse para almacenar y analizar sus datos de clientes. Como parte de su trabajo, Adam es responsable de crear y mantener las canalizaciones de datos que extraen, transformen y carguen datos en lakehouse. Uno de los requisitos empresariales de la empresa es realizar análisis de revisión de clientes para obtener información sobre las experiencias de sus clientes y mejorar sus servicios.
Adam decide la mejor opción es usar Spark para compilar la lógica de extracción y transformación. Spark proporciona una plataforma informática distribuida que puede procesar grandes cantidades de datos en paralelo. Escribe una aplicación spark con Python o Scala, que lee datos estructurados, semiestructurados y no estructurados de OneLake para las opiniones y comentarios de los clientes. La aplicación limpia, transforma y escribe datos en tablas delta del lago. A continuación, los datos están listos para usarse para el análisis de bajada.