¿Qué es Ingeniería de datos en Microsoft Fabric?
Ingeniería de datos en Microsoft Fabric permite a los usuarios diseñar, compilar y mantener infraestructuras y sistemas que permiten a sus organizaciones recopilar, almacenar, procesar y analizar grandes volúmenes de datos.
Microsoft Fabric proporciona diversas funcionalidades de ingeniería de datos para asegurarse de que los datos sean fácilmente accesibles, de alta calidad y estén bien organizados. Desde la página principal de Ingeniería de datos, puede:
Crear y administrar los datos mediante un almacén de lago
Diseñar canalizaciones para copiar datos en el almacén de lago
Usar definiciones de trabajos de Spark para enviar un trabajo por lotes o streaming a un clúster de Spark
Usar cuadernos para escribir código para la ingesta, preparación y transformación de datos
Lakehouse
Los almacenes de lago son arquitecturas de datos que permiten a las organizaciones almacenar y administrar datos estructurados y no estructurados en una sola ubicación, mediante diversas herramientas y marcos para procesar y analizar esos datos. Estas herramientas y marcos pueden incluir consultas y análisis basados en SQL, así como aprendizaje automático y otras técnicas de análisis avanzadas.
Definición de trabajo de Apache Spark
Las definiciones de trabajos de Spark son instrucciones que definen cómo ejecutar un trabajo en un clúster de Spark. Incluyen información como los orígenes de datos de entrada y salida, las transformaciones y los valores de configuración de la aplicación Spark. La definición de trabajo de Spark permite enviar un trabajo por lotes o streaming al clúster de Spark, aplicar una lógica de transformación diferente a los datos hospedados en el lakehouse, además de muchos otros aspectos.
Notebook
Los cuadernos son un entorno de procesamiento interactivo que permite a los usuarios crear y compartir documentos que contienen código activo, ecuaciones, visualizaciones y texto narrativo. Permiten a los usuarios escribir y ejecutar código en varios lenguajes de programación, como Python, R y Scala. Puede usar cuadernos para la ingesta de datos, preparación, análisis y otras tareas relacionadas con datos.
Canalización de datos
Las canalizaciones de datos son una serie de pasos que se usan para recopilar, procesar y transformar datos de un forma sin procesar a un formato que se pueda usar para el análisis y la toma de decisiones. Son un componente esencial de la ingeniería de datos, ya que proporcionan una manera de mover datos del origen al destino de forma confiable, escalable y eficaz.
Puede usar Ingeniería de datos en Microsoft Fabric de forma gratuita al suscribirse a la prueba de Fabric. También puede comprar una capacidad de Microsoft Fabric o una capacidad reservada de Fabric.
Contenido relacionado
Introducción a la ingeniería de datos:
- Para obtener más información sobre lakehouses, vea ¿Qué es un lakehouse en Microsoft Fabric?
- Para empezar a trabajar con lakehouse, vea Creación de lakehouse en Microsoft Fabric.
- Más información sobre las definiciones de trabajos de Apache Spark, vea ¿Qué es una definición de trabajo de Apache Spark?
- Para empezar a trabajar con una definición de trabajo de Apache Spark, vea Creación de una definición de trabajo de Apache Spark en Fabric.
- Más información sobre los cuadernos, vea Creación y ejecución del cuaderno.
- Para empezar a trabajar con la actividad de copia de Canalizaciones, vea Cómo copiar datos mediante la actividad de copia.