¿Qué es la creación de reflejos en Fabric?
La creación de reflejos en Fabric es una solución de bajo costo y baja latencia para reunir datos de varios sistemas en una única plataforma de análisis. Puede replicar continuamente el patrimonio de datos existente directamente en OneLake de Fabric desde una variedad de bases de datos de Azure y orígenes de datos externos.
Con los datos completamente actualizados en un formato consultable en OneLake, ahora puedes usar todos los servicios de Fabric, como la ejecución de análisis con Spark, la ejecución de cuadernos, la ingeniería de datos, la visualización a través de informes de Power BI, etc.
La creación de reflejo en Fabric permite a los usuarios disfrutar de un producto muy integrado, de un extremo a otro y fácil de usar diseñado para simplificar las necesidades de análisis. Creado para la apertura y la colaboración entre Microsoft y las soluciones tecnológicas que pueden leer el formato de tabla Delta Lake de código abierto, la creación de reflejo es una solución llave en mano de bajo costo y baja latencia que le permite crear una réplica de los datos en OneLake que se puede usar para todas sus necesidades analíticas.
Después, las tablas Delta se pueden usar en cualquier parte de Fabric, lo que permite a los usuarios acelerar su recorrido a Fabric.
¿Por qué conviene usar la creación de reflejos en Fabric?
En la actualidad, muchas organizaciones tienen datos operativos o analíticos críticos que se encuentran en silos.
Actualmente, el acceso y el trabajo con estos datos requieren canalizaciones ETL (extracción transformación carga) complejas, procesos empresariales y silos de decisión, lo que crea lo siguiente:
- Acceso restringido y limitado a datos importantes, siempre cambiantes.
- Fricción entre personas, procesos y tecnología.
- Tiempos de espera largos a fin de crear canalizaciones de datos y procesos para datos de importancia crítica.
- No hay libertad a fin de usar las herramientas que necesita para analizar y compartir información cómodamente.
- Falta de una base adecuada para que los usuarios compartan los datos y colaboren.
- No hay formatos de datos comunes y abiertos para todos los escenarios analíticos: BI, IA, integración, ingeniería e incluso aplicaciones.
La creación de reflejos en Fabric proporciona una experiencia sencilla para acelerar el plazo de amortización de información y decisiones, y para desglosar los silos de datos entre soluciones tecnológicas.
- Replicación casi en tiempo real de datos y metadatos en un lago de datos de SaaS, con análisis integrados para BI e IA
La plataforma Microsoft Fabric se basa en SaaS (Software como servicio), que lleva la simplicidad y la integración a un nuevo nivel. Para obtener más información acerca de Microsoft Fabric, vea ¿Qué es Microsoft Fabric?
La creación de reflejo crea tres elementos en el área de trabajo de Fabric:
- La creación de reflejo administra la replicación de datos y metadatos en OneLake y la conversión a Parquet, en un formato listo para análisis. Esto permite escenarios de bajada, como la ingeniería de datos, la ciencia de datos, etc.
- Un punto de conexión de análisis SQL
- Un modelo semántico predeterminado
Además del editor de consultas SQL , hay un amplio ecosistema de herramientas, como SQL Server Management Studio (SSMS), la extensión MSSQL con Visual Studio Code e incluso GitHub Copilot.
El uso compartido permite facilitar el control de acceso y la administración, para asegurarse de que puede controlar el acceso a información confidencial. El uso compartido también permite tomar decisiones seguras y democratizadas en toda la organización.
Tipos de creación de reflejo
Fabric ofrece tres enfoques diferentes para incorporar datos a OneLake a través de la creación de reflejo.
- Creación de reflejo de la base de datos: Creación de reflejo de la base de datos en Microsoft Fabric permite la replicación de bases de datos y tablas completas, lo que le permite reunir datos de varios sistemas en una sola plataforma de análisis.
- Creación de reflejo de metadatos: Creación de reflejo de metadatos en Fabric sincroniza los metadatos (como nombres de catálogo, esquemas y tablas) en lugar de mover físicamente los datos. Este enfoque aprovecha accesos directos, lo que garantiza que los datos permanecen en su origen, a la vez que siguen siendo fácilmente accesibles en Fabric.
- Creación de reflejo abierta: La creación de reflejo abierta en Fabric está diseñada para ampliar la creación de reflejos en función del formato de tabla de Delta Lake abierto. Esta funcionalidad permite a cualquier desarrollador escribir los datos modificados de su aplicación directamente en un elemento de base de datos reflejado en Microsoft Fabric, en función del enfoque de creación de reflejo abierto y de las API públicas.
Actualmente, están disponibles las siguientes bases de datos externas:
¿Cómo funciona la replicación casi en tiempo real de la creación de reflejo de la base de datos?
La creación de reflejo está habilitada creando una conexión segura al origen de datos operativos. Elija si quiere replicar una base de datos completa o tablas individuales y la creación de reflejo mantendrá automáticamente los datos sincronizados. Una vez configurada, los datos se replicarán continuamente en OneLake para el consumo de análisis.
A continuación se muestran los principios básicos de la creación de reflejo:
Habilitar la creación de reflejos en Fabric es sencillo e intuitivo, sin necesidad de crear canalizaciones ETL más complejas, asignar otros recursos de proceso ni administrar el movimiento de datos.
La creación de reflejos en Fabric es un servicio totalmente administrado, por lo que no tiene que preocuparse por hospedar, mantener ni administrar la replicación de la conexión reflejada.
¿Cómo funciona la creación de reflejo de metadatos?
La creación de reflejo no solo permite la replicación de datos, sino que también se puede lograr mediante accesos directos o reflejo de metadatos en lugar de la replicación de datos completa, lo que permite que los datos estén disponibles sin moverlos físicamente ni duplicarlos. La creación de reflejo en este contexto hace referencia a la replicación de solo metadatos (como nombres de catálogo, esquemas y tablas) en lugar de los propios datos reales. Este enfoque permite a Fabric hacer que los datos de diferentes orígenes sean accesibles sin duplicarlos, lo que simplifica la administración de datos y minimiza las necesidades de almacenamiento.
Por ejemplo, al acceder a los datos registrados en el catálogo de Unity, Fabric solo refleja la estructura del catálogo de Azure Databricks, lo que permite acceder a los datos subyacentes a través de accesos directos. Este método garantiza que los cambios en los datos de origen se reflejen instantáneamente en Fabric sin necesidad de movimiento de datos, manteniendo la sincronización en tiempo real y mejorando la eficacia en el acceso a la información actualizada.
¿Cómo funciona la creación de reflejo abierta?
Además de la creación de reflejo que permite la replicación de datos mediante la creación de una conexión segura al origen de datos, también puede seleccionar un proveedor de datos existente o escribir su propia aplicación para colocar datos en la base de datos reflejada. Una vez que cree una base de datos reflejada abierta a través de la API pública o a través del portal de Fabric, podrá obtener una dirección URL de zona de aterrizaje en OneLake, donde puede obtener datos modificados por especificación de creación de reflejo abierta.
Una vez que los datos están en la zona de aterrizaje con el formato adecuado, la replicación comenzará a ejecutarse y administrará la complejidad de combinar los cambios con actualizaciones, insertar y eliminar para reflejarse en tablas delta. Este método garantiza que los datos escritos en la zona de aterrizaje se mantendrán inmediatamente y mantendrán actualizados los datos en Fabric.
Uso compartido
El uso compartido permite facilitar el control de acceso y la administración, mientras que los controles de seguridad, como la seguridad de nivel de fila (RLS) y la seguridad de nivel de objeto (OLS), entre otros, se aseguran de que puede controlar el acceso a la información confidencial. El uso compartido también permite tomar decisiones seguras y democratizadas en toda la organización.
Al compartir, los usuarios conceden a otros usuarios o a un grupo de usuarios acceso a una base de datos reflejada sin dar acceso al área de trabajo y al resto de sus elementos. Cuando alguien comparte una base de datos reflejada, también concede acceso al punto de conexión de análisis SQL y al modelo semántico predeterminado asociado.
Para obtener más información, consulte Uso compartido de la base de datos reflejada y administración de permisos.
Consultas entre bases de datos
Con los datos de la base de datos reflejada almacenada en OneLake, puede escribir consultas entre bases de datos, combinar datos de bases de datos reflejadas, almacenes y los puntos de conexión de análisis SQL de instancias de Lakehouse en una sola consulta de T-SQL. Para obtener más información, vea Escritura de una consulta entre bases de datos.
Por ejemplo, puede hacer referencia a la tabla desde bases de datos reflejadas y almacenes mediante nombres de tres partes. En el ejemplo siguiente, use el nombre de tres partes para hacer referencia a ContosoSalesTable
en el almacén ContosoWarehouse
. Desde otras bases de datos o almacenes, la primera parte de la convención de nomenclatura de tres partes de SQL estándar es el nombre de la base de datos reflejada.
SELECT *
FROM ContosoWarehouse.dbo.ContosoSalesTable AS Contoso
INNER JOIN Affiliation
ON Affiliation.AffiliationId = Contoso.RecordTypeID;
Ingeniería de datos con los datos de la base de datos reflejada
Microsoft Fabric proporciona diversas capacidades de ingeniería de datos para asegurarse de que los datos sean fácilmente accesibles, de alta calidad y estén bien organizados. Desde la Ingeniería de datos de Fabric, puedes hacer lo siguiente:
- Crear y administrar los datos como Spark mediante un lago de datos
- Diseñar canalizaciones para copiar datos en el almacén de lago
- Usar definiciones de trabajos de Spark para enviar un trabajo por lotes o streaming a un clúster de Spark
- Usar cuadernos para escribir código para la ingesta, preparación y transformación de datos
Ciencia de datos con los datos de la base de datos reflejada
Microsoft Fabric ofrece Ciencia de datos de Microsoft Fabric para permitir a los usuarios completar flujos de trabajo de un extremo a otro para el enriquecimiento de datos y la información empresarial. Puede completar una amplia gama de actividades en todo el proceso de ciencia de datos: exploración, preparación y limpieza de los datos, experimentación, modelado, puntuación del modelo y transmisión de información predictiva a los informes de BI.
Los usuarios de Microsoft Fabric pueden acceder a las cargas de trabajo de ciencia de datos. Desde allí, pueden detectar varios recursos relevantes y acceder a ellos. Por ejemplo, pueden crear experimentos de aprendizaje automático, modelos y cuadernos. También pueden importar cuadernos existentes en la página principal de ciencia de datos.
Base de datos SQL en Fabric
También puede crear y administrar directamente una base de datos SQL en Microsoft Fabric (versión preliminar) dentro del portal de Fabric. En función de Azure SQL Database, la base de datos de SQL en Microsoft Fabric se refleja automáticamente con fines de análisis y le permite crear fácilmente la base de datos operativa en Fabric. La base de datos de SQL es el hogar de Fabric para cargas de trabajo OLTP y se puede integrar con la integración del control de código fuente de Fabric.