Mejor juntos: almacén de lago y almacén de datos

Se aplica a: punto de conexión de análisis SQL y Almacén de Microsoft Fabric

En este artículo se explica la carga de trabajo de almacenamiento de datos con el punto de conexión de análisis SQL de la instancia de Lakehouse y los escenarios para usarla en el almacenamiento de datos.

¿Qué es un punto de conexión de análisis SQL de Lakehouse?

En Fabric, cuando crea un almacén de lago, se crea automáticamente una instancia de Warehouse.

El punto de conexión de análisis SQL permite consultar datos en la instancia de Lakehouse mediante el lenguaje T-SQL y el protocolo TDS. Cada instancia de Lakehouse tiene un punto de conexión de análisis SQL y cada área de trabajo puede tener más de una instancia de Lakehouse. El número de puntos de conexión de análisis SQL de un área de trabajo coincide con el número de elementos de la instancia de Lakehouse.

  • El punto de conexión de análisis SQL se genera automáticamente para cada instancia de Lakehouse y expone tablas Delta de dicha instancia en forma de tablas SQL que se pueden consultar mediante el lenguaje T-SQL.
  • Cada tabla delta de una instancia de Lakehouse se representa como una tabla. Los datos deben estar en formato delta.
  • El modelo semántico predeterminado de Power BI se crea para cada punto de conexión de análisis SQL y sigue la convención de nomenclatura de los objetos de la instancia de Lakehouse.

No es necesario crear un punto de conexión de análisis SQL en Microsoft Fabric. Los usuarios de Microsoft Fabric no pueden crear un punto de conexión de análisis SQL en un área de trabajo. Se crea automáticamente un punto de conexión de análisis SQL para cada instancia de Lakehouse. Para obtener un punto de conexión de análisis SQL, cree una instancia de Lakehouse y se creará automáticamente un punto de conexión de análisis SQL para la instancia de Lakehouse.

Nota:

En segundo plano, el punto de conexión de análisis SQL usa el mismo motor que la instancia de Warehouse para atender consultas SQL de alto rendimiento y baja latencia.

Detección automática de metadatos

Un proceso sin problemas lee los registros delta y de la carpeta de archivos y garantiza que los metadatos de SQL para las tablas, como las estadísticas, siempre estén actualizados. No se necesita ninguna acción por parte del usuario y no es necesario importar, copiar datos ni configurar la infraestructura. Para obtener más información, consulte Esquema generado automáticamente en el punto de conexión de análisis SQL.

Escenarios que habilita Lakehouse para el almacenamiento de datos

En Fabric, ofrecemos un almacén.

La instancia de Lakehouse, con su punto de conexión de análisis SQL, con la tecnología de Warehouse, puede simplificar el árbol de decisión tradicional de los patrones de arquitectura lambda, por lotes o transmisión. Junto con un almacén, el almacén de lago permite muchos escenarios de análisis aditivos. En esta sección se explora cómo aprovechar una instancia de Lakehouse junto con una instancia de Warehouse para obtener una mejor estrategia de análisis.

Análisis con la capa dorada de Fabric Lakehouse

Una de las estrategias conocidas para la organización de datos de lago es una arquitectura medallion, donde los archivos se organizan en capas sin procesar (bronce), consolidadas (plata) y refinadas (dorada). Un punto de conexión de análisis SQL se puede usar para analizar datos en la capa dorada de la arquitectura medallion si los archivos están almacenados en formato Delta Lake, incluso si se almacenan fuera de Microsoft Fabric OneLake.

Puede usar accesos directos de OneLake para hacer referencia a las carpetas doradas en cuentas externas de Azure Data Lake Storage administradas por los motores de Synapse Spark o Azure Databricks.

Los almacenes también se pueden agregar como áreas de asunto o soluciones orientadas a dominios para un asunto específico que puede tener requisitos de análisis personalizados.

Si decide mantener los datos en Fabric, siempre estará abierto y accesible a través de las API, el formato Delta y, por supuesto, T-SQL.

Consulta como servicio sobre las tablas delta de Lakehouse y otros elementos de OneLake Data Hub

Hay casos de uso en los que un analista, un científico de datos o un ingeniero de datos pueden necesitar consultar datos dentro de un lago de datos. En Fabric, esta experiencia de un extremo a otro es completamente para SaaS.

OneLake es un lago de datos único, unificado y lógico para toda la organización. OneLake es el OneDrive para los datos. OneLake puede contener varias áreas de trabajo, por ejemplo, a lo largo de las divisiones organizativas. Cada elemento de Fabric hace que los datos estén accesibles a través de OneLake.

Los datos de una instancia de Microsoft Fabric Lakehouse se almacenan físicamente en OneLake con la siguiente estructura de carpetas:

  • La carpeta /Files contiene archivos sin formato y no consolidados (bronce) que los ingenieros de datos deben procesar antes de analizarlos. Los archivos pueden estar en varios formatos, como CSV, Parquet, diferentes tipos de imágenes, etc.
  • La carpeta /Tables contiene datos refinados y consolidados (dorado) que están listos para el análisis empresarial. Los datos consolidados están en formato Delta Lake.

Un punto de conexión de análisis SQL puede leer datos en la carpeta /tables dentro de OneLake. El análisis es tan sencillo como consultar el punto de conexión de análisis SQL de la instancia de Lakehouse. Junto con Warehouse, también obtiene consultas entre bases de datos y la capacidad de cambiar sin problemas de consultas de solo lectura a la creación de lógica de negocios adicional sobre los datos de OneLake con Synapse Data Warehouse.

Ingeniería de datos con Spark y Servicio con SQL

Las empresas controladas por datos deben mantener sus sistemas de back-end y de análisis sincronizados casi en tiempo real con las aplicaciones orientadas al cliente. El impacto de las transacciones se debe reflejar con precisión en los procesos integrales, las aplicaciones relacionadas y los sistemas de procesamiento de transacciones en línea (OLTP).

En Fabric, puede aprovechar Spark Streaming o la ingeniería de datos para mantener los datos. Puede usar el punto de conexión de análisis SQL de la instancia de Lakehouse para validar la calidad de los datos y para los procesos de T-SQL existentes. Esto se puede hacer en una arquitectura medallion o dentro de varias capas de su instancia de Lakehouse, ya sea bronce, plata o dorado, o datos en almacenamiento provisional, mantenidos y refinados. Puede personalizar las carpetas y tablas creadas a través de Spark para satisfacer los requisitos empresariales y de ingeniería de datos. Cuando esté listo, puede aprovechar una instancia de Warehouse para atender todas las aplicaciones de inteligencia empresarial de bajada y otros casos de uso de análisis, sin copiar datos, mediante vistas o el refinado de datos mediante CREATE TABLE AS SELECT (CTAS), procedimientos almacenados y otros comandos DML/DDL.

Integración con la capa dorada de Open Lakehouse

Un punto de conexión de análisis SQL no tiene como ámbito el análisis de datos en Fabric Lakehouse. Un punto de conexión de análisis SQL permite analizar datos de lagos de cualquier almacén de lago, mediante Synapse Spark, Azure Databricks o cualquier otro motor de ingeniería de datos centrado en los lagos. Los datos se pueden almacenar en Azure Data Lake Storage o Amazon S3.

Esta estrecha integración bidireccional con Fabric Lakehouse siempre es accesible a través de cualquier motor con API abiertas, el formato Delta y, por supuesto, T-SQL.

Virtualización de datos de lagos de datos externos con accesos directos

Puede usar accesos directos de OneLake para hacer referencia a las carpetas doradas en cuentas externas de Azure Data Lake Storage administradas por los motores de Synapse Spark o Azure Databricks, así como cualquier tabla delta almacenada en Amazon S3.

Cualquier carpeta a la que se hace referencia mediante un acceso directo se puede analizar desde un punto de conexión de análisis SQL y se crea una tabla SQL para los datos a los que se hace referencia. La tabla SQL se puede usar para exponer datos en lagos de datos administrados externamente y habilitar el análisis en ellos.

Este acceso directo actúa como un almacén virtual que se puede aprovechar desde un almacén para obtener requisitos adicionales de análisis de bajada o consultar directamente.

Siga estos pasos para analizar datos en cuentas externas de almacenamiento de lago de datos:

  1. Cree un acceso directo que haga referencia a una carpeta en Azure Data Lake Storage o una cuenta de Amazon S3. Una vez que escriba los detalles de conexión y las credenciales, se muestra un acceso directo en la instancia de Lakehouse.
  2. Cambie al punto de conexión de análisis SQL de la instancia de Lakehouse y busque una tabla SQL que tenga un nombre que coincida con el nombre del acceso directo. Esta tabla SQL hace referencia a la carpeta en la carpeta ADLS/S3.
  3. Consulte la tabla SQL que hace referencia a los datos en ADLS/S3. La tabla se puede usar como cualquier otra tabla del punto de conexión de análisis SQL. Puede combinar tablas que hagan referencia a datos en diferentes cuentas de almacenamiento.

Nota:

Si la tabla SQL no se muestra inmediatamente en el punto de conexión de análisis SQL, es posible que tenga que esperar unos minutos. La tabla SQL que hace referencia a datos en la cuenta de almacenamiento externa se crea con un retraso.

Análisis de datos archivados o históricos en un lago de datos

La creación de particiones de datos es una técnica conocida de optimización del acceso a datos en lagos de datos. Los conjuntos de datos con particiones se almacenan en las estructuras jerárquicas de carpetas con el formato /year=<year>/month=<month>/day=<day>, donde year, monthy day son las columnas de partición. Esto le permite almacenar datos históricos separados lógicamente en un formato que permite a los motores de proceso leer los datos según sea necesario con un filtrado eficaz, en lugar de leer todo el directorio y todas las carpetas y archivos incluidos.

Los datos con particiones permiten un acceso más rápido si las consultas aplican filtros en los predicados que comparan las columnas de predicado con un valor.

Un punto de conexión de análisis SQL puede leer fácilmente este tipo de datos sin ninguna configuración necesaria. Por ejemplo, puede usar cualquier aplicación para archivar datos en un lago de datos, incluidos SQL Server 2022 o Azure SQL Managed Instance. Después de crear particiones de datos y de colocarlas en un lago con fines de archivo con tablas externas, un punto de conexión de análisis SQL puede leer tablas de Delta Lake con particiones como tablas SQL y permitir que la organización las analice. Esto reduce el costo total de propiedad, reduce la duplicación de datos e ilumina los macrodatos, la inteligencia artificial y otros escenarios de análisis.

Virtualización de datos de Fabric con accesos directos

En Fabric, las áreas de trabajo permiten separar los datos en función de requisitos empresariales, geográficos o normativos complejos.

Un punto de conexión de análisis SQL le permite dejar los datos en su lugar y aun así analizarlos en la instancia de Warehouse o Lakehouse, incluso en otras áreas de trabajo de Microsoft Fabric, a través de una virtualización sin problemas. Cada instancia de Microsoft Fabric Lakehouse almacena datos en OneLake.

Los accesos directos permiten hacer referencia a carpetas en cualquier ubicación de OneLake.

Cada instancia de Microsoft Fabric Warehouse almacena datos de tabla en OneLake. Si una tabla es de solo anexión, los datos de la tabla se exponen como datos de Delta Lake en OneLake. Los accesos directos permiten hacer referencia a carpetas en cualquier instancia de OneLake donde se exponen las tablas de Warehouse.

Uso compartido y consulta entre áreas de trabajo

Aunque las áreas de trabajo le permiten separar los datos en función de requisitos empresariales, geográficos o normativos complejos, a veces es necesario facilitar el uso compartido entre estas líneas para necesidades de análisis específicas.

Un punto de conexión de análisis SQL de una instancia de Lakehouse puede permitir el uso compartido sencillo de datos entre departamentos y usuarios, donde un usuario puede aportar su propia capacidad y almacenamiento. Las áreas de trabajo organizan departamentos, unidades de negocio o dominios analíticos. Mediante accesos directos, los usuarios pueden encontrar los datos de Warehouse o Lakehouse. Los usuarios pueden realizar de forma instantánea sus propios análisis personalizados a partir de los mismos datos compartidos. Además de ayudar con los contracargos departamentales y la asignación de uso, también se trata de una versión de copia cero de los datos.

El punto de conexión de análisis SQL permite consultar cualquier tabla y compartirla fácilmente. Los controles agregados de los roles del área de trabajo y los roles de seguridad que se pueden superponer para satisfacer requisitos empresariales adicionales.

Siga estos pasos para habilitar el análisis de datos entre áreas de trabajo:

  1. Cree un acceso directo de OneLake que haga referencia a una tabla o una carpeta de un área de trabajo a la que pueda acceder.
  2. Elija una instancia de Lakehouse o Warehouse que contenga una tabla o una carpeta de Delta Lake que quiera analizar. Una vez que seleccione una tabla o carpeta, se muestra un acceso directo en la instancia de Lakehouse.
  3. Cambie al punto de conexión de análisis SQL de la instancia de Lakehouse y busque la tabla SQL que tenga un nombre que coincida con el nombre del acceso directo. Esta tabla SQL hace referencia a la carpeta de otra área de trabajo.
  4. Consulte la tabla SQL que hace referencia a los datos de otra área de trabajo. La tabla se puede usar como cualquier otra tabla del punto de conexión de análisis SQL. Puede combinar las tablas que hacen referencia a datos en diferentes áreas de trabajo.

Nota:

Si la tabla SQL no se muestra inmediatamente en el punto de conexión de análisis SQL, es posible que tenga que esperar unos minutos. La tabla SQL que hace referencia a datos de otra área de trabajo se crea con un retraso.

Análisis de datos con particiones

La creación de particiones de datos es una técnica conocida de optimización del acceso a datos en lagos de datos. Los conjuntos de datos con particiones se almacenan en las estructuras jerárquicas de carpetas con el formato /year=<year>/month=<month>/day=<day>, donde year, monthy day son las columnas de partición. Los conjuntos de datos con particiones permiten un acceso más rápido a los datos si las consultas filtran datos mediante los predicados que filtran los datos comparando las columnas de predicado con un valor.

Un punto de conexión de análisis SQL puede representar conjuntos de datos de Delta Lake con particiones como tablas SQL y permitirle analizarlos.