Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El punto de conexión de análisis de SQL es una interfaz T-SQL optimizada para la lectura sobre los datos de Delta en Microsoft Fabric. En este artículo se explica la carga de trabajo de almacenamiento de datos de Fabric con el punto de conexión de análisis SQL del Lakehouse, y los escenarios de uso del Lakehouse en entornos de almacenamiento de datos.
¿Qué es un punto de conexión de análisis SQL de Lakehouse?
El punto de conexión de SQL Analytics permite consultar datos en Lakehouse mediante el lenguaje T-SQL y el protocolo TDS.
- El punto de conexión de SQL Analytics expone tablas delta de Lakehouse como tablas SQL que puede consultar con T-SQL.
- Cada tabla delta de Lakehouse se representa como una sola tabla. Los datos deben estar en formato delta.
- Cada instancia de Lakehouse tiene un punto de conexión de análisis SQL y cada área de trabajo puede tener más de una instancia de Lakehouse. El número de puntos de conexión de análisis SQL en un área de trabajo coincide con el número de elementos de Lakehouse.
No es necesario crear un punto de conexión de SQL Analytics en Microsoft Fabric. Se crea automáticamente un endpoint de SQL Analytics para cada lakehouse, base de datos o base de datos reflejada. Un punto de conexión de analítica de SQL actúa como una capacidad ligera de almacén de datos para sus elementos principales, complementando la arquitectura de tipo lakehouse del almacén de datos. Esta arquitectura permite que Spark o la duplicación de Fabric controlen los datos en una estructura de carpetas del lakehouse que el punto de conexión de análisis de SQL puede ver.
Note
Entre bastidores, el extremo de análisis SQL utiliza el mismo motor que el Warehouse para ofrecer consultas SQL de alto rendimiento y baja latencia.
Detección automática de metadatos
Un proceso sin problemas lee los registros delta de la /Tables carpeta y garantiza que los metadatos de SQL para las tablas, como las estadísticas, siempre están actualizados. No se necesita ninguna acción por parte del usuario y no es necesario importar, copiar datos ni configurar la infraestructura. Para obtener más información, consulte Esquema generado automáticamente en el punto de conexión de análisis SQL.
Escenarios que habilita Lakehouse para el almacenamiento de datos
En Fabric, ofrecemos un almacén.
El Lakehouse, con su punto de conexión de análisis SQL, impulsado por el Warehouse, puede simplificar el árbol de decisión tradicional de los patrones de arquitectura por lotes, de transmisión o lambda. Junto con un almacén de datos, el lakehouse posibilita muchos escenarios de análisis aditivos. En esta sección se explora cómo usar una instancia de Lakehouse junto con una instancia de Warehouse para obtener una mejor estrategia de análisis.
Análisis con la capa dorada de Fabric Lakehouse
Una estrategia muy conocida para la organización de datos en un lago de datos es la arquitectura de medallón. Esta estrategia organiza los archivos en capas sin procesar (bronce), consolidadas (plata) y refinadas (oro). Puede utilizar un punto de conexión de análisis de SQL para analizar datos de la capa de oro de la arquitectura de medallón si los archivos están almacenados en formato Delta Lake, aunque estén almacenados fuera de Microsoft Fabric OneLake.
Use métodos abreviados OneLake para hacer referencia a carpetas gold en cuentas de almacenamiento de Azure Data Lake externas que administran los motores de Synapse Spark o Azure Databricks.
También puede agregar almacenes como áreas temáticas o soluciones orientadas al dominio para materias específicas que pueden tener requisitos analíticos a medida.
Si decide conservar sus datos en Fabric, estarán siempre abiertos y serán accesibles mediante las API, el formato Delta y, por supuesto, T-SQL.
Consulta como servicio sobre las tablas delta de Lakehouse y otros elementos de OneLake Data Hub
Es posible que los analistas, científicos de datos e ingenieros de datos necesiten consultar datos dentro de un lago de datos. En Fabric, esta experiencia integral está completamente convertida en SaaS.
OneLake es un lago de datos único, unificado y lógico para toda la organización. OneLake es el OneDrive para los datos. OneLake puede contener varias áreas de trabajo, por ejemplo, a lo largo de las divisiones organizativas. Cada elemento de Fabric hace que los datos estén accesibles a través de OneLake.
Los datos de una instancia de Microsoft Fabric Lakehouse se almacenan físicamente en OneLake con la siguiente estructura de carpetas:
- La carpeta
/Filescontiene archivos en bruto y no consolidados (bronce) que los ingenieros de datos deben procesar antes de su análisis. Los archivos pueden estar en varios formatos, como CSV, Parquet, diferentes tipos de imágenes, etc. - La carpeta
/Tablescontiene datos refinados y consolidados (gold) listos para el análisis de negocio. Los datos consolidados están en formato Delta Lake.
Un punto de conexión de análisis SQL puede leer datos en la carpeta /tables dentro de OneLake. El análisis es tan sencillo como consultar el extremo de análisis SQL del Lakehouse. Junto con el Warehouse, también obtiene consultas entre bases de datos y la capacidad de pasar sin problemas de realizar consultas de solo lectura a crear lógica de negocio adicional sobre sus datos de OneLake con Fabric Data Warehouse.
Ingeniería de datos con Spark y Servicio con SQL
Las empresas controladas por datos deben mantener sus sistemas de back-end y de análisis sincronizados casi en tiempo real con las aplicaciones orientadas al cliente. El impacto de las transacciones se debe reflejar con precisión en los procesos integrales, las aplicaciones relacionadas y los sistemas de procesamiento de transacciones en línea (OLTP).
En Fabric, puedes usar Spark Streaming o ingeniería de datos para gestionar tus datos. Puede usar el endpoint de análisis SQL de Lakehouse para validar la calidad de los datos y para los procesos de T-SQL existentes. Esto se puede hacer en una arquitectura de medallón o dentro de varias capas de su instancia de Lakehouse, como bronce, plata, oro o datos de preparación, curados y refinados. Puede personalizar las carpetas y tablas creadas a través de Spark para satisfacer los requisitos empresariales y de ingeniería de datos. Cuando estés listo, un almacén de datos puede atender todas tus aplicaciones de inteligencia empresarial descendente y otros casos de uso analíticos, sin copiar datos, utilizando vistas o refinando datos mediante CREATE TABLE AS SELECT (CTAS), procedimientos almacenados y otros comandos DML/DDL.
Integración con la capa dorada de Open Lakehouse
Un punto de conexión de SQL Analytics no se limita al análisis de datos únicamente en Fabric Lakehouse. Al usar un punto de conexión analítico de SQL, puede analizar los datos del lago en cualquier lakehouse mediante Synapse Spark, Azure Databricks o cualquier otro motor de ingeniería de datos centrado en lagos. Puede almacenar los datos en Azure Data Lake Storage o Amazon S3.
Siempre puede acceder a esta estrecha integración bidireccional con el Fabric Lakehouse a través de cualquier motor mediante api abiertas, el formato Delta y, por supuesto, T-SQL.
Virtualización de datos de lagos de datos externos con accesos directos
Use los accesos directos de OneLake para hacer referencia a carpetas Gold en cuentas externas de Azure Data Lake Storage administradas por los motores de Synapse Spark o Azure Databricks, así como a cualquier tabla Delta almacenada en Amazon S3.
Puede analizar cualquier carpeta a la que haga referencia un acceso directo desde un punto de conexión de SQL Analytics y crear una tabla SQL para los datos a los que se hace referencia. Use la tabla SQL para exponer datos en lagos de datos administrados externamente y habilitar el análisis en ellos.
Este acceso directo actúa como un almacén virtual del que puede valerse desde un almacén para cubrir necesidades analíticas posteriores adicionales, o consultarlo directamente.
Para analizar datos en cuentas de almacenamiento externas de Data Lake, siga estos pasos:
- Cree un acceso directo que haga referencia a una carpeta en Azure Data Lake Storage o una cuenta de Amazon S3. Después de escribir los detalles de conexión y las credenciales, se muestra un acceso directo en Lakehouse.
- Cambie al endpoint de análisis SQL del Lakehouse y busque una tabla SQL que tenga un nombre coincidente con el nombre del alias. Esta tabla SQL hace referencia a la carpeta en ADLS o S3.
- Consulte la tabla SQL que hace referencia a datos en ADLS o S3. Use la tabla como haría con cualquier otra tabla en el punto de conexión de SQL Analytics. Puede combinar tablas que hagan referencia a datos en diferentes cuentas de almacenamiento.
Note
Si la tabla SQL no se muestra inmediatamente en el punto de conexión de SQL Analytics, espere unos minutos. La tabla SQL que hace referencia a datos en la cuenta de almacenamiento externa se crea con un retraso.
Análisis de datos archivados o históricos en un lago de datos
La creación de particiones de datos es una técnica conocida de optimización del acceso a datos en lagos de datos. Almacene conjuntos de datos con particiones en estructuras de carpetas jerárquicas con el formato /year=<year>/month=<month>/day=<day>, donde year, monthy day son las columnas de partición. Esta estructura mantiene los datos históricos separados lógicamente y permite a los motores de proceso leer los datos según sea necesario con el filtrado eficaz, en lugar de leer todo el directorio y todas las carpetas y archivos dentro.
Los datos con particiones permiten un acceso más rápido si las consultas filtran los predicados que comparan las columnas de predicado con un valor.
Un punto de conexión de análisis SQL puede leer fácilmente este tipo de datos sin ninguna configuración necesaria. Por ejemplo, puede usar cualquier aplicación para archivar datos en un lago de datos, incluidos SQL Server 2022 o Azure SQL Managed Instance. Después de particionar los datos y almacenarlos en un lago de datos para su archivado usando tablas externas, un punto de conexión de análisis SQL puede leer tablas particionadas de Delta Lake como tablas SQL y permite a su organización analizarlas. Este enfoque reduce el costo total de propiedad, reduce la duplicación de datos y ilumina los macrodatos, la inteligencia artificial y otros escenarios de análisis.
También puede usar consultas de viaje de tiempo para consultar rápidamente versiones anteriores de datos. El viaje en el tiempo es una funcionalidad de bajo costo y eficaz para consultar los estados anteriores de los datos con consultas T-SQL. En el caso de un punto de conexión de SQL Analytics de Lakehouse, el viaje en el tiempo está limitado por la configuración de retención de vacío. Para empezar, consulte Cómo: Consultar mediante viaje en el tiempo a nivel de sentencia.
Virtualización de datos de Fabric con accesos directos
En Fabric, las áreas de trabajo permiten separar los datos en función de requisitos empresariales, geográficos o normativos complejos.
Un endpoint de análisis SQL le permite dejar los datos en su lugar y aún así analizarlos en el Warehouse o el Lakehouse, incluso en otros espacios de trabajo de Microsoft Fabric, a través de una virtualización fluida. Cada instancia de Microsoft Fabric Lakehouse almacena datos en OneLake.
Los accesos directos permiten hacer referencia a carpetas en cualquier ubicación de OneLake.
Cada instancia de Microsoft Fabric Warehouse almacena datos de tabla en OneLake. Si una tabla es de solo adición, los datos de la tabla se exponen como datos de Delta Lake en OneLake. Los accesos directos permiten hacer referencia a carpetas en cualquier instancia de OneLake donde se exponen las tablas de Warehouse.
Uso compartido y consultas cruzadas entre áreas de trabajo
Aunque las áreas de trabajo le permiten separar los datos en función de requisitos empresariales, geográficos o normativos complejos, a veces es necesario facilitar el uso compartido entre estas líneas para necesidades de análisis específicas.
Un punto de conexión de análisis SQL de una instancia de Lakehouse puede permitir el uso compartido sencillo de datos entre departamentos y usuarios, donde un usuario puede aportar su propia capacidad y almacenamiento. Las áreas de trabajo organizan departamentos, unidades de negocio o dominios analíticos. Mediante accesos directos, los usuarios pueden encontrar los datos de Warehouse o Lakehouse. Los usuarios pueden realizar de forma instantánea sus propios análisis personalizados a partir de los mismos datos compartidos. Además de ayudar con las contracargos departamentales y la asignación de uso, este enfoque es una versión de copia cero de los datos.
El punto de conexión de análisis SQL permite consultar cualquier tabla y compartirla fácilmente. Puede agregar controles mediante roles de área de trabajo y roles de seguridad para cumplir requisitos empresariales adicionales.
Para habilitar el análisis de datos entre áreas de trabajo, siga estos pasos:
- Cree un acceso directo de OneLake que haga referencia a una tabla o una carpeta de un área de trabajo a la que pueda acceder.
- Elija una instancia de Lakehouse o Warehouse que contenga una tabla o una carpeta de Delta Lake que quiera analizar. Al seleccionar una tabla o carpeta, aparece un acceso directo en Lakehouse.
- Cambie al punto de conexión de análisis SQL de la instancia de Lakehouse y busque la tabla SQL que tenga un nombre que coincida con el nombre del acceso directo. Esta tabla SQL hace referencia a la carpeta de otra área de trabajo.
- Consulte la tabla SQL que hace referencia a los datos de otra área de trabajo. Puede usar la tabla como haría con cualquier otra tabla en el punto de conexión de SQL Analytics. Puede combinar las tablas que hacen referencia a datos en diferentes áreas de trabajo.
Para más información sobre la seguridad en el punto de conexión de SQL Analytics, consulte OneLake security for SQL analytics endpoints (Seguridad de OneLake para puntos de conexión de análisis de SQL).
Note
Si la tabla SQL no aparece inmediatamente en el punto de conexión de SQL Analytics, espere unos minutos. La tabla SQL que hace referencia a datos de otra área de trabajo se crea con un retraso.
Analizar datos particionados
La creación de particiones de datos es una técnica conocida de optimización del acceso a datos en lagos de datos. Los conjuntos de datos con particiones se almacenan en estructuras de carpetas jerárquicas con el formato /year=<year>/month=<month>/day=<day>, donde year, monthy day son las columnas de partición. Los conjuntos de datos con particiones permiten el acceso a datos más rápido si las consultas usan predicados que filtran los datos comparando las columnas de predicado con un valor.
Un punto de conexión de análisis SQL puede representar conjuntos de datos de Delta Lake con particiones como tablas SQL y permitirle analizarlos.
Para obtener más información y ejemplos sobre la consulta de datos externos, consulte Consulta archivos de un lago de datos externos utilizando Fabric Data Warehouse o el punto de acceso de SQL Analytics. Para obtener un ejemplo y un caso de uso para consultar archivos parquet particionados, consulte Consulta datos particionados.
Análisis de datos en Lakehouse, Warehouse o Eventhouse
Las páginas principales de Lakehouse y Warehouse incluyen el endpoint de Eventhouse como parte del menú Analizar datos con. El punto de conexión de Eventhouse proporciona una experiencia de consulta basada en Eventhouse directamente sobre los datos de Lakehouse y Warehouse, sin duplicación de datos ni sincronización manual.
Al habilitar el punto de conexión de Eventhouse, una instancia de Eventhouse y una base de datos KQL se crean automáticamente como elementos secundarios del Lakehouse o Warehouse de origen, con sincronización de esquemas gestionada de manera interna. El punto de conexión siempre refleja el esquema actual de los datos de origen, lo que permite el acceso analítico casi en tiempo real.
Esta integración hace que Eventhouse sea una extensión natural del origen de datos, en lugar de un sistema independiente que necesita para configurar y administrar. Para obtener más información sobre el punto de conexión de Eventhouse, consulte Habilitar el punto de conexión de Eventhouse para lakehouse y warehouse.
Contenido relacionado
- ¿Qué es un lakehouse en Microsoft Fabric?
- guía de decisión Microsoft Fabric: elija entre Warehouse y Lakehouse
- Lleva tus datos a OneLake con Lakehouse
- Modelos semánticos de Power BI en Microsoft Fabric
- Opciones para introducir datos en Fabric Lakehouse
- Cómo copiar datos mediante la actividad de copia
- Mover datos desde Azure SQL DB al Lakehouse mediante el asistente de copia
- Conectividad con el almacenamiento de datos en Microsoft Fabric
- Punto de conexión de análisis SQL del lakehouse
- Consulta el punto de conexión del análisis SQL o el almacén de datos en Microsoft Fabric