Grupo de SQL sin servidor en Azure Synapse Analytics

Cada área de trabajo de Azure Synapse Analytics incluye puntos de conexión de grupo de SQL sin servidor que puede usar para consultar datos en Azure Data Lake (formatos Parquet, Delta Lake y de texto delimitado), Azure Cosmos DB o Dataverse.

Un grupo de SQL sin servidor es un servicio de consulta de los datos del lago de datos. Le permite acceder a los datos mediante las siguientes funcionalidades:

El grupo de SQL sin servidor es un sistema de procesamiento de datos distribuido, creado para datos a gran escala y funciones computacionales. El grupo de SQL sin servidor le permite analizar macrodatos en segundos o minutos, según la carga de trabajo. Gracias a la tolerancia a errores integrada en la ejecución de consultas, el sistema proporciona una alta confiabilidad y un alto índice de éxito incluso para consultas de ejecución prolongada que implican grandes conjuntos de datos.

El grupo de SQL sin servidor funciona sin servidor, por lo que no hay que configurar ninguna infraestructura ni mantener ningún clúster. Se proporciona un punto de conexión predeterminado para este servicio en cada área de trabajo de Azure Synapse, por lo que puede empezar a consultar datos tan pronto como se crea el área de trabajo.

No se cobra por los recursos reservados, solo se cobra por los datos procesados por las consultas que se ejecutan, por lo que este modelo es un modelo de pago por uso auténtico.

Si usa Apache Spark para Azure Synapse en la canalización de datos, o para la preparación, limpieza o enriquecimiento de datos, puede consultar las tablas externas de Spark que haya creado en el proceso, directamente desde el grupo de SQL sin servidor. Use Private Link para llevar el punto de conexión del grupo de SQL sin servidor a la red virtual del área de trabajo administrada.

Ventajas del grupo de SQL sin servidor

Si necesita explorar los datos del lago de datos, obtener información de este u optimizar la canalización de transformación de datos existente, puede beneficiarse del uso del grupo de SQL sin servidor. Es adecuado para los escenarios siguientes:

  • Detección y exploración básicos: analice rápidamente datos de diversos formatos (Parquet, CSV y JSON) en el lago de datos, para que pueda planear cómo extraer información de estos.
  • Almacenamiento de datos lógico: proporcione una abstracción relacional sobre datos sin procesar o dispares sin tener que reubicar y transformar los datos, lo que permite una vista siempre actualizada de estos. Obtenga más información sobre la creación de almacenamiento de datos lógicos.
  • Transformación de datos: una forma sencilla, escalable y eficaz de transformar los datos del lago mediante T-SQL, para que estos puedan alimentar a las herramientas de inteligencia empresarial o de cualquier otro tipo, o se carguen en un almacén de datos relacional (bases de datos de Synapse SQL, Azure SQL Database, etc.).

Diferentes puestos profesionales se pueden beneficiar del grupo de SQL sin servidor:

  • Los ingenieros de datos pueden explorar el lago, transformar y preparar los datos mediante este servicio, y simplificar las canalizaciones de transformación de datos. Para más información, consulte este tutorial.
  • Los científicos de datos pueden analizar rápidamente el contenido y la estructura de los datos del lago gracias a características como OPENROWSET y la inferencia de esquemas automática.
  • Los analistas de datos pueden explorar los datos y tablas externas de Spark que crean los científicos o ingenieros de datos mediante el conocido lenguaje T-SQL o con sus herramientas favoritas, las cuales pueden conectarse al grupo de SQL sin servidor.
  • Los profesionales de inteligencia empresarial pueden crear rápidamente informes de Power BI a partir de los datos del lago y las tablas de Spark.

Cómo empezar a usar el grupo de SQL sin servidor

Se proporciona un punto de conexión del grupo de SQL sin servidor en cada área de trabajo de Azure Synapse. Puede crear un área de trabajo e iniciar la consulta de datos al instante mediante herramientas con las que está familiarizado.

Asegúrese de que está aplicando los procedimientos recomendados para obtener el mejor rendimiento.

Herramientas de cliente

El grupo de SQL sin servidor permite que las herramientas ya existentes de inteligencia empresarial y de consultas ad-hoc de SQL accedan al lago de datos. Como proporciona una sintaxis T-SQL conocida, cualquier herramienta capaz de establecer conexión TDS en ofertas de SQL podrá conectarse y hacer consultas a Synapse SQL. Puede conectarse con Azure Data Studio y ejecutar consultas ad-hoc o conectarse con Power BI para obtener información en cuestión de minutos.

Compatibilidad con T-SQL

El grupo de SQL sin servidor ofrece un área expuesta de consultas de T-SQL, que se ha mejorado o ampliado ligeramente en algunos aspectos para dar cabida a experiencias relacionadas con la consulta de datos semiestructurados y datos no estructurados. Además, algunos de los aspectos del lenguaje T-SQL no se admiten debido al diseño del grupo de SQL sin servidor. Por ejemplo, actualmente no se admite la funcionalidad DML.

  • La carga de trabajo se puede organizar mediante conceptos conocidos:
  • Bases de datos: el punto de conexión del grupo de SQL sin servidor puede tener varias bases de datos.
  • Esquemas: en una base de datos, puede haber uno o varios grupos de propiedad de objetos denominados esquemas.
  • Vistas, procedimientos almacenados, funciones de valor de tablas insertadas
  • Recursos externos: orígenes de datos, formatos de archivo y tablas

La seguridad se puede reforzar mediante:

  • Inicios de sesión y usuarios
  • Credenciales para controlar el acceso a las cuentas de almacenamiento
  • Concesión, denegación y revocación de permisos por nivel de objeto
  • Integración de Microsoft Entra

T-SQL compatible:

  • Se admite el área expuesta SELECT completa, que incluye la mayoría de las funciones de SQL.
  • CETAS - CREATE EXTERNAL TABLE AS SELECT
  • Instrucciones de DDL relacionadas solo con vistas y seguridad

El grupo de SQL sin servidor no tiene almacenamiento local, solo se almacenan en las bases de datos los objetos de metadatos. Por tanto, no se admite T-SQL relacionado con los siguientes conceptos:

  • Tablas
  • Desencadenadores
  • Vistas materializadas
  • Instrucciones DDL distintas de las relacionadas con las vistas y la seguridad
  • Instrucciones DML

Nota

Las consultas de grupo de SQL sin servidor tienen un tiempo de expiración. Para más información sobre el tiempo de expiración de consulta que puede afectar a la carga de trabajo, consulte las restricciones del sistema de grupos de SQL sin servidor. Actualmente no se puede cambiar el tiempo de expiración.

Extensiones

Con el fin de permitir una experiencia fluida para la consulta en contexto de los datos que residen en el lago de datos, el grupo de SQL sin servidor amplía la función OPENROWSET existente con la incorporación de las siguientes funcionalidades:

Consulta de varios archivos o carpetas

Formato de archivo PARQUET de consulta

Formato DELTA de consulta

Varios formatos de texto delimitado (con terminadores de campo personalizados, terminadores de fila, caracteres de escape)

Almacén analítico de Azure Cosmos DB

Lectura de un subconjunto de columnas elegido

Inferencia de esquemas

Función filename

Función filepath

Uso con tipos complejos y estructuras de datos anidadas o repetidas

Seguridad

El grupo de SQL sin servidor ofrece mecanismos para proteger el acceso a los datos.

Integración de Microsoft Entra y la autenticación multifactor

El grupo de SQL sin servidor permite administrar centralmente las identidades de usuario de base de datos y otros servicios de Microsoft con la integración de Microsoft Entra. Esta funcionalidad simplifica la administración de permisos y mejora la seguridad. Microsoft Entra ID admite la autenticación multifactor (MFA) para aumentar la seguridad tanto de los datos como de las aplicaciones y admite un proceso de inicio de sesión único.

Autenticación

La autenticación del grupo de SQL sin servidor hace referencia a cómo prueban los usuarios su identidad al conectarse al punto de conexión. Se admiten dos tipos de autenticación:

  • Autenticación de SQL

    Este método de autenticación utiliza un nombre de usuario y una contraseña.

  • Autenticación de Microsoft Entra:

    Este método de autenticación usa identidades administradas por Microsoft Entra ID. Se puede habilitar la autenticación multifactor para los usuarios de Microsoft Entra. Use la autenticación de Active Directory (seguridad integrada) siempre que sea posible.

Authorization

La autorización hace referencia a las acciones que puede llevar a cabo un usuario en una base de datos del grupo de SQL sin servidor, algo que controlan los permisos de nivel de objeto y las pertenencias a roles de bases de datos de la cuenta de usuario.

Si se usa la autenticación de SQL, el usuario de SQL solo existe en el grupo de SQL sin servidor y los permisos se limitan a los objetos del grupo de SQL sin servidor. No se puede conceder directamente al usuario de SQL el acceso a los objetos protegibles de otros servicios (como Azure Storage), ya que solo existe en el ámbito del grupo de SQL sin servidor. El usuario de SQL debe usar uno de los tipos de autorización admitidos para acceder a los archivos.

Si se usa la autenticación de Microsoft Entra, un usuario puede iniciar sesión en el grupo de SQL sin servidor y en otros servicios, como Azure Storage, y se pueden conceder permisos al usuario de Microsoft Entra.

Acceso a las cuentas de almacenamiento

Un usuario que haya iniciado sesión en el servicio del grupo de SQL sin servidor debe estar autorizado para acceder a los archivos de Azure Storage y realizar consultas en ellos. El grupo de SQL sin servidor admite los siguientes tipos de autorización:

  • La firma de acceso compartido (SAS) ofrece acceso delegado a los recursos de una cuenta de almacenamiento. Con una SAS, puede conceder a los clientes acceso a los recursos de su cuenta de almacenamiento sin compartir las claves de la cuenta. Una SAS le ofrece un control detallado sobre el tipo de acceso que concede a los clientes que tienen una SAS: intervalo de validez, permisos concedidos, intervalo de direcciones IP aceptable y protocolo aceptable (https/http).

  • La Identidad de usuario (también conocida como "tránsito") es un tipo de autorización en el que la identidad del usuario de Microsoft Entra que inició sesión en el grupo de SQL sin servidor se utiliza para autorizar el acceso a los datos. Antes de acceder a los datos, el administrador de Azure Storage debe conceder permisos al usuario de Microsoft Entra para acceder a los datos. Este tipo de autorización utiliza el usuario de Microsoft Entra que inició sesión en el grupo de SQL sin servidor, por lo que no se admite para los tipos de usuario de SQL.

  • Identidad del área de trabajo es un tipo de autorización en el que se usa la identidad del área de trabajo de Synapse para autorizar el acceso a los datos. Antes de acceder a los datos, el administrador de Azure Storage debe conceder permisos a la identidad del área de trabajo para acceder a los datos.

Acceso a Azure Cosmos DB

Debe crear credenciales de nivel de servidor o en el ámbito de la base de datos con la clave de solo lectura de la cuenta de Azure Cosmos DB para acceder al almacén analítico de Azure Cosmos DB.

Pasos siguientes

Puede encontrar información adicional sobre la conexión de punto de conexión y los archivos de consulta en los siguientes artículos: