Uso de SQL Server 2022 como un centro de datos que consulta archivos y realiza copias de seguridad o restauraciones en proveedores de almacenamiento de objetos

Completado

SQL Server 2022 proporciona funcionalidades de virtualización de datos para acceder a los datos almacenados en formatos como tablas de Parquet y delta a través de orígenes como Azure Blob Storage, Azure Data Lake Storage y proveedores de almacenamiento de objetos compatible con S3. Además, SQL Server 2022 mejora las funcionalidades de copia de seguridad y restauración remotas al admitir proveedores de almacenamiento de objetos compatible con S3.

Virtualización de datos en SQL Server

Polybase, introducido con SQL Server 2016, admite el acceso a datos fuera de SQL Server mediante instrucciones Transact-SQL (T-SQL), como OPENROWSET y CREATE EXTERNAL TABLE. Este concepto se conoce como virtualización de datos, ya que los usuarios pueden acceder a los datos fuera de SQL Server sin mover los datos a SQL Server. SQL Server 2019 agregó compatibilidad con la virtualización de datos mediante controladores ODBC. Este acceso a datos usa un software denominado servicios de PolyBase. SQL Server 2022 agrega compatibilidad en el motor de base de datos mediante interfaces de API de REST para acceder a los datos de Azure Blob Storage, Azure Data Lake Storage y proveedores de almacenamiento de objetos compatible con S3.

En la figura siguiente se muestra la extensión completa de la compatibilidad con la virtualización de datos en SQL Server 2022.

Diagram of the data virtualization options in SQL Server 2022.

Virtualización de datos con conectores de API de REST

La virtualización de datos de SQL Server 2022 ahora incluye acceso a nuevos conectores de orígenes de datos mediante interfaces de API de REST integradas en el motor de SQL Server. Estos nuevos conectores de orígenes de datos suelen utilizarse para admitir un gran conjunto de archivos para crear un lago de datos. SQL Server ahora se puede usar como un centro de datos para consultar archivos en un lago de datos sin mover los datos.

Conectores de API de REST

Se admiten los siguientes conectores nuevos mediante la API de REST:

  • Azure Blob Storage

    Con el conector de orígenes de datos abs, puede acceder a los archivos almacenados en contenedores de Azure Blob Storage. Azure Blob Storage es escalable, de alta disponibilidad, redundante y rentable con almacenamiento en capas, además de estar protegido y optimizado para lagos de datos. Para más información, consulte Virtualización de datos con Azure Blob Storage.

  • Azure Data Lake Storage

    Con el conector de orígenes de datos adls, puede acceder al archivo almacenado en Azure Data Lake Storage (ADLS). ADLS se basa en Azure Blob Storage y proporciona semántica del sistema de archivos, seguridad de nivel de archivo y escala. Todas estas funcionalidades se basan en Azure Blob Storage y proporcionan un bajo costo, acceso por niveles, alta seguridad, alta disponibilidad y durabilidad. Para más información, consulte Virtualización de datos con Azure Data Lake Storage.

  • Proveedores de almacenamiento de objetos compatible con S3

    Con el conector de orígenes de datos S3, puede acceder al archivo almacenado en el almacenamiento de objetos compatible con S3. S3 se ha convertido en un protocolo de almacenamiento de objetos popular y es compatible con muchos proveedores, tanto en nubes como en entornos locales. El almacenamiento de objetos S3 ofrece escala, menor costo, distribución geográfica y transporte de datos confiable. Para más información, consulte Virtualización de datos con proveedores de almacenamiento de objetos compatible con S3.

Uso de T-SQL para la virtualización de datos

T-SQL proporciona las siguientes instrucciones para admitir la virtualización de datos con conectores de la API de REST:

  • OPENROWSET

    La instrucción T-SQL OPENROWSET permite acceder a cualquier conector de datos de la API de REST ad-hoc, donde se proporciona información sobre cómo conectarse al origen de datos, el archivo o la información de carpeta específicos.

  • CREATE EXTERNAL TABLE

    Puede usar la instrucción T-SQL CREATE EXTERNAL TABLE para crear una tabla virtual que sea una asignación a archivos en cualquier conector de datos de la API de REST. A continuación, puede acceder a la tabla externa de la misma forma que si se tratara de una tabla de SQL Server, excepto que los datos se almacenan en el origen de datos remoto. Los metadatos de la tabla externa se almacenan en tablas del sistema de SQL Server.

  • CREATE EXTERNAL TABLE AS SELECT

    Una nueva funcionalidad de SQL Server 2022 es crear una tabla externa basada en una consulta de una tabla de SQL Server existente (u otra tabla externa) también conocida como CREATE EXTERNAL TABLE AS SELECT. El resultado de la consulta será una nueva tabla externa, y los archivos se crearán en el origen de datos remoto en función de los resultados de la instrucción SELECT. Puede usar este método para exportar los datos de SQL Server a archivos de un origen de datos remoto.

Nueva compatibilidad con el formato de archivo nativo

SQL Server permite crear un formato de archivo para definir la estructura de un archivo en un origen de datos remoto. Por ejemplo, puede usar formatos de archivo para definir la estructura de un archivo JSON, ya que JSON no es un formato de archivo compatible nativo. SQL Server 2022 ahora reconoce formatos de archivo nativos Parquet y tablas delta.

  • Parquet

    Parquet es un formato de archivo binario de código abierto con el esquema integrado en el archivo. Los archivos Parquet usan un formato de almacenamiento en columnas, por lo que son eficaces para la compresión y recuperación. Para obtener más información y ejemplos, consulte Virtualización del archivo parquet en un almacenamiento de objetos compatible con S3 con PolyBase.

  • Tablas delta

    Delta Lake es una arquitectura de almacenamiento de código abierto mediante tablas delta. Las tablas delta son archivos basados en parquet, pero también ofrecen compatibilidad básica con transacciones y registros. Para obtener más información sobre cómo usar tablas delta con Azure Data Lake Storage, consulte Virtualizar tabla delta con PolyBase.

Copia de seguridad y restauración con proveedores de almacenamiento de objetos compatible con S3

SQL Server 2022 amplía las instrucciones T-SQL BACKUP TO URL y RESTORE FROM URL para admitir proveedores de almacenamiento de objetos compatible con S3. La mayoría de las opciones de copia de seguridad y restauración están disponibles con esta nueva funcionalidad. Para obtener más información, consulte Copia de seguridad en URL de SQL Server para el almacenamiento de objetos compatible con S3.

Para obtener una lista de proveedores de almacenamiento de objetos compatible con S3 comunes, consulte Proveedores de almacenamiento de objetos compatible con S3.

Prueba de conocimientos

1.

Para qué tipo de orígenes de datos usa SQL Server 2022 la API de REST para proporcionar virtualización de datos

2.

Qué formato de archivo popular para lagos de datos admite ahora la virtualización de datos de SQL Server 2022