Introducción a PolyBase
- 8 minutos
PolyBase es la característica que usa SQL Server para habilitar el concepto de virtualización de datos. PolyBase se publicó originalmente en SQL Server 2016 y se ha mejorado en cada una de las versiones posteriores de SQL Server. Sin embargo, el concepto general de acceso remoto a los datos sin necesidad de copiarlos se remonta a SQL Server 7.0 con la introducción del servidor vinculado.
En la tabla siguiente, se muestra la primera versión de SQL Server que admite varias características de PolyBase.
| SQL Server 2016 | SQL Server 2017 | SQL Server 2019 | SQL Server 2025 |
|---|---|---|---|
| • Hadoop • Almacenamiento de blobs de Azure |
• Mejoras de OPENROWSET • CSV para Azure Blob Storage • Credencial con ámbito de base de datos |
• SQL Server •Oráculo • Azure Cosmos DB • MongoDB • Teradata • Compatibilidad con Linux • ODBC genérico |
• Nuevo marco de conector • Integración del almacenamiento de objetos • CSV •Parquet •Delta • CETAS |
Para obtener más información sobre PolyBase, consulte Características y limitaciones de PolyBase.
Mejoras de PolyBase en SQL Server 2025
Compatibilidad nativa con CSV, Parquet y Delta 1: El servicio de consultas de PolyBase para la instalación de datos externos ya no es necesario para usar OPENROWSET, CREATE EXTERNAL TABLE o CREATE EXTERNAL TABLE AS SELECT con los siguientes tipos de datos externos: Parquet, Delta, Azure Blob Storage (ABS), Azure Data Lake Storage (ADLS) o S3-Compatible Almacenamiento de objetos.
Uso de orígenes de datos ODBC genéricos en Linux: para obtener más información, consulte Configuración de PolyBase para acceder a datos externos con tipos genéricos ODBC.
Compatibilidad con TDS 8.0: al usar Microsoft ODBC Driver 18 para SQL Server, TDS 8.0 no se admite para SQL Server como origen de datos externo.
Almacenamiento de objetos compatible con S3
SQL Server 2025 admite el almacenamiento de objetos compatible con S3. Para habilitar esta integración, SQL Server 2025 usa una arquitectura de marco de conector de API REST que sigue al marco S3. Cualquier almacenamiento de objetos que admita el marco S3 también funciona con SQL Server 2025. Las soluciones de almacenamiento de objetos compatibles con S3 se pueden ejecutar localmente, en la red, en la nube o en un entorno híbrido.
El almacenamiento de objetos, también conocido como almacenamiento basado en objetos, es una estrategia que administra y manipula el almacenamiento de datos como unidades distintas, denominadas objetos. Estos objetos se mantienen en un único almacén y no están incrustados en archivos dentro de otras carpetas. En cambio, el almacenamiento de objetos combina las piezas de datos que componen un archivo, agrega todos los metadatos pertinentes a ese archivo y le adjunta un identificador personalizado.
Algunas características principales del almacenamiento de objetos en comparación con un sistema de archivos tradicional son las siguientes:
- Mantiene los metadatos insertados en el archivo.
- Permite que los archivos tengan atributos como etiquetas.
- Más rentable para el escalado y un mantenimiento más sencillo.
- Optimizado para grandes cantidades de datos, como macrodatos, Internet de las cosas (IoT), IA, aprendizaje automático y análisis.
- No se recomienda para cargas de trabajo con un elevado nivel de transacciones o de procesamiento de transacciones en línea (OLTP).
También puede usar el almacenamiento de objetos compatible con S3 para escenarios de copia de seguridad y restauración mediante el comando BACKUP TO URL. Para más información, consulte Copia de seguridad y restauración de SQL Server con almacenamiento de objetos compatible con S3.
Amazon Web Services (AWS) estableció el marco estándar de S3 y los principales proveedores de almacenamiento, como Cloudian, Dell, MinIO y PureStorage ahora ofrecen soluciones de almacenamiento de objetos compatibles con S3. Si una solución ofrece compatibilidad con las API REST de S3, es compatible con SQL Server 2025.
Para obtener más información sobre las ventajas, la instalación y las pruebas del almacenamiento de objetos, consulte la siguiente documentación de los asociados de almacenamiento. Para obtener más información sobre los proveedores de almacenamiento de objetos, consulte Proveedores de almacenamiento de objetos compatible con S3.
- Cloudian HyperStore
- Dell Isildon OneFS
- Dell ECS Community Edition
- Hitachi Hitachi Content Platform (HCP)
- MinIO Almacenamiento de objetos de varias nubes
- Pure Storage Pure FlashBlade.
Algunos asociados de almacenamiento de objetos ofrecen la capacidad de ejecutar su solución como un software capaz de virtualizar el almacenamiento actual. Puede instalar y probar estas soluciones en su propia máquina o máquina virtual (VM).
Servicios de PolyBase en comparación con la característica de API REST de PolyBase
Para usar PolyBase, debe instalar el Servicio de consultas de PolyBase para datos externos y habilitar PolyBase en el nivel de instancia mediante sp_configure. El programa de instalación de PolyBase instala dos servicios de PolyBase, sql Server PolyBase Engine y movimiento de datos de SQL Server PolyBase.
Motor de SQL Server PolyBase
- Ejecutable del servicio:
mpdwsvc.exe -dweng - Analiza las consultas.
- Genera planes de consulta.
- Distribuye el trabajo a los nodos de ejecución (SQL Server 2019).
- Procesa los resultados de los nodos de ejecución y los devuelve al cliente (SQL Server 2019).
- Ejecutable del servicio:
Movimiento de datos de SQL Server PolyBase
- Ejecutable del servicio:
mpdwsvc.exe -dms - Transfiere datos entre orígenes de datos externos y entre nodos principales y de ejecución de PolyBase (SQL Server 2019).
- Inserta datos en otros orígenes de datos, como Azure Storage.
- Ejecutable del servicio:
Los orígenes de datos como SQL Server, Oracle, MongoDB y los orígenes basados en ODBC usan estos servicios de PolyBase. Los orígenes de datos que usan la arquitectura de PolyBase basada en la API REST de SQL Server 2025 no requieren que estos servicios se ejecuten o configuren, pero el servicio de consultas de PolyBase para datos externos debe estar instalado y habilitado.
Puede usar las API REST de PolyBase para acceder a Azure Data Lake Storage, Azure Blob Storage, cualquier almacenamiento de objetos compatible con S3 y formatos de archivo como Parquet, Delta y archivos CSV. Los orígenes de datos admitidos anteriormente todavía usan los servicios Motor de SQL Server PolyBase y Movimiento de datos de SQL Server PolyBase.
| Origen de datos | Servicios de PolyBase | Característica de API REST de PolyBase |
|---|---|---|
| Azure Blob Storage (Servicio de almacenamiento de blobs de Azure) |
|
|
| Azure Data Lake Storage |
|
|
| Almacenamiento de objetos compatible con S3 |
|
|
| Servidor SQL |
|
|
| Oráculo |
|
|
| Teradatos |
|
|
| MongoDB o la API de Azure Cosmos DB para MongoDB |
|
|
| Conectividad abierta de bases de datos (ODBC) genérica |
|
|
| Operaciones masivas |
|
|