Introdução ao PolyBase
- 8 minutos
PolyBase é o recurso que o SQL Server usa para habilitar o conceito de virtualização de dados. O PolyBase foi lançado originalmente no SQL Server 2016 e foi aprimorado em cada versão posterior do SQL Server. No entanto, o conceito geral de aceder a dados remotamente sem necessidade de os copiar remonta ao SQL Server 7.0 com a introdução do Linked Server.
A tabela a seguir lista a primeira versão do SQL Server para oferecer suporte a vários recursos do PolyBase.
| SQL Server 2016 | SQL Server 2017 | SQL Server 2019 | SQL Server 2025 |
|---|---|---|---|
| • Hadoop • Armazenamento de Blobs do Azure |
• Melhorias no OPENROWSET • CSV para Armazenamento de Blobs do Azure • Credencial com escopo de banco de dados |
• SQL Server • Oráculo • Azure Cosmos DB • MongoDB • Teradata • Suporte Linux • ODBC genérico |
• Nova estrutura de conector • Integração de armazenamento de objetos • CSV • Parquet • Delta • CETAS |
Para obter mais informações sobre o PolyBase, consulte recursos e limitações do PolyBase.
Aprimoramentos do PolyBase no SQL Server 2025
Suporte nativo para CSV, Parquet, & Delta 1: A instalação do Serviço de Consulta PolyBase para Dados Externos não é mais necessária para usar OPENROWSET, CREATE EXTERNAL TABLE ou CREATE EXTERNAL TABLE AS SELECT com os seguintes tipos de dados externos: Parquet, Delta, Azure Blob Storage (ABS), Azure Data Lake Storage (ADLS) ou S3-Compatible Object storage.
Usar fontes de dados ODBC genéricas no Linux: Para obter mais informações, consulte Configurar o PolyBase para acessar dados externos com tipos genéricos ODBC.
Suporte a TDS 8.0: Ao usar o Microsoft ODBC Driver 18 para SQL Server, o TDS 8.0 não tem suporte para o SQL Server como uma fonte de dados externa.
Armazenamento de objetos compatível com S3
O SQL Server 2025 oferece suporte ao armazenamento de objetos compatíveis com o S3. Para habilitar essa integração, o SQL Server 2025 usa uma arquitetura de estrutura de conector de API REST que segue a estrutura do S3. Qualquer armazenamento de objetos que ofereça suporte à estrutura do S3 também funciona com o SQL Server 2025. As soluções de armazenamento de objetos compatíveis com o S3 podem ser executadas localmente, em sua rede, na nuvem ou em um ambiente híbrido.
O armazenamento de objetos, também conhecido como armazenamento baseado em objetos, é uma estratégia que gerencia e manipula o armazenamento de dados como unidades distintas, chamadas objetos. Esses objetos são mantidos em um único armazém e não estão enraizados em arquivos dentro de outras pastas. Em vez disso, o armazenamento de objetos combina as partes de dados que compõem um arquivo, adiciona todos os metadados relevantes a esse arquivo e anexa um identificador personalizado.
Algumas das principais características do armazenamento de objetos em comparação com um sistema de arquivos tradicional são:
- Mantém metadados incorporados no arquivo.
- Permite que os arquivos tenham atributos como tags.
- Mais rentável para dimensionar e mais fácil de manter.
- Otimizado para grandes quantidades de dados, como Big Data, Internet das Coisas (IoT), IA, Machine Learning e análises.
- Não recomendado para cargas de trabalho de processamento de transações online (OLTP) de altas transações.
Você também pode usar o armazenamento de objetos compatível com o S3 para cenários de backup e restauração usando o comando BACKUP TO URL. Para obter mais informações, consulte backup e restauração do SQL Server com armazenamento de objetos compatível com o S3.
A Amazon Web Services (AWS) estabeleceu a estrutura padrão do S3, e os principais provedores de armazenamento, como Cloudian, Dell, MinIO e PureStorage, agora oferecem soluções de armazenamento de objetos compatíveis com o S3. Se uma solução oferecer compatibilidade com APIs REST do S3, ela será compatível com o SQL Server 2025.
Para obter mais informações sobre benefícios, instalação e teste de armazenamento de objetos, consulte a documentação do parceiro de armazenamento a seguir. Para obter mais provedores de armazenamento de objetos, consulte Provedores dede armazenamento de objetos compatíveis com o S3.
- Nublado Hiperloja
- Dell Isilon OneFS
- Dell ECS Edição Comunitária
- Hitachi Plataforma de conteúdo Hitachi (HCP)
- MinIO Armazenamento de Objetos Multi-Nuvem
- Armazenamento puro FlashBlade puro.
Alguns parceiros de armazenamento de objetos oferecem a capacidade de executar sua solução como software capaz de virtualizar seu armazenamento atual. Você pode instalar e experimentar essas soluções em sua própria máquina ou máquina virtual (VM).
Serviços PolyBase vs. o recurso PolyBase REST API
Para usar o PolyBase, você deve instalar o PolyBase Query Service for External Data e habilitar o PolyBase em um nível de instância usando sp_configure. A instalação do PolyBase instala dois serviços PolyBase, SQL Server PolyBase Engine e SQL Server PolyBase Data Movement.
Mecanismo PolyBase do SQL Server
- Executável do serviço:
mpdwsvc.exe -dweng - Analisa consultas.
- Gera planos de consulta.
- Distribui trabalho para nós de computação (SQL Server 2019).
- Processa os resultados do nó de computação e devolve-os ao cliente (SQL Server 2019).
- Executável do serviço:
Movimentação de Dados do SQL Server PolyBase
- Executável do serviço:
mpdwsvc.exe -dms - Transfere dados entre fontes de dados externas e entre o nó principal do PolyBase e os nós de computação (SQL Server 2019).
- Insere dados em outras fontes de dados, como o Armazenamento do Azure.
- Executável do serviço:
Fontes de dados como SQL Server, Oracle, MongoDB ou fontes baseadas em ODBC usam esses serviços PolyBase. As fontes de dados que usam a arquitetura PolyBase baseada em API REST do SQL Server 2025 não exigem que esses serviços estejam em execução ou configurados, mas o Serviço de Consulta PolyBase para Dados Externos ainda deve ser instalado e habilitado.
Você pode usar as APIs REST do PolyBase para acessar o Armazenamento Azure Data Lake, o Armazenamento de Blobs do Azure, qualquer armazenamento de objetos compatível com o S3 e formatos de arquivo, como arquivos Parquet, Delta e CSV. As fontes de dados anteriormente suportadas ainda usam os serviços SQL Server PolyBase Engine e de movimentação de dados do SQL Server PolyBase.
| Fonte de dados | Serviços PolyBase | Recurso da API REST do PolyBase |
|---|---|---|
| Armazenamento de Blobs do Azure |
|
|
| Azure Data Lake Storage |
|
|
| Armazenamento de objetos compatível com S3 |
|
|
| SQL Server |
|
|
| Oráculo |
|
|
| Teradata |
|
|
| MongoDB ou API do Azure Cosmos DB para MongoDB |
|
|
| Conectividade de banco de dados aberto genérico (ODBC) |
|
|
| Operações em massa |
|
|