Opções de Big Data na plataforma do Microsoft SQL Server

Aplica-se a: SQL Server 2019 (15.x) e versões posteriores

Em 28 de fevereiro de 2025, os Clusters de Big Data do SQL Server 2019 foram desativados. Para saber mais, confira a postagem no blog sobre o anúncio.

Alterações no suporte ao PolyBase no SQL Server

Relacionados à descontinuação dos Clusters de Big Data do SQL Server 2019 estão alguns recursos relacionados às consultas de expansão.

A funcionalidade de grupos de escala horizontal do PolyBase do Microsoft SQL Server foi desativada. A funcionalidade do grupo de scale-out foi removida do produto no SQL Server 2022 (16.x). As versões do SQL Server 2019, SQL Server 2017 e SQL Server 2016 que estão no mercado continuarão a dar suporte à funcionalidade até o fim da vida útil desses produtos. A virtualização de dados do PolyBase continua com suporte total como um recurso de expansão no SQL Server.

As fontes de dados externas do Hadoop Cloudera (CDP) e do Hortonworks (HDP) também serão desativadas para todas as versões comercializadas do SQL Server e não estão incluídas no SQL Server 2022. O suporte a fontes de dados externas está limitado às versões do produto no suporte base do respectivo fornecedor. Recomendamos que você use a nova integração de armazenamento de objetos disponível no SQL Server 2022 (16.x).

No SQL Server 2022 (16.x) e versões posteriores, os usuários devem configurar as fontes de dados externas para usar os novos conectores ao se conectarem ao Armazenamento do Azure. A tabela a seguir resume a mudança:

Fonte de dados externa	From	To
Armazenamento de Blobs do Azure	`wasb[s]`	`abs`
ADLS Gen 2	`abfs[s]`	`adls`

Note

O Armazenamento de Blobs do Azure (abs) exigirá o uso da SAS (Assinatura de Acesso Compartilhado) para o SECRET na credencial com escopo de banco de dados. No SQL Server 2019 e anteriores, o conector wasb[s] usava a Chave da Conta de Armazenamento com a credencial com escopo de banco de dados ao realizar a autenticação na conta de Armazenamento do Azure.

Noções básicas sobre a arquitetura de Clusters de Big Data para opções de substituição e migração

Para criar sua solução de substituição para um sistema de processamento e armazenamento de Big Data, é importante entender o que os Clusters de Big Data do SQL Server 2019 forneceram e sua arquitetura pode ajudar a informar suas escolhas. A arquitetura de um cluster de Big Data foi:

Essa arquitetura forneceu o seguinte mapeamento de funcionalidade:

Component	Benefit
Kubernetes	Orquestrador de código aberto para implantar e gerenciar aplicativos baseados em contêiner em escala. Fornece um método declarativo para criar e controlar a resiliência, redundância e portabilidade para todo o ambiente com escala elástica.
Controlador de Clusters de Big Data	Fornece gerenciamento e segurança para o cluster. Ele contém o serviço de controle, o repositório de configurações e outros serviços no nível do cluster, como Kibana, Grafana e Pesquisa Elástica.
Pool de Computação	Fornece recursos computacionais para o cluster. Ele contém nós que rodam o SQL Server em pods no Linux. Os pods no grupo de computação são divididos em SQL Compute instances para tarefas de processamento específicas. Esse componente também fornece a Virtualização de Dados usando o PolyBase para consultar fontes de dados externas sem mover ou copiar os dados.
Pool de dados	Fornece persistência de dados para o cluster. O pool de dados é composto por um ou mais pods em execução no SQL Server em Linux. Ele é usado para ingerir dados de consultas SQL ou de trabalhos do Spark.
Pool de armazenamento	O pool de armazenamento é constituído por pods de armazenamento que incluem SQL Server em Linux, Spark e HDFS. Todos os nós de armazenamento em um cluster de Big Data são membros de um cluster HDFS.
Pool de aplicativos	Permite a implantação de aplicativos em um cluster de Big Data ao fornecer interfaces para criar, gerenciar e executar aplicativos.

Para saber mais sobre essas funções, confira Introdução a Clusters de Big Data do SQL Server.

Opções de substituição de funcionalidade para Big Data e SQL Server

A função de dados operacionais facilitada pelo SQL Server dentro dos Clusters de Big Data pode ser substituída pelo SQL Server local em uma configuração híbrida ou usando a plataforma do Microsoft Azure. O Microsoft Azure oferece uma opção de bancos de dados relacionais, NoSQL e na memória totalmente gerenciados, abrangendo mecanismos proprietários e de código-fonte aberto, para atender às necessidades dos desenvolvedores de aplicativos modernos. O gerenciamento de infraestrutura — incluindo escalabilidade, disponibilidade e segurança — é automatizado, economizando tempo e dinheiro, e permite que você se concentre na criação de aplicativos enquanto os bancos de dados gerenciados pelo Azure tornam seu trabalho mais simples, identificando o desempenho de informações por meio de inteligência incorporada, dimensionamento sem limites e gerenciamento de ameaças à segurança. Para saber mais, confira Bancos de dados do Azure.

O próximo ponto de decisão são os locais de computação e armazenamento de dados para análise. As duas opções de arquitetura são implantações híbridas e na nuvem. A maioria das cargas de trabalho analíticas pode ser migrada para a plataforma do Microsoft Azure. Os dados "nascidos na nuvem" (originados em aplicativos baseados na nuvem) são os principais candidatos a essas tecnologias, e os serviços de movimentação de dados podem migrar dados locais de grande escala com segurança e rapidez. Para saber mais sobre opções de movimentação de dados, confira Soluções de transferência de dados.

O Microsoft Azure tem sistemas e certificações que permitem processamento de dados e dados seguros em diversas ferramentas. Para saber mais sobre as certificações da Microsoft, confira a Central de Confiabilidade.

Note

A plataforma do Microsoft Azure fornece um nível muito alto de segurança, várias certificações para vários setores e honra a soberania de dados para os requisitos governamentais. O Microsoft Azure também tem uma plataforma de nuvem dedicada para cargas de trabalho do governo. A segurança sozinha não deve ser o ponto de decisão principal para sistemas locais. Você deve avaliar cuidadosamente o nível de segurança fornecido por Microsoft Azure antes de decidir manter suas soluções de Big Data no local.

Na opção arquitetura na nuvem, todos os componentes residem no Microsoft Azure. Sua responsabilidade está com os dados e o código que você cria para armazenamento e processamento de suas cargas de trabalho. Esses tópicos serão abordados em mais detalhes mais adiante neste artigo.

Essa opção funciona melhor em uma ampla variedade de componentes para armazenamento e processamento de dados e quando você deseja se concentrar em construções de dados e processamento em vez de infraestrutura.

Nas opções de arquitetura híbrida, alguns componentes são mantidos no local e outros são colocados em um Provedor de Nuvem. A conectividade entre os dois foi projetada para o melhor posicionamento do processamento sobre dados.

Essa opção funciona melhor quando você tem um investimento considerável em tecnologias e arquiteturas locais, mas deseja usar as ofertas de Microsoft Azure, ou quando você tem os destinos de processamento e de aplicativo residindo localmente ou para um público-alvo mundial.

Para saber mais sobre a criação de arquiteturas escalonáveis, confira Criar um sistema escalonável para grandes quantidades de dados.

In-cloud

SQL do Azure mais Azure Machine Learning

Você pode substituir a funcionalidade de Clusters de Big Data do SQL Server usando uma ou mais opções de banco de dados SQL do Azure para os dados operacionais e Microsoft Azure Machine Learning para suas cargas de trabalho preditivas.

O Azure Machine Learning é um serviço baseado na nuvem que pode ser usado para qualquer tipo de aprendizado de máquina, desde o ML clássico até o aprendizado profundo e o aprendizado supervisionado e não supervisionado. Se você preferir escrever o código Python ou R com o SDK ou trabalhar com as opções sem código/com pouco código no estúdio, poderá criar, treinar e acompanhar modelos de machine learning e aprendizado profundo em um Workspace do Azure Machine Learning. Com o Azure Machine Learning, você pode começar a treinar em seu computador local e, em seguida, escalar horizontalmente para a nuvem. O serviço também interopera com ferramentas populares de software livre de aprendizado profundo e reforço como o PyTorch, TensorFlow, scikit-learn e Ray RLlib.

Use Microsoft Azure Machine Learning como uma alternativa aos Clusters de Big Data do SQL Server 2019 quando precisar:

Um ambiente da Web baseado em designer para o Machine Learning: arraste e solte os módulos para criar seus experimentos e implante pipelines em um ambiente com pouco código.
Notebooks Jupyter: use nossos notebooks de exemplo ou crie seus próprios notebooks para usar nossas amostras de SDK para Python em seu aprendizado de máquina.
Scripts ou notebooks R nos quais você usa o SDK para R para escrever seu próprio código ou para utilizar os módulos do R no designer.
O Acelerador de Solução de Muitos Modelos é baseado no Azure Machine Learning e permite treinar, operar e gerenciar centenas ou até milhares de modelos de aprendizado de máquina.
As extensões de aprendizado de máquina para o Visual Studio Code (versão preliminar) fornece um ambiente de desenvolvimento completo para criar e gerenciar seus projetos de aprendizado de máquina.
A CLI (interface de linha de comando) do Machine Learning, Azure Machine Learning, inclui uma extensão da CLI do Azure que fornece comandos para gerenciar recursos com o Azure Machine Learning usando a linha de comando.
Integração com estruturas de software livre, como PyTorch, TensorFlow e scikit-learn, entre muitos outros, para treinamento, implantação e gerenciamento do processo de machine learning de ponta a ponta.
Aprendizado de reforço com o Ray RLlib.
MLflow para rastrear métricas e implantar modelos ou Kubeflow para construir pipelines de fluxo de trabalho de ponta a ponta.

A arquitetura de uma implantação do Microsoft Azure Machine Learning é a seguinte:

Diagrama que mostra a arquitetura do Azure Machine Learning de um espaço de trabalho e seus componentes.

Para saber mais sobre o Microsoft Azure Machine Learning, confira Como o Azure Machine Learning funciona.

SQL do Azure no Databricks

Você pode substituir a funcionalidade dos Clusters de Big Data do SQL Server usando uma ou mais opções de banco de dados SQL do Azure para os dados operacionais e o Microsoft Azure Databricks para as suas cargas de trabalho analíticas.

O Azure Databricks é uma plataforma de análise de dados otimizada para a plataforma de Serviços de Nuvem do Microsoft Azure. Ele oferece dois ambientes para o desenvolvimento de aplicativos com uso intensivo de dados: a Análise de SQL e o Workspace do Azure Databricks.

A Análise de SQL do Azure Databricks fornece uma plataforma fácil de usar para analistas que desejam executar consultas SQL em data lakes, criar vários tipos de visualização para explorar os resultados da consulta de diferentes perspectivas, bem como criar e compartilhar painéis.

O Workspace do Azure Databricks fornece um workspace interativo que permite a colaboração entre engenheiros de dados, cientistas de dados e engenheiros de machine learning. Para um pipeline de Big Data, os dados (brutos ou estruturados) são ingeridos no Azure por meio do Azure Data Factory em lotes, ou transmitidos quase em tempo real usando Apache Kafka, Event Hubs ou IoT Hub. Esses dados chegam em um data lake para armazenamento persistente de longo prazo, no Azure Blob Storage ou no Azure Data Lake Storage. Como parte do seu fluxo de trabalho de análise, use o Azure Databricks para ler dados de várias fontes de dados e transformá-los em insights inovadores usando o Spark.

Use Microsoft Azure Databricks em substituição a SQL Server 2019 Big Data Clusters quando precisar:

Clusters Spark totalmente gerenciados com Spark SQL e DataFrames.
Streaming para processamento de dados em tempo real e análise para aplicativos analíticos e interativos, integração com HDFS, Flume e Kafka.
Acesso à biblioteca MLlib, que consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, clustering, filtragem colaborativa, redução de dimensionalidade e primitivos de otimização subjacente.
Documentação do seu progresso em notebooks em R, Python, Scala ou SQL.
Visualização de dados em algumas etapas, usando ferramentas familiares como Matplotlib, ggplot ou d3.
Use painéis interativos para criar relatórios dinâmicos.
GraphX, para Grafos e computação de grafos para um amplo escopo de casos de uso desde análise cognitiva até exploração de dados.
Criação de clusters em segundos, com clusters dinâmicos de escalonamento automático, compartilhados entre equipes.
Acesso de cluster programático usando APIs REST.
Acesso instantâneo para os recursos mais recentes do Apache Spark com cada versão.
API Principal do Spark: inclui suporte para R, SQL, Python, Scala e Java.
Um espaço de trabalho interativo para exploração e visualização.
Endpoints SQL totalmente gerenciados na nuvem.
Consultas SQL que são executadas em endpoints SQL totalmente gerenciados, dimensionados conforme a latência da consulta e o número de usuários simultâneos.
Integração com o Microsoft Entra ID (antigo Azure Active Directory).
Acesso baseado em funções para permissões detalhadas para usuários em notebooks, clusters, trabalhos e dados.
SLAs de nível empresarial.
Painéis permitem combinar visualizações e texto para compartilhar descobertas extraídas de suas consultas.
Os alertas ajudam a monitorar e integrar, fornecendo notificações quando um campo retornado por uma consulta atende a um limite. Use alertas para monitorar seus negócios ou integre-os a ferramentas para iniciar fluxos de trabalho, como tíquetes de suporte ou integração de usuários.
Segurança de classe empresarial, incluindo integração do Microsoft Entra ID, controles baseados em função e SLAs que protegem seus dados e seus negócios.
Integração com serviços do Azure e bancos de dados e armazenamentos do Azure, incluindo Synapse Analytics, Cosmos DB, Data Lake Store e Armazenamento de Blobs.
Integração com o Power BI e outras ferramentas de BI, como o Tableau Software.

A arquitetura de uma implantação do Microsoft Azure Databricks é a seguinte:

Diagrama: arquitetura de um espaço de trabalho do Azure Databricks e seus componentes e fluxos de dados, de pessoas a aplicativos.

Para saber mais sobre o Microsoft Azure Databricks, confira O que é o Databricks Data Science & Engineering?

Hybrid

Espelhamento no Microsoft Fabric

Como uma experiência de replicação de dados, o Espelhamento de Banco de Dados no Fabric é uma solução de baixos custos e baixa latência para reunir dados de vários sistemas em uma única plataforma analítica. Você pode replicar continuamente seu patrimônio de dados existente diretamente no OneLake do Fabric, incluindo dados do SQL Server 2016+, banco de dados SQL do Azure, Instância Gerenciada de SQL do Azure, Oracle, Snowflake, Cosmos DB e muito mais.

Com os dados mais atualizados em formato consultável no OneLake, agora você pode usar todos os diferentes serviços do Fabric, como execução de análises com Spark, execução de notebooks, engenharia de dados, visualização por meio de relatórios do Power BI e muito mais.

O espelhamento no Fabric proporciona uma experiência simplificada que acelera o tempo para gerar valor a partir de insights e decisões, além de eliminar silos de dados entre soluções tecnológicas, sem a necessidade de desenvolver processos caros de ETL (Extração, Transformação e Carregamento) para movimentar dados.

Com o Espelhamento no Fabric, você não precisa reunir diferentes serviços de vários fornecedores. Em vez disso, você pode desfrutar de um produto altamente integrado, de ponta a ponta e fácil de usar, projetado para simplificar suas necessidades analíticas e desenvolvido para abertura e colaboração entre soluções de tecnologia que podem ler o formato de tabela de código aberto do Delta Lake.

Para saber mais, veja:

O Microsoft SQL Server no Windows, Apache Spark e armazenamento de objetos local

Você pode instalar o SQL Server no Windows ou no Linux e escalar verticalmente a arquitetura de hardware, usando o recurso de consulta do armazenamento de objetos do SQL Server 2022 (16.x) e o recurso PolyBase para habilitar as consultas em todos os dados no seu sistema.

Instalar e configurar uma plataforma de expansão, como Apache Hadoop ou Apache Spark, permite consultar dados não relacionais em escala. O uso de um conjunto central de sistemas de Armazenamento de Objetos que dê suporte à API do S3 permite que o SQL Server 2022 (16.x) e o Spark acessem o mesmo conjunto de dados em todos os sistemas.

Você também pode usar o sistema de orquestração de contêiner Kubernetes para sua implantação. Isso permite uma arquitetura declarativa que pode ser executada localmente ou em qualquer Nuvem que dê suporte a Kubernetes ou à plataforma Red Hat OpenShift. Para saber mais sobre como implantar o SQL Server em um ambiente Kubernetes, confira Implantar um cluster de contêiner SQL Server no Azure ou assista a Implantação do SQL Server 2019 no Kubernetes.

Use SQL Server e Hadoop/Spark local como uma substituição aos Clusters de Big Data do SQL Server 2019 quando precisar:

Manter toda a solução no local
Usar hardware dedicado para todas as partes da solução
Acessar dados relacionais e não relacionais da mesma arquitetura, em ambas as direções
Compartilhar um único conjunto de dados não relacionais entre o SQL Server e o sistema não relacional de expansão

Realizar a migração

Depois de escolher um local (na Nuvem ou Híbrido) para sua migração, você deverá avaliar o tempo de inatividade e os vetores de custo para determinar se você executará um novo sistema e moverá os dados do sistema anterior para o novo em tempo real (migração lado a lado) ou um backup e uma restauração, ou um novo início do sistema de fontes de dados existentes (migração in-loco).

Sua próxima decisão será reescrever a funcionalidade atual no seu sistema usando a nova opção de arquitetura ou mover o máximo possível do código para o novo sistema. Embora a escolha anterior possa levar mais tempo, ela permitirá que você use os novos métodos, conceitos e vantagens que a nova arquitetura fornece. Nesse caso, o acesso a dados e os mapas de funcionalidade são os principais esforços de planejamento nos quais você deve se concentrar.

Se você planeja migrar o sistema atual com o mínimo de alteração de código possível, a compatibilidade de idioma é seu foco principal para o planejamento.

Migração de código

A próxima etapa é auditar o código que o sistema atual usa e saber quais alterações precisam ser executadas no novo ambiente.

Há dois vetores principais para a migração de código a considerar:

Fontes e coletores
Migração de funcionalidade

Fontes e coletores

A primeira tarefa na migração de código é identificar os métodos de conexão de fonte de dados, cadeias de caracteres ou APIs que o código usa para acessar os dados que são importados, seu caminho e seu destino final. Documente essas fontes e crie um mapa para os locais da nova arquitetura.

Se a solução atual estiver usando um sistema de pipeline para mover os dados por meio do sistema, mapeie as novas fontes, etapas e destinos da arquitetura para os componentes do pipeline.
Se a nova solução também estiver substituindo a arquitetura do pipeline, trate o sistema como uma nova instalação para fins de planejamento, mesmo se você estiver reutilizando o hardware ou a plataforma de nuvem como a substituição.

Migração de funcionalidade

O trabalho mais complexo necessário em uma migração é fazer referência, atualizar ou criar a documentação da funcionalidade do sistema atual. Se você estiver planejando uma atualização no local e tentar reduzir a quantidade de reescrita de código o máximo possível, essa etapa é a que leva mais tempo.

No entanto, uma migração de uma tecnologia anterior geralmente é um momento ideal para se atualizar quanto aos avanços mais recentes em tecnologia e aproveitar os recursos que ela oferece. Muitas vezes, você pode obter mais segurança, desempenho, opções de recursos e até mesmo otimizações de custo por uma regravação do seu sistema atual.

Em ambos os casos, você tem dois fatores principais envolvidos na migração: o código e os idiomas aos quais o novo sistema dá suporte e as escolhas em relação à movimentação de dados. Normalmente, você deve ser capaz de alterar as cadeias de conexão do cluster de Big Data atual para a instância do SQL Server e o ambiente do Spark. Todas as informações de conexão de dados e a transferência de código devem ser mínimas.

Se você estiver prevendo uma regravação de sua funcionalidade atual, mapeie as novas bibliotecas, pacotes e DLLs para a arquitetura escolhida para a sua migração. Você encontrará uma lista de cada uma das bibliotecas, linguagens e funções que cada solução oferece nas referências de documentação mostradas nas seções anteriores. Mapeie quaisquer idiomas suspeitos ou sem suporte e planeje a substituição com a arquitetura escolhida.

Opções de migração de dados

Há duas abordagens comuns para a movimentação de dados em um sistema analítico em larga escala. A primeira é criar um processo de "transferência" onde o sistema original continua processando dados e esses dados são acumulados em um conjunto menor de fontes de dados de relatório agregadas. O novo sistema é iniciado com dados atualizados e é usado da data da migração em diante.

Em alguns casos, todos os dados precisam ser movidos do sistema herdado para o novo sistema. Nesse caso, você poderá montar os armazenamentos de arquivos originais dos Clusters de Big Data do SQL Server se o novo sistema oferecer suporte e, em seguida, copiar os dados em partes para o novo sistema, ou pode optar por uma transferência física.

Migrar seus dados atuais dos Clusters de Big Data do SQL Server 2019 para outro sistema depende altamente de dois fatores: a localização dos dados atuais e se o destino é local ou na nuvem.

Migração de dados local

Para migrações de no local para no local, você pode migrar os dados do SQL Server com uma estratégia de backup e restauração ou pode configurar a replicação para mover alguns ou todos os dados relacionais. O SQL Server Integration Services também pode ser usado para copiar dados de SQL Server para outro local. Para saber mais sobre como mover dados com SSIS, confira SQL Server Integration Services.

Para os dados do HDFS no atual ambiente do Cluster de Big Data do SQL Server, a abordagem padrão é conectar os dados a um Cluster do Spark autônomo e usar o processo de Armazenamento de Objetos para mover os dados para que uma instância do SQL Server 2022 (16.x) possa acessá-los ou deixá-los como estão e continuar processando-os com as tarefas do Spark.

Migração de dados na nuvem

Para dados localizados no armazenamento em nuvem ou no local, você pode usar o Azure Data Factory, que tem mais de 90 conectores para um pipeline completo de transferência, com agendamento, monitoramento, alertas e outros serviços. Para saber mais sobre o Azure Data Factory, confira O que é o Azure Data Factory?

Se você quiser mover grandes quantidades de dados com segurança e rapidez do seu estado de dados local para o Microsoft Azure, poderá usar o serviço de Importação/Exportação do Azure. O serviço de Importação/Exportação do Azure permite transferir com segurança grandes quantidades de dados para o armazenamento de blobs do Azure e Arquivos do Azure por meio do envio de unidades de disco rígido para um data center do Azure. Este serviço também pode ser usado para transferir dados do armazenamento de Blobs do Azure para as unidades de disco e enviar para seu site local. Os dados de uma ou mais unidades de disco podem ser importados para o armazenamento de Blobs do Azure ou para os Arquivos do Azure. Para quantidades muito grandes de dados, o uso desse serviço pode ser o caminho mais rápido.

Se você quiser transferir dados usando unidades de disco fornecidas pela Microsoft, é possível usar o Azure Data Box Disk para importar dados para o Azure. Para saber mais, confira O que é o serviço de Importação/Exportação do Azure?

Para saber mais sobre essas opções e as decisões que as acompanham, confira Uso do Azure Data Lake Storage Gen1 para requisitos de Big Data.

Comentários

Esta página foi útil?

Last updated on 2025-11-18