Guia do runtime dos Clusters de Big Data do SQL Server para Apache Spark

Artigo
03/22/2023

Aplica-se a: SQL Server 2019 (15.x)

Importante

O complemento Clusters de Big Data do Microsoft SQL Server 2019 será desativado. O suporte para Clusters de Big Data do SQL Server 2019 será encerrado em 28 de fevereiro de 2025. Todos os usuários existentes do SQL Server 2019 com Software Assurance terão suporte total na plataforma e o software continuará a ser mantido por meio de atualizações cumulativas do SQL Server até esse momento. Para obter mais informações, confira a postagem no blog de anúncio e as opções de Big Data na plataforma do Microsoft SQL Server.

Apresentando o runtime dos Clusters de Big Data do SQL Server para Apache Spark

O runtime dos Clusters de Big Data do SQL Server para Apache Spark é uma especificação padronizada do Apache Spark que permite interoperabilidade simplificada entre distribuições. Esse runtime do Spark é um bloco consistente e com controle de versão composto por distribuições de linguagem de programação, otimizações de mecanismo, bibliotecas principais e pacotes.

Cada produto que usa a especificação de runtime contém as mesmas versões do Apache Spark Core, PySpark, Scala Spark, Spark.R, sparklyr e .NET para Spark.

Todos os pacotes distribuídos e bibliotecas também são os mesmos. Uma das principais metas da especificação é proporcionar uma experiência de primeira classe a engenheiros de dados e cientistas de dados, com uma lista de pacotes e conectores constantemente coletados e atualizados.

Benefícios do runtime dos Clusters de Big Data do SQL Server para Apache Spark:

Otimizações e recursos do mecanismo Spark disponíveis em todos os produtos e serviços
Ritmo de lançamentos estabelecido
Interoperabilidade perfeita entre produtos e serviços do Spark
Pacotes coletados para engenheiros de dados e cientistas de dados
História consistente de gerenciamento de pacotes

Ritmo de lançamentos e padrões de nomenclatura

A especificação do runtime dos Clusters de Big Data do SQL Server para Apache Spark especifica o seguinte:

Este é o padrão de nomenclatura do runtime:

"PRODUCT_NAME.SPARK_MAJOR_VERSION.CALENDAR_YEAR.RELEASE# "

Por exemplo, "BDC.3.2021.1".

RELEASE# é um número semântico sequencial. Ele não está vinculado a meses ou nenhum outro padrão. Depois de criada, a versão do runtime é imutável. Cada versão dos Clusters de Big Data do SQL Server vem com uma versão do runtime.

O que há na versão atual do runtime?

As notas sobre a versão dos Clusters de Big Data do SQL Server mostram o nome do runtime e o conteúdo completo da versão.

Próximas etapas

Para saber mais, confira Introdução a Clusters de Big Data do SQL Server.

Compartilhar via