Recursos implantados com Clusters de Big Data do SQL Server

Artigo
03/22/2023

Aplica-se a: SQL Server 2019 (15.x)

Importante

O complemento Clusters de Big Data do Microsoft SQL Server 2019 será desativado. O suporte para Clusters de Big Data do SQL Server 2019 será encerrado em 28 de fevereiro de 2025. Todos os usuários existentes do SQL Server 2019 com Software Assurance terão suporte total na plataforma e o software continuará a ser mantido por meio de atualizações cumulativas do SQL Server até esse momento. Para obter mais informações, confira a postagem no blog de anúncio e as opções de Big Data na plataforma do Microsoft SQL Server.

Este artigo descreve os recursos que o cluster de Big Data do SQL Server implanta.

Um Cluster de Big Data implanta pods com base no perfil de implantação. Para saber detalhes, veja Configurações padrão.

Este artigo descreve os pods implantados com o perfil aks-dev-test-ha e inclui um pool do Spark. Consulte o Kubernetes para ver os pods implantados no cluster. O exemplo a seguir retorna uma lista de pods em um namespace específico.

kubectl get pods -n <namespace>

Substitua <namespace> pelo nome do cluster de Big Data.

Para obter mais informações, confira Como implantar Clusters de Big Data do SQL Server no Kubernetes.

O diagrama a seguir mostra os componentes implantados em um cluster de Big Data:

big-data-cluster-diagram

Para saber mais sobre a arquitetura, confira Introdução a Clusters de Big Data do SQL Server.

Pods implantados

A tabela a seguir lista os pods implantados em um cluster de Big Data.

Nome	Área
`control-<nnnn>`	Controle
`controldb-<#>`	Controle
`controlwd-<nnnn>`	Controle
`logsdb-<#>`	Controle
`logsui-<nnnn>`	Controle
`metricsdb-<#>`	Controle
`metricsdc-<nnnn>`	Controle
`metricsui-<nnnn>`	Controle
`mgmtproxy-<nnnn>`	Controle
`zookeeper-<#>`	Controle
`dns-<nnnn>`	Controle
`master-<#n>`	Instância mestra
`operator-<nnnn>`	Instância mestra
`compute-<#n>-<#m>`	Pool de computação
`data-<#>-<#>`	Pool de dados
`storage-<#>-<#>`	Pool de armazenamento
`nmnode-<#>-<#>`	Pool de armazenamento
`sparkhead-<#>`	Pool de armazenamento
`appproxy-<#m>`	Pool de aplicativos
`gateway-<#>`	Serviço do gateway

Nem todos os pods estão incluídos em todos os Clusters de Big Datas. As implantações com alta disponibilidade ou integração de diretórios ativas incluem pods específicos.

Pods específicos de alta disponibilidade:

operator-<nnnn>
zookeeper-<#>

Pods específicos do Active Directory:

dns-<nnnn>

As seções a seguir descrevem os pods e listam os contêineres em cada pod.

Control

Os pods de controle fornecem o serviço de controle.

Nome do pod	Contagem	Tipo de controlador do Kubernetes	Contêineres
`control-#`	1	ReplicaSet	- `controller` - `security-support` - `fluentbit`
`controldb`	1	StatefulSet	- `mssql-server` - `fluentbit`
`controlwd`	1	ReplicaSet	- `controlwatchdog`
`logsdb-#`	1	StatefulSet	- `elasticsearch`
`logsui`	1	ReplicaSet	- `kibana`
`metricsdb-#`	1	StatefulSet	- `influxdb`
`metricsdc`	1 por nó do Kubernetes.	DaemonSet	- `telegraf`
`metricsui-nnnn`	1	ReplicaSet	- `grafana`
`mgmtproxy-nnnn`	1	ReplicaSet	- `service-proxy` - `fluentbit`
`dns-nnnn`	0 ou 1 para a integração do Active Directory	ReplicaSet	- `dns` - `fluentbit`

Instância principal

master-<#n> é a instância mestra do SQL Server.

Gerencia o pool de dados via DDL
Manipula dados no pool de dados por meio de DML
Descarrega a execução de consulta analítica no pool de dados

Nome do pod	Contagem	Tipo de controlador do Kubernetes	Contêineres
`master-<#n>`	1 ou mais para alta disponibilidade.	StatefulSet	- `mssql-server` - `fluentbit` - `collectd` - `mssql-ha-supervisor` ^*
`operator`^*	0 ou 1 para alta disponibilidade	ReplicaSet	- `mssql-ha-operator`

^* Somente implantações de alta disponibilidade. O operador implementa e registra a definição do recurso personalizado para o SQL Server e os recursos do Grupo de Disponibilidade. Quando o operador é implantado, registra-se como ouvinte de notificações sobre os recursos do SQL Server sendo implantados no cluster do Kubernetes. mssql-ha-supervisor é compatível com o grupo de disponibilidade.

Cada pod master contém uma instância do SQL Server. Uma implantação de alta disponibilidade inclui três pods. Cada pod tem uma instância do SQL Server com bancos de dados em um Grupos de Disponibilidade Always On do SQL Server.

Inclua mais pods no tempo de implantação, de acordo com sua carga de trabalho.

Pool de computação

O pool de computação fornece uma instância do SQL Server para computação.

Nome do pod	Contagem	Tipo de controlador do Kubernetes	Contêineres
`compute-<#n>-<#m>`	1 ou mais.	StatefulSet	- `mssql-server` - `fluentbit` - `collectd`

#n identifica o pool de computação.
#m identifica a ID da instância no pool.

As instâncias do SQL Server para o pool de computação são sem estado. Eles só precisam de armazenamento para tempdb.

Inclua mais pods no tempo de implantação, de acordo com sua carga de trabalho.

Pool de dados

O pool de dados fornece instâncias do SQL Server para armazenamento e computação.

Nome do pod	Contagem	Tipo de controlador do Kubernetes	Contêineres
`data-<#n>-<#m>`	0 ou mais	StatefulSet	- `mssql-server` - `fluentbit` - `collectd`

#n identifica o pool de dados.
#m identifica a ID da instância no pool.

Inclua mais pods no tempo de implantação, de acordo com a carga de trabalho.

Pool de armazenamento

O pool de armazenamento fornece ingestão de dados por meio do Spark, armazenamento no HDFS, acesso a dados por meio do HDFS e pontos de extremidade do SQL Server.

Nome do pod	Contagem	Tipo de controlador do Kubernetes	Contêineres
`storage-0-#`	1 ou mais. Inclua mais pods no tempo de implantação, de acordo com a carga de trabalho.	StatefulSet	- `hadoop` - `mssql-server` - `fluentbit`
`nmnode-0-#`	1 ou mais para alta disponibilidade	StatefulSet	- `hadoop` - `fluentbit`
`sparkehead-#`	1 ou mais para alta disponibilidade	StatefulSet	- `hadoop-yarn-jobhistory` - `hadoop-livy-sparkhistory` - `hadoop-hivemetastore` -- `fluentbit`
`zookeeper`	0 ou 3 para alta disponibilidade.	StatefulSet	- `zookeeper` - `fluentbit`

Pool de aplicativos

O pool de aplicativos está incluído em alguns dos perfis de configuração de teste. O pool de aplicativos hospeda proxies de serviço de aplicativo que você define ao implantar aplicativos em clusters de Big Data.

appproxy é uma API Web que fica na frente dos aplicativos do pool de aplicativos. Ela autentica os usuários e, em seguida, roteia as solicitações até os aplicativos.

Nome do pod	Tipo de controlador do Kubernetes	Contêineres
`appproxy`	ReplicaSet	- `app-service-proxy` - `fluentbit`

Para saber mais, confira Introdução à Implantação de Aplicativos em um Cluster de Big Data.

Inclua mais pods no tempo de implantação, de acordo com a carga de trabalho.

Serviço do gateway

Os serviços de gateway fornecem o gateway do Knox para Spark, o HDFS, o Yarn, a interface do usuário do Yarn e a interface do usuário do Spark.

Nome do pod	Tipo de controlador do Kubernetes	Contêineres
`gateway-<#>`	StatefulSet	- `knox` - `fluentbit`

Somente um gateway é compatível.

Referências de contêiner open-source

Para projetos específicos de software livre e versões, confira Referência de software livre.

Próximas etapas

Para saber mais sobre o Clusters de Big Data do SQL Server, confira os seguintes recursos:

Compartilhar via