Apresentando o machine learning do Spark em Clusters de Big Data do SQL Server

Artigo
03/22/2023

Aplica-se a: SQL Server 2019 (15.x)

Importante

O complemento Clusters de Big Data do Microsoft SQL Server 2019 será desativado. O suporte para Clusters de Big Data do SQL Server 2019 será encerrado em 28 de fevereiro de 2025. Todos os usuários existentes do SQL Server 2019 com Software Assurance terão suporte total na plataforma e o software continuará a ser mantido por meio de atualizações cumulativas do SQL Server até esse momento. Para obter mais informações, confira a postagem no blog de anúncio e as opções de Big Data na plataforma do Microsoft SQL Server.

Este artigo explica como usar efetivamente o Spark para machine learning nos Clusters de Big Data do SQL Server.

Machine learning do Spark em Clusters de Big Data do SQL Server

Os Clusters de Big Data do SQL Server habilitam cenários e soluções de machine learning usando diferentes pilhas de tecnologia: Serviços de Machine Learning do SQL Server e Apache Spark ML.

Para entender melhor quando usar cada pilha de tecnologia, confira o guia de machine learning para Clusters de Big Data do SQL Server. Este guia abrange o Apache Spark ML.

Em cenários de machine learning baseados em Big Data, o uso do HDFS para hospedagem de Big Data e dos recursos do Apache Spark ML é uma abordagem mais econômica, escalonável e eficiente. Ainda assim, isso está longe de uma lista completa das possibilidades do machine learning do Spark. Confira a lista completa de recursos em Spark MLlib.

A próxima seção contém uma lista organizada de cenários e referências do Spark nos Clusters de Big Data do SQL Server.

Componentes do machine learning do Spark nos Clusters de Big Data do SQL Server

Learn	Sumário	Link
Runtime dos Clusters de Big Data do SQL Server para Apache Spark	Isso mostra o que está incluído em cada versão	Guia do runtime dos Clusters de Big Data do SQL Server para Apache Spark
O pool de armazenamento	Como armazenar e usar o HDFS + Spark juntos para desbloquear dados para machine learning	Introdução ao pool de armazenamento em Clusters de Big Data do SQL Server
Use experiências baseadas em notebook e as ferramentas de sua escolha	Conecte ponto de extremidade Spark-Livy usando as ferramentas de sua escolha	Enviar trabalhos do Spark nos Clusters de Big Data do SQL Server no Azure Data Studio Enviar trabalhos do Spark em clusters de Big Data do SQL Server no Visual Studio Code Usar o sparklyr em clusters de Big Data do SQL Server
Como instalar pacotes extras	No caso de um pacote não ser fornecido pronto para uso, instale-o	Gerenciamento de bibliotecas do Spark
Como solucionar os problemas	Caso haja problemas	Solucionar problemas de notebooks `pyspark` Depurar e diagnosticar aplicativos Spark nos Clusters de Big Data do SQL Server no Servidor de Histórico do Spark
Como enviar trabalhos em lotes de machine learning	Executar treinamento de ML e pontuação em lote usando a linha de comando	Enviar trabalhos do Spark usando ferramentas de linha de comando
Como mover dados rapidamente entre o SQL Server e o Spark	Torne o SQL Server a origem e/ou o destino dos cenários de ML do Spark. O uso do HDFS não é obrigatório	Usar o Conector do Apache Spark para SQL Server e Azure SQL
Operacionalização do modelo Spark	Após o treinamento, operacionalize usando MLeap	Criar, exportar e pontuar modelos de machine learning do Spark nos Clusters de Big Data do SQL Server
Estruturação de dados	Juntamente com os poderosos recursos de estruturação de dados do Spark, enviamos o PROSE	Estruturação de dados usando o Acelerador de Código PROSE

Próximas etapas

Para saber mais, confira Introdução a Clusters de Big Data do SQL Server.

Compartilhar via

Apresentando o machine learning do Spark em Clusters de Big Data do SQL Server

Machine learning do Spark em Clusters de Big Data do SQL Server

Componentes do machine learning do Spark nos Clusters de Big Data do SQL Server

Próximas etapas

Comentários

Recursos adicionais