Compartilhar via


Apresentando o machine learning do Spark em Clusters de Big Data do SQL Server

Aplica-se a: SQL Server 2019 (15.x)

Importante

O complemento Clusters de Big Data do Microsoft SQL Server 2019 será desativado. O suporte para Clusters de Big Data do SQL Server 2019 será encerrado em 28 de fevereiro de 2025. Todos os usuários existentes do SQL Server 2019 com Software Assurance terão suporte total na plataforma e o software continuará a ser mantido por meio de atualizações cumulativas do SQL Server até esse momento. Para obter mais informações, confira a postagem no blog de anúncio e as opções de Big Data na plataforma do Microsoft SQL Server.

Este artigo explica como usar efetivamente o Spark para machine learning nos Clusters de Big Data do SQL Server.

Machine learning do Spark em Clusters de Big Data do SQL Server

Os Clusters de Big Data do SQL Server habilitam cenários e soluções de machine learning usando diferentes pilhas de tecnologia: Serviços de Machine Learning do SQL Server e Apache Spark ML.

Para entender melhor quando usar cada pilha de tecnologia, confira o guia de machine learning para Clusters de Big Data do SQL Server. Este guia abrange o Apache Spark ML.

Em cenários de machine learning baseados em Big Data, o uso do HDFS para hospedagem de Big Data e dos recursos do Apache Spark ML é uma abordagem mais econômica, escalonável e eficiente. Ainda assim, isso está longe de uma lista completa das possibilidades do machine learning do Spark. Confira a lista completa de recursos em Spark MLlib.

A próxima seção contém uma lista organizada de cenários e referências do Spark nos Clusters de Big Data do SQL Server.

Componentes do machine learning do Spark nos Clusters de Big Data do SQL Server

Learn Sumário Link
Runtime dos Clusters de Big Data do SQL Server para Apache Spark Isso mostra o que está incluído em cada versão Guia do runtime dos Clusters de Big Data do SQL Server para Apache Spark
O pool de armazenamento Como armazenar e usar o HDFS + Spark juntos para desbloquear dados para machine learning Introdução ao pool de armazenamento em Clusters de Big Data do SQL Server
Use experiências baseadas em notebook e as ferramentas de sua escolha Conecte ponto de extremidade Spark-Livy usando as ferramentas de sua escolha Enviar trabalhos do Spark nos Clusters de Big Data do SQL Server no Azure Data Studio
Enviar trabalhos do Spark em clusters de Big Data do SQL Server no Visual Studio Code
Usar o sparklyr em clusters de Big Data do SQL Server
Como instalar pacotes extras No caso de um pacote não ser fornecido pronto para uso, instale-o Gerenciamento de bibliotecas do Spark
Como solucionar os problemas Caso haja problemas Solucionar problemas de notebooks pyspark
Depurar e diagnosticar aplicativos Spark nos Clusters de Big Data do SQL Server no Servidor de Histórico do Spark
Como enviar trabalhos em lotes de machine learning Executar treinamento de ML e pontuação em lote usando a linha de comando Enviar trabalhos do Spark usando ferramentas de linha de comando
Como mover dados rapidamente entre o SQL Server e o Spark Torne o SQL Server a origem e/ou o destino dos cenários de ML do Spark. O uso do HDFS não é obrigatório Usar o Conector do Apache Spark para SQL Server e Azure SQL
Operacionalização do modelo Spark Após o treinamento, operacionalize usando MLeap Criar, exportar e pontuar modelos de machine learning do Spark nos Clusters de Big Data do SQL Server
Estruturação de dados Juntamente com os poderosos recursos de estruturação de dados do Spark, enviamos o PROSE Estruturação de dados usando o Acelerador de Código PROSE

Próximas etapas

Para saber mais, confira Introdução a Clusters de Big Data do SQL Server.