Tutorial: Desenvolver um modelo de clustering no R com o machine learning do SQL
Aplica-se a: SQL Server 2016 (13.x) e versões posteriores Instância Gerenciada de SQL do Azure
Nesta série de tutoriais de quatro partes, você usará o R para desenvolver e implantar um modelo de cluster K-Means nos Serviços de Machine Learning do SQL Server ou nos Clusters de Big Data para categorizar dados de clientes.
Nesta série de tutoriais de quatro partes, você usará o R para desenvolver e implantar um modelo de cluster K-Means nos Serviços de Machine Learning do SQL Server para os dados de clientes do cluster.
Nesta série de tutoriais de quatro partes, você usará o R para desenvolver e implantar um modelo de cluster K-Means no SQL Server R Services para os dados de clientes do cluster.
Nesta série de tutoriais de quatro partes, você usará o R para desenvolver e implantar um modelo de cluster K-means do Serviços de Machine Learning da Instância Gerenciada de SQL do Azure nos dados do cliente do cluster.
Na primeira parte desta série, você configurará os pré-requisitos do tutorial e, em seguida, restaurará um conjunto de dados de exemplo para um banco de dados. Nas partes dois e três, você desenvolverá alguns scripts do R em um notebook do Azure Data Studio para analisar e preparar esses dados de exemplo e treinar um modelo de machine learning. Em seguida, na quarta parte, você executará esses scripts do R em um banco de dados usando os procedimentos armazenados.
O clustering pode ser explicado como organizador de dados em grupos, nos quais os membros de um grupo são semelhantes de algum modo. Para esta série de tutoriais, imagine que você tenha uma empresa de varejo. Você usará o algoritmo K-Means para executar o clustering de clientes em um conjunto de dados de compras e devoluções de produtos. Ao realizar o clustering de clientes, você pode concentrar seus esforços de marketing com mais eficiência, direcionando-os a grupos específicos. O clustering de K-Means é um algoritmo de aprendizado não supervisionado que procura padrões em dados com base em semelhanças.
Neste artigo, você aprenderá a:
- Restaurar um banco de dados de exemplo
Na parte dois, você aprenderá a preparar os dados de um banco de dados para executar clustering.
Na parte três, você aprenderá a criar e treinar um modelo de cluster K-means no R.
Na parte quatro, você aprenderá a criar um procedimento armazenado em um banco de dados que possa executar clustering no R com base em novos dados.
Pré-requisitos
- Serviços de Machine Learning do SQL Server com a opção de linguagem Python – siga as instruções de instalação no guia de instalação do Windows ou no guia de instalação do Linux. Você também pode habilitar Serviços de Machine Learning em Clusters de Big Data do SQL Server.
- Serviços de Machine Learning do SQL Server com a opção de linguagem R – siga as instruções de instalação no Guia de instalação do Windows.
Serviços de Machine Learning da Instância Gerenciada de SQL do Azure. Para obter informações, confira a Visão geral dos Serviços de Machine Learning da Instância Gerenciada de SQL do Azure.
SQL Server Management Studio (SSMS): use o SSMS para restaurar o banco de dados de amostra para a Instância Gerenciada de SQL do Azure. Para efetuar o download, confira SQL Server Management Studio.
Azure Data Studio. Você usará um notebook no Azure Data Studio para SQL. Para obter mais informações sobre notebooks, confira Como usar notebooks no Azure Data Studio.
IDE para R: este tutorial usa o RStudio Desktop.
RODBC: este driver será usado nos scripts em R que você desenvolverá neste tutorial. Se ele ainda não estiver instalado, instale-o usando o comando R
install.packages("RODBC")
. Para saber mais sobre o RODBC, confira CRAN – Pacote RODBC.
Restaurar o banco de dados de exemplo
O conjunto de dados de amostra usado neste tutorial foi salvo em um arquivo de backup do banco de dados .bak
para você efetuar o download e usar. Esse conjunto de dados é derivado do conjunto de dados tpcx-bb, fornecido pela TPC (Transaction Processing Performance Council).
Observação
Se você estiver usando Serviços de Machine Learning em Clusters de Big Data, confira como Restaurar um banco de dados na instância mestra de cluster de Big Data do SQL Server.
Baixe o arquivo tpcxbb_1gb. bak.
Siga as instruções em Restaurar um banco de dados de um arquivo de backup no Azure Data Studio, usando estes detalhes:
- Importe do arquivo
tpcxbb_1gb.bak
que você baixou. - Nomeie o banco de dados de destino
tpcxbb_1gb
.
- Importe do arquivo
É possível verificar se o conjunto de dados existe depois de restaurar o banco de dados ao realizar uma consulta na tabela
dbo.customer
:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Baixe o arquivo tpcxbb_1gb. bak.
Siga as instruções descritas em Restaurar um banco de dados em uma Instância Gerenciada no SQL Server Management Studio usando estes detalhes:
- Importe do arquivo
tpcxbb_1gb.bak
que você baixou. - Nomeie o banco de dados de destino
tpcxbb_1gb
.
- Importe do arquivo
É possível verificar se o conjunto de dados existe depois de restaurar o banco de dados ao realizar uma consulta na tabela
dbo.customer
:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Limpar os recursos
Se você não continuar com este tutorial, exclua o banco de dados tpcxbb_1gb
.
Próxima etapa
Na parte um desta série de tutoriais, você concluiu estas etapas:
- Instalar os pré-requisitos
- Restaurar um banco de dados de exemplo
Para preparar os dados para o modelo de machine learning, siga a parte dois desta série de tutoriais: