Tutorial: Desenvolver um modelo de clustering em R com aprendizado de máquina SQL

Aplica-se a: SQL Server 2016 (13.x) e versões posteriores Instância Gerenciada SQL do Azure

Nesta série de tutoriais de quatro partes, você usará R para desenvolver e implantar um modelo de cluster K-Means nos Serviços de Aprendizado de Máquina do SQL Server ou em Clusters de Big Data para categorizar dados de clientes.

Nesta série de tutoriais de quatro partes, você usará R para desenvolver e implantar um modelo de cluster K-Means nos Serviços de Aprendizado de Máquina do SQL Server para agrupar dados de clientes.

Nesta série de tutoriais de quatro partes, você usará R para desenvolver e implantar um modelo de cluster K-Means no SQL Server R Services para agrupar dados do cliente.

Nesta série de tutoriais de quatro partes, você usará R para desenvolver e implantar um modelo de clustering K-Means nos Serviços de Aprendizado de Máquina de Instância Gerenciada SQL do Azure para agrupar dados de clientes.

Na primeira parte desta série, você configurará os pré-requisitos para o tutorial e, em seguida, restaurará um conjunto de dados de exemplo para um banco de dados. Nas partes dois e três, você desenvolverá alguns scripts R em um bloco de anotações do Azure Data Studio para analisar e preparar esses dados de exemplo e treinar um modelo de aprendizado de máquina. Em seguida, na quarta parte, você executará esses scripts R dentro de um banco de dados usando procedimentos armazenados.

O agrupamento pode ser explicado como a organização de dados em grupos onde os membros de um grupo são semelhantes de alguma forma. Para esta série de tutoriais, imagine que você possui um negócio de varejo. Você usará o algoritmo K-Means para executar o agrupamento de clientes em um conjunto de dados de compras e devoluções de produtos. Ao agrupar clientes, você pode concentrar seus esforços de marketing de forma mais eficaz segmentando grupos específicos. O agrupamento K-Means é um algoritmo de aprendizagem não supervisionado que procura padrões nos dados com base em semelhanças.

Neste artigo, você aprenderá a:

Restaurar um banco de dados de exemplo

Na segunda parte, você aprenderá como preparar os dados de um banco de dados para executar clustering.

Na terceira parte, você aprenderá como criar e treinar um modelo de agrupamento K-Means em R.

Na quarta parte, você aprenderá como criar um procedimento armazenado em um banco de dados que pode executar clustering em R com base em novos dados.

Pré-requisitos

Serviços de Aprendizado de Máquina do SQL Server com a opção de linguagem Python - Siga as instruções de instalação no guia de instalação do Windows ou no guia de instalação do Linux. Você também pode habilitar os Serviços de Aprendizado de Máquina em Clusters de Big Data do SQL Server.

Serviços de Aprendizado de Máquina do SQL Server com a opção de idioma R - Siga as instruções de instalação no guia de instalação do Windows.

Serviços de Aprendizado de Máquina de Instância Gerenciada SQL do Azure. Para obter informações, consulte a visão geral dos Serviços de Aprendizado de Máquina da Instância Gerenciada SQL do Azure.
SQL Server Management Studio (SSMS) - Use o SSMS para restaurar o banco de dados de exemplo para a Instância Gerenciada SQL do Azure. Instale a versão mais recente do SQL Server Management Studio (SSMS).

Azure Data Studio. Você usará um bloco de anotações no Azure Data Studio para SQL. Para obter mais informações sobre blocos de anotações, consulte Como usar blocos de anotações no Azure Data Studio.
R IDE - Este tutorial usa o RStudio Desktop.
RODBC - Este driver é usado nos scripts R que você desenvolverá neste tutorial. Se ainda não estiver instalado, instale-o usando o comando install.packages("RODBC")R . Para obter mais informações sobre RODBC, consulte CRAN - Package RODBC.

Restaurar o banco de dados de exemplo

O conjunto de dados de exemplo usado neste tutorial foi salvo em um .bak arquivo de backup de banco de dados para você baixar e usar. Este conjunto de dados é derivado do conjunto de dados tpcx-bb fornecido pelo Transaction Processing Performance Council (TPC).

Observação

Se você estiver usando os Serviços de Aprendizado de Máquina em Clusters de Big Data, veja como Restaurar um banco de dados na instância mestra do cluster de big data do SQL Server.

Transfira o ficheiro tpcxbb_1gb.bak.
Siga as instruções em Restaurar um banco de dados a partir de um arquivo de backup no Azure Data Studio, usando estes detalhes:
- Importe do ficheiro tpcxbb_1gb.bak que você baixou.
- Nomeie o banco de dados de destino tpcxbb_1gb.
Você pode verificar se o conjunto de dados existe depois de restaurar o banco de dados consultando a dbo.customer tabela:
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Transfira o ficheiro tpcxbb_1gb.bak.
Siga as instruções em Restaurar um banco de dados para uma instância gerenciada no SQL Server Management Studio, usando estes detalhes:
- Importe do ficheiro tpcxbb_1gb.bak que você baixou.
- Nomeie o banco de dados de destino tpcxbb_1gb.
Você pode verificar se o conjunto de dados existe depois de restaurar o banco de dados consultando a dbo.customer tabela:
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Limpeza de recursos

Se você não quiser continuar com este tutorial, exclua o tpcxbb_1gb banco de dados.

Próximo passo

Na primeira parte desta série de tutoriais, você concluiu estas etapas:

Instalados os pré-requisitos
Restaurado um banco de dados de exemplo

Para preparar os dados para o modelo de aprendizado de máquina, siga a segunda parte desta série de tutoriais:

Preparar dados para executar clustering

Comentários

Esta página foi útil?

Last updated on 2025-10-31