Partilhar via


Tutorial: Desenvolver um modelo de clustering em R com aprendizado de máquina SQL

Aplica-se a: SQL Server 2016 (13.x) e versões posteriores Instância Gerenciada SQL do Azure

Nesta série de tutoriais de quatro partes, você usará R para desenvolver e implantar um modelo de cluster K-Means nos Serviços de Aprendizado de Máquina do SQL Server ou em Clusters de Big Data para categorizar dados de clientes.

Nesta série de tutoriais de quatro partes, você usará R para desenvolver e implantar um modelo de cluster K-Means nos Serviços de Aprendizado de Máquina do SQL Server para agrupar dados de clientes.

Nesta série de tutoriais de quatro partes, você usará R para desenvolver e implantar um modelo de cluster K-Means no SQL Server R Services para agrupar dados do cliente.

Nesta série de tutoriais de quatro partes, você usará R para desenvolver e implantar um modelo de clustering K-Means nos Serviços de Aprendizado de Máquina de Instância Gerenciada SQL do Azure para agrupar dados de clientes.

Na primeira parte desta série, você configurará os pré-requisitos para o tutorial e, em seguida, restaurará um conjunto de dados de exemplo para um banco de dados. Nas partes dois e três, você desenvolverá alguns scripts R em um bloco de anotações do Azure Data Studio para analisar e preparar esses dados de exemplo e treinar um modelo de aprendizado de máquina. Em seguida, na quarta parte, você executará esses scripts R dentro de um banco de dados usando procedimentos armazenados.

O agrupamento pode ser explicado como a organização de dados em grupos onde os membros de um grupo são semelhantes de alguma forma. Para esta série de tutoriais, imagine que você possui um negócio de varejo. Você usará o algoritmo K-Means para executar o agrupamento de clientes em um conjunto de dados de compras e devoluções de produtos. Ao agrupar clientes, você pode concentrar seus esforços de marketing de forma mais eficaz segmentando grupos específicos. O agrupamento K-Means é um algoritmo de aprendizagem não supervisionado que procura padrões nos dados com base em semelhanças.

Neste artigo, você aprenderá a:

  • Restaurar um banco de dados de exemplo

Na segunda parte, você aprenderá como preparar os dados de um banco de dados para executar clustering.

Na terceira parte, você aprenderá como criar e treinar um modelo de agrupamento K-Means em R.

Na quarta parte, você aprenderá como criar um procedimento armazenado em um banco de dados que pode executar clustering em R com base em novos dados.

Pré-requisitos

Restaurar o banco de dados de exemplo

O conjunto de dados de exemplo usado neste tutorial foi salvo em um .bak arquivo de backup de banco de dados para você baixar e usar. Este conjunto de dados é derivado do conjunto de dados tpcx-bb fornecido pelo Transaction Processing Performance Council (TPC).

Observação

Se você estiver usando os Serviços de Aprendizado de Máquina em Clusters de Big Data, veja como Restaurar um banco de dados na instância mestra do cluster de big data do SQL Server.

  1. Transfira o ficheiro tpcxbb_1gb.bak.

  2. Siga as instruções em Restaurar um banco de dados a partir de um arquivo de backup no Azure Data Studio, usando estes detalhes:

    • Importe do ficheiro tpcxbb_1gb.bak que você baixou.
    • Nomeie o banco de dados de destino tpcxbb_1gb.
  3. Você pode verificar se o conjunto de dados existe depois de restaurar o banco de dados consultando a dbo.customer tabela:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Transfira o ficheiro tpcxbb_1gb.bak.

  2. Siga as instruções em Restaurar um banco de dados para uma instância gerenciada no SQL Server Management Studio, usando estes detalhes:

    • Importe do ficheiro tpcxbb_1gb.bak que você baixou.
    • Nomeie o banco de dados de destino tpcxbb_1gb.
  3. Você pode verificar se o conjunto de dados existe depois de restaurar o banco de dados consultando a dbo.customer tabela:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Limpeza de recursos

Se você não quiser continuar com este tutorial, exclua o tpcxbb_1gb banco de dados.

Próximo passo

Na primeira parte desta série de tutoriais, você concluiu estas etapas:

  • Instalados os pré-requisitos
  • Restaurado um banco de dados de exemplo

Para preparar os dados para o modelo de aprendizado de máquina, siga a segunda parte desta série de tutoriais: