Compartilhar via


Algoritmo de agrupamento da Microsoft

O algoritmo de Clustering da Microsoft é um algoritmo de segmentação fornecido pelo Analysis Services. O algoritmo usa técnicas iterativas para agrupar casos em um conjunto de dados em clusters que contêm características semelhantes. Esses agrupamentos são úteis para explorar dados, identificar anomalias nos dados e criar previsões.

Os modelos de clustering identificam relações em um conjunto de dados que você pode não derivar logicamente por meio de observação casual. Por exemplo, você pode discernir logicamente que as pessoas que se deslocam para seus trabalhos de bicicleta normalmente não vivem uma longa distância de onde trabalham. O algoritmo, no entanto, pode encontrar outras características sobre passageiros de bicicleta que não são tão óbvias. No diagrama a seguir, o cluster A representa dados sobre pessoas que tendem a dirigir para o trabalho, enquanto o cluster B representa dados sobre pessoas que tendem a andar de bicicleta para trabalhar.

Padrão de cluster de tendências de transporte

O algoritmo de clustering difere de outros algoritmos de mineração de dados, como o algoritmo Árvores de Decisão da Microsoft, na medida em que você não precisa designar uma coluna previsível para poder criar um modelo de clustering. O algoritmo de clustering treina o modelo estritamente das relações que existem nos dados e dos clusters identificados pelo algoritmo.

Exemplo

Considere um grupo de pessoas que compartilham informações demográficas semelhantes e que compram produtos semelhantes da empresa Adventure Works. Esse grupo de pessoas representa um cluster de dados. Vários desses clusters podem existir em um banco de dados. Observando as colunas que compõem um cluster, você pode ver mais claramente como os registros em um conjunto de dados estão relacionados uns aos outros.

Como o algoritmo funciona

O algoritmo Clustering da Microsoft primeiro identifica relações em um conjunto de dados e gera uma série de clusters com base nessas relações. Um gráfico de dispersão é uma maneira útil de representar visualmente como o algoritmo agrupa dados, conforme mostrado no diagrama a seguir. O gráfico de dispersão representa todos os casos no conjunto de dados e cada caso é um ponto no grafo. Os clusters agrupam pontos no grafo e ilustram as relações identificadas pelo algoritmo.

Gráfico de dispersão de casos em um conjunto de dados

Depois de definir primeiro os clusters, o algoritmo calcula o quão bem os clusters representam os agrupamentos dos pontos e, em seguida, tenta redefinir os agrupamentos para criar clusters que representam melhor os dados. O algoritmo itera por esse processo até que não possa melhorar mais os resultados redefinindo os clusters.

Você pode personalizar a maneira como o algoritmo funciona selecionando uma técnica de clustering especificando, limitando o número máximo de clusters ou alterando a quantidade de suporte necessária para criar um cluster. Para obter mais informações, consulte Referência técnica do algoritmo de clustering da Microsoft.

Dados necessários para modelos de clustering

Ao preparar dados para uso no treinamento de um modelo de clustering, você deve entender os requisitos para o algoritmo específico, incluindo a quantidade de dados necessária e como os dados são usados.

Os requisitos para um modelo de clustering são os seguintes:

  • Uma única coluna de chave Cada modelo deve conter uma coluna numérica ou de texto que identifique exclusivamente cada registro. Chaves compostas não são permitidas.

  • Colunas de entrada Cada modelo deve conter pelo menos uma coluna de entrada que contenha os valores usados para compilar os clusters. Você pode ter quantas colunas de entrada desejar, mas dependendo do número de valores em cada coluna, a adição de colunas extras pode aumentar o tempo necessário para treinar o modelo.

  • Coluna previsível opcional O algoritmo não precisa de uma coluna previsível para criar o modelo, mas você pode adicionar uma coluna previsível de quase qualquer tipo de dados. Os valores da coluna previsível podem ser tratados como entrada para o modelo de clustering ou você pode especificar que ele seja usado apenas para previsão. Por exemplo, se você quiser prever a renda do cliente agrupando-se em dados demográficos como região ou idade, você especificaria renda como PredictOnly e adicionaria todas as outras colunas, como região ou idade, como entradas.

Para obter informações mais detalhadas sobre os tipos de conteúdo e tipos de dados com suporte para modelos de clustering, consulte a seção Requisitos da Referência Técnica do Algoritmo de Clustering da Microsoft.

Exibindo um modelo de clustering

Para explorar o modelo, você pode usar o Visualizador de Cluster da Microsoft. Quando você exibe um modelo de clustering, o Analysis Services mostra os clusters em um diagrama que ilustra as relações entre clusters e também fornece um perfil detalhado de cada cluster, uma lista dos atributos que distinguem cada cluster das outras e as características de todo o conjunto de dados de treinamento. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Cluster da Microsoft.

Se quiser saber mais detalhes, navegue pelo modelo no Visualizador de Árvore de Conteúdo Genérico da Microsoft. O conteúdo armazenado para o modelo inclui a distribuição de todos os valores em cada nó, a probabilidade de cada cluster e outras informações. Para obter mais informações, consulte Conteúdo do Modelo de Mineração para Modelos de Clustering (Analysis Services – Mineração de Dados).

Criando previsões

Depois que o modelo for treinado, os resultados serão armazenados como um conjunto de padrões, que você pode explorar ou usar para fazer previsões.

Você pode criar consultas para retornar previsões sobre se novos dados se encaixam nos clusters descobertos ou para obter estatísticas descritivas sobre os clusters.

Para obter informações sobre como criar consultas em um modelo de mineração de dados, consulte Consultas de mineração de dados. Para obter exemplos de como usar consultas com um modelo de clustering, consulte exemplos de consulta de modelo de clustering.

Observações

  • Dá suporte ao uso da PMML (Predictive Model Markup Language) para criar modelos de mineração.

  • Permite detalhamento por meio de drill-through.

  • Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.

Consulte Também

Algoritmos de Mineração de Dados (Analysis Services – Mineração de Dados)Referência Técnica do Algoritmo de Clustering da MicrosoftConteúdo do Modelo de Mineração para Modelos de Clustering (Analysis Services – Mineração de Dados)Exemplos de Consultas de Modelos de Clustering