Artigo
09/28/2010

Algoritmo MSC

O algoritmo Microsoft SC é um algoritmo de análise de seqüência fornecido pelo MicrosoftSQL ServerAnalysis Services. Você pode usá-lo para explorar dados que contêm eventos que podem ser vinculados de acordo com caminhos ou seqüências. O algoritmo localiza as seqüências mais comuns por agrupamento, ou clustering, das seqüências que são idênticas. Estes são alguns exemplos de seqüências:

Dados que descrevem os caminhos de clique que são criados quando os usuários navegam em um site.
Dados que descrevem a ordem em que um cliente adiciona itens a um carrinho de compras em uma loja online.

Sob vários aspectos, esse algoritmo é semelhante ao algoritmo Microsoft Clustering. No entanto, em vez de localizar clusters de casos que contêm atributos semelhantes, o algoritmo Microsoft Sequence Clustering localiza clusters de casos que contêm caminhos semelhantes em uma seqüência.

Exemplo

O site AdventureWorks coleta informações sobre que páginas os usuários do site acessam e sobre a ordem em que as páginas são acessadas. Como a empresa oferece a funcionalidade de encomendas online, os clientes devem fazer logon no site. Dessa maneira, a empresa obtém informações de clique relativas a cada perfil de cliente. Usando o algoritmo Microsoft Sequence Clustering nesses dados, a empresa pode localizar grupos, ou clusters, de clientes que têm padrões ou seqüências de clique semelhantes. A empresa então poderá usar esses clusters para analisar como os usuários navegam pelo site, identificar quais páginas estão mais intrinsecamente relacionadas à venda de um determinado produto e prever que páginas terão maiores probabilidades de acesso nas próximas visitas.

Como o algoritmo funciona

O Microsoft Sequence Clustering é um algoritmo híbrido que combina técnicas de clustering com a análise de cadeia Markov para identificar clusters e suas seqüências. Uma das marcas registradas do algoritmo Microsoft Sequence Clustering é que ele usa dados de seqüência. Esses dados normalmente representam uma série de eventos ou transições entre estados em um conjunto de dados, como uma série de compras de produtos ou cliques de um usuário específico. O algoritmo examina todas as probabilidades de transição e avalia as diferenças, ou distâncias, entre todas as seqüências possíveis no conjunto de dados para determinar quais são as melhores seqüências a usar como entradas para clustering. Depois que o algoritmo cria a lista de seqüências candidatas, ele usa as informações das seqüências como entrada para o método EM de clustering.

Para obter uma descrição detalhada da implementação, consulte Referência técnica do algoritmo MSC.

Dados necessários para modelos de cluster de seqüência

Quando você prepara dados para uso no treinamento de um modelo de clustering de seqüência, é preciso conhecer os requisitos de um determinado algoritmo, inclusive a quantidade de dados necessários e como eles são usados.

Os requisitos de um modelo de clustering de seqüência são os seguintes:

Uma única key coluna Um modelo de clustering de seqüência requer uma chave que identifique registros.
Uma coluna de seqüênciaPara dados de seqüência, o modelo deve ter uma tabela aninhada que contém uma coluna de ID de seqüência. A ID de seqüência pode ser qualquer tipo de dados classificável. Por exemplo, você pode usar um identificador de página da Web, um número inteiro ou uma cadeia de caracteres de texto, desde que a coluna identifique os eventos em uma seqüência. Só é permitido um identificador de seqüência para cada seqüência, e cada modelo pode ter apenas um tipo de seqüência.
Atributos não seqüenciais opcionais O algoritmo dá suporte à adição de outros atributos não relacionados a seqüenciamento. Esses atributos podem incluir colunas aninhadas.

No exemplo do site AdventureWorks, citado anteriormente, um modelo de clustering de seqüências deve incluir informações de pedidos como a tabela de casos, dados demográficos do cliente específico de cada pedido como atributos não seqüenciais e uma tabela aninhada contendo a seqüência em que o cliente navegou pelo site ou colocou itens em um carrinho de compras como as informações de seqüência.

Para obter informações mais detalhadas sobre tipos de conteúdo e de dados suportados por modelos de clustering de seqüências, consulte a seção Requisitos de Referência técnica do algoritmo MSC.

Exibindo um modelo de cluster de seqüências

O modelo de mineração criado por esse algoritmo contém descrições das seqüências mais comuns nos dados. Para explorar o modelo, você pode usar o Visualizador de Cluster de Seqüência da Microsoft. Quando você exibe um modelo de clustering de seqüências, o Analysis Services mostra clusters que contêm várias transições. Também é possível exibir as estatísticas pertinentes. Para obter mais informações, consulte Exibindo um modelo de mineração com o Microsoft Sequence Cluster Viewer.

Para obter mais detalhes, você pode navegar pelo modelo no Visualizador de Árvore de Conteúdo Genérica da Microsoft. O conteúdo armazenado do modelo inclui a distribuição de todos os valores de cada nó, a probabilidade de cada cluster e detalhes sobre as transições. Para obter mais informações, consulte Conteúdo do modelo de mineração para modelos de clustering de seqüências (Analysis Services – Mineração de Dados).

Criando previsões

Após o treinamento do modelo, os resultados são armazenados como um conjunto de padrões. Você pode usar as descrições das seqüências mais comuns nos dados para prever a próxima etapa provável de uma nova seqüência. Todavia, como o algoritmo inclui outras colunas, você pode usar o modelo resultante para identificar as relações entre os dados seqüenciados e as entradas não seqüenciais. Por exemplo, se você acrescentar dados demográficos ao modelo, poderá fazer previsões sobre grupos de clientes específicos. As consultas de previsão podem ser personalizadas para retornar um número variável de previsões ou para retornar estatísticas descritivas.

Para obter informações sobre como criar consultas com base em um modelo de mineração de dados, consulte Consultando modelos de mineração de dados (Analysis Services - Mineração de dados). Para obter exemplos de como usar consultas com um modelo de clustering de seqüências, consulte Consultando um modelo de cluster de seqüências (Analysis Services – Mineração de Dados).

Comentários

Não dá suporte ao uso de PMML para criar modelos de mineração.
Dá suporte ao detalhamento.
Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.