Algoritmo MSC

Artigo
07/30/2013

O algoritmo Microsoft SC é um algoritmo de análise de sequência fornecido pelo Microsoft SQL Server Analysis Services. Você pode usá-lo para explorar dados que contêm eventos que podem ser vinculados de acordo com caminhos ou sequências. O algoritmo localiza as sequências mais comuns por agrupamento, ou clustering, das sequências que são idênticas. A seguir veja alguns exemplos de dados que contêm sequências que podem ser usadas para mineração de dados, para fornecer ideias sobre problemas comuns ou cenários comerciais:

Clique nos caminhos que são criados quando os usuários navegam em um site.
Logs que listam eventos que precedem um incidente, como falha de disco rígido ou deadlocks de servidor.
Os registros de transação que descrevem a ordem em que um cliente adiciona itens a um carrinho de compras em uma loja online.
Registros que seguem interações de cliente (ou paciente) com o passar do tempo, para prever cancelamentos de serviço ou outros resultados insatisfatórios.

Sob vários aspectos, esse algoritmo é semelhante ao algoritmo Microsoft Clustering. No entanto, em vez de localizar clusters de casos que contêm atributos semelhantes, o algoritmo Microsoft Sequence Clustering localiza clusters de casos que contêm caminhos semelhantes em uma sequência.

Exemplo

O site do Ciclos da Adventure Works coleta informações sobre as páginas visitadas pelos usuários e sobre a ordem em que são visitadas. Como a empresa oferece a funcionalidade de encomendas online, os clientes devem fazer logon no site. Dessa maneira, a empresa obtém informações de clique relativas a cada perfil de cliente. Usando o algoritmo Microsoft Sequence Clustering nesses dados, a empresa pode localizar grupos, ou clusters, de clientes que têm padrões ou sequências de clique semelhantes. A empresa então poderá usar esses clusters para analisar como os usuários navegam pelo site, identificar quais páginas estão mais intrinsecamente relacionadas à venda de um determinado produto e prever que páginas terão maiores probabilidades de acesso nas próximas visitas.

Como o algoritmo funciona

O Microsoft Sequence Clustering é um algoritmo híbrido que combina técnicas de clustering com a análise de cadeia Markov para identificar clusters e suas sequências. Uma das marcas registradas do algoritmo Microsoft Sequence Clustering é que ele usa dados de sequência. Esses dados normalmente representam uma série de eventos ou transições entre estados em um conjunto de dados, como uma série de compras de produtos ou cliques de um usuário específico. O algoritmo examina todas as probabilidades de transição e avalia as diferenças, ou distâncias, entre todas as sequências possíveis no conjunto de dados para determinar quais são as melhores sequências a usar como entradas para clustering. Depois que o algoritmo cria a lista de sequências candidatas, ele usa as informações das sequências como entrada para o método EM de clustering.

Para obter uma descrição detalhada da implementação, consulte Referência técnica do algoritmo MSC.

Dados necessários para modelos de cluster de sequência

Quando você prepara dados para uso no treinamento de um modelo de clustering de sequência, é preciso conhecer os requisitos de um determinado algoritmo, inclusive a quantidade de dados necessários e como eles são usados.

Os requisitos de um modelo de clustering de sequência são os seguintes:

Uma única coluna key Um modelo de clustering de sequência requer uma chave que identifique registros.
Uma coluna de sequênciaPara dados de sequência, o modelo deve ter uma tabela aninhada que contém uma coluna de ID de sequência. A ID de sequência pode ser qualquer tipo de dados classificável. Por exemplo, você pode usar um identificador de página da Web, um número inteiro ou uma cadeia de caracteres de texto, desde que a coluna identifique os eventos em uma sequência. Só é permitido um identificador de sequência para cada sequência, e cada modelo pode ter apenas um tipo de sequência.
Atributos não sequenciais opcionais O algoritmo dá suporte à adição de outros atributos não relacionados a sequenciamento. Esses atributos podem incluir colunas aninhadas.

No exemplo do site do Ciclos da Adventure Works, citado anteriormente, um modelo de clustering de sequências pode incluir informações de pedidos como a tabela de casos, dados demográficos do cliente específico de cada pedido como atributos não sequenciais e uma tabela aninhada contendo a sequência em que o cliente navegou pelo site ou colocou itens em um carrinho de compras como as informações de sequência.

Para obter informações mais detalhadas sobre tipos de conteúdo e de dados suportados por modelos de clustering de sequências, consulte a seção Requisitos de Referência técnica do algoritmo MSC.

Exibindo um modelo de cluster de sequências

O modelo de mineração criado por esse algoritmo contém descrições das sequências mais comuns nos dados. Para explorar o modelo, você pode usar o Visualizador de Cluster de Sequência da Microsoft. Quando você exibe um modelo de clustering de sequências, o Analysis Services mostra clusters que contêm várias transições. Também é possível exibir as estatísticas pertinentes. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft.

Para obter mais detalhes, você pode navegar pelo modelo no Visualizador de Árvore de Conteúdo Genérica da Microsoft. O conteúdo armazenado do modelo inclui a distribuição de todos os valores de cada nó, a probabilidade de cada cluster e detalhes sobre as transições. Para obter mais informações, consulte Conteúdo do modelo de mineração para modelos de clustering de sequências (Analysis Services – Mineração de Dados).

Criando previsões

Após o treinamento do modelo, os resultados são armazenados como um conjunto de padrões. Você pode usar as descrições das sequências mais comuns nos dados para prever a próxima etapa provável de uma nova sequência. Todavia, como o algoritmo inclui outras colunas, você pode usar o modelo resultante para identificar as relações entre os dados sequenciados e as entradas não sequenciais. Por exemplo, se você acrescentar dados demográficos ao modelo, poderá fazer previsões sobre grupos de clientes específicos. As consultas de previsão podem ser personalizadas para retornar um número variável de previsões ou para retornar estatísticas descritivas.

Para obter informações sobre como criar consultas com base em um modelo de mineração de dados, consulte Consultas de mineração de dados. Para obter exemplos de como usar consultas com um modelo de clustering de sequências, consulte Exemplos de consulta de um modelo de clustering de sequências.

Comentários

Não dá suporte ao uso de PMML para criar modelos de mineração.
Dá suporte ao detalhamento.
Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.