Partilhar via


Conteúdo do modelo de mineração para modelos de agrupamento de sequências (Serviços de Análise - Mineração de dados)

Este tópico descreve o conteúdo de modelos de mineração específico para modelos que utilizam o algoritmo de Agrupamento de Sequência da Microsoft. Para obter uma explicação da terminologia geral e estatística relacionada ao conteúdo do modelo de mineração que se aplica a todos os tipos de modelo, consulte Conteúdo do Modelo de Mineração (Analysis Services – Mineração de Dados).

Compreendendo a Estrutura de um Modelo de Agrupamento de Sequências

Um modelo de clustering de sequência tem um único nó pai (NODE_TYPE = 1) que representa o modelo e seus metadados. O nó pai, que está marcado como (All), tem um nó de sequência relacionado (NODE_TYPE = 13) que lista todas as transições detectadas nos dados de treinamento.

Estrutura do modelo de agrupamento de sequência

O algoritmo também cria vários clusters, com base nas transições encontradas nos dados e em quaisquer outros atributos de entrada incluídos ao criar o modelo, como dados demográficos do cliente e assim por diante. Cada cluster (NODE_TYPE = 5) contém seu próprio nó de sequência (NODE_TYPE = 13) que lista apenas as transições usadas na geração desse cluster específico. No nó de sequência, você pode fazer drill down para exibir os detalhes das transições de estado individuais (NODE_TYPE = 14).

Para obter uma explicação das transições de sequência e de estado, com exemplos, consulte o Algoritmo de Clustering de Sequência da Microsoft.

Conteúdo do modelo para um modelo de agrupamento por sequência

Esta seção fornece informações adicionais sobre colunas no conteúdo do modelo de mineração de dados que têm relevância específica para agrupamento de sequências.

CATÁLOGO_DE_MODELOS
Nome do banco de dados em que o modelo é armazenado.

MODEL_NAME
Nome do modelo.

ATTRIBUTE_NAME
Sempre em branco.

NODE_NAME
O nome do nó. Atualmente, o mesmo valor que NODE_UNIQUE_NAME.

NOME_UNICO_DO_NÓ
O nome exclusivo do nó.

NODE_TYPE
Um modelo de agrupamento de sequência gera os seguintes tipos de nós:

ID do tipo de nó Descrição
1 (Modelo) Nó raiz para o modelo
5 (Agrupamento) Contém uma contagem de transições no cluster, uma lista dos atributos e estatísticas que descrevem os valores no cluster.
13 (Sequência) Contém uma lista de transições incluídas no cluster.
14 (Transição) Descreve uma sequência de eventos como uma tabela na qual a primeira linha contém o estado inicial e todas as outras linhas contêm estados sucessivos, juntamente com estatísticas de suporte e probabilidade.

NODE_GUID
Em branco.

NODE_CAPTION
Um rótulo ou uma legenda associada ao nó para fins de exibição.

Você pode renomear as legendas do cluster enquanto estiver usando o modelo; no entanto, o novo nome não será mantido se você fechar o modelo.

CARDINALIDADE_DOS_FILHOS
Uma estimativa do número de filhos que o nó tem.

Raiz do modelo O valor de cardinalidade é igual ao número de clusters mais um. Para obter mais informações, consulte Cardinalidade.

Nós de cluster A cardinalidade é sempre 1, pois cada cluster tem um único nó filho, que contém a lista de sequências no cluster.

Nós de sequência A cardinalidade indica o número de transições incluídas nesse cluster. Por exemplo, a cardinalidade do nó de sequência na raiz do modelo informa quantas transições foram encontradas em todo o modelo.

NOME_ÚNICO_PAI
O nome exclusivo do pai do nó.

NULL é retornado para quaisquer nós no nível raiz.

NODE_DESCRIPTION
O mesmo que a legenda do nó.

NODE_RULE
Sempre em branco.

Regra Marginal
Sempre em branco.

PROBABILIDADE_DO_NÓ
Raiz do modelo Sempre 0.

Nós de cluster A probabilidade ajustada do cluster no modelo. As probabilidades ajustadas não somam exatamente 1, porque o método de agrupamento usado no agrupamento sequencial permite participação parcial em vários clusters.

Nós de sequência são sempre 0.

Nós de transição Sempre 0.

Probabilidade Marginal
Raiz do modelo Sempre 0.

Nós de cluster O mesmo valor que NODE_PROBABILITY.

Nós de sequência Sempre 0.

Nós de transição É sempre 0.

DISTRIBUIÇÃO_DE_NÓDULOS
Uma tabela que contém probabilidades e outras informações. Para obter mais informações, consulte NODE_DISTRIBUTION Table.

NODE_SUPPORT
O número de transições que dão suporte a esse nó. Portanto, se houver 30 exemplos de sequência "Produto A seguido pelo Produto B" nos dados de treinamento, o suporte total será 30.

Raiz do modelo Número total de transições no modelo.

Nós de cluster Suporte bruto para o cluster, o que significa o número de casos de treinamento que alimentam este cluster.

Nós de sequência Sempre 0.

Nós de transição Porcentagem de casos no cluster que representam uma transição específica. Pode ser 0 ou pode ter um valor positivo. Calculado usando o suporte bruto para o nó de cluster e multiplicando pela probabilidade do cluster.

Nesse valor, você pode dizer quantos casos de treinamento contribuíram para a transição.

MSOLAP_MODEL_COLUMN
Não aplicável.

MSOLAP_NODE_SCORE
Não aplicável.

MSOLAP_NODE_SHORT_CAPTION
O mesmo que NODE_DESCRIPTION.

Noções básicas sobre sequências, estados e transições

Um modelo de clustering de sequência tem uma estrutura exclusiva que combina dois tipos de objetos com tipos de informações muito diferentes: os primeiros são os clusters e os segundos são as transições de estado.

Os clusters criados pelo agrupamento por sequência são como os clusters criados pelo algoritmo de agrupamento da Microsoft. Cada cluster tem um perfil e características. No entanto, no agrupamento de sequência, cada cluster também contém um único nó filho que lista as sequências nesse cluster. Cada nó de sequência contém vários nós filhos que detalham as transições de estado, juntamente com suas probabilidades.

Há quase sempre mais sequências no modelo do que você pode encontrar em qualquer caso, porque as sequências podem ser encadeadas juntas. O Microsoft Analysis Services armazena ponteiros de um estado para o outro para que você possa contar o número de vezes que cada transição ocorre. Você também pode encontrar informações sobre quantas vezes a sequência ocorreu e medir sua probabilidade de ocorrer em comparação com todo o conjunto de estados observados.

A tabela a seguir resume como as informações são armazenadas no modelo e como os nós estão relacionados.

Tem nó filho Tabela NODE_DISTRIBUTION
Raiz do modelo Vários nós de cluster

Nó com sequências para o modelo inteiro
Lista todos os produtos no modelo, com suporte e probabilidade.

Como o método de clustering permite associação parcial em vários clusters, o suporte e a probabilidade podem ter valores fracionários. Ou seja, em vez de contar um único caso uma vez, cada caso pode pertencer potencialmente a vários clusters. Portanto, quando a associação final do cluster é determinada, o valor é ajustado pela probabilidade desse cluster.
Nó de sequência para modelo Vários nós de transição Lista todos os produtos no modelo, com suporte e probabilidade.

Como o número de sequências é conhecido pelo modelo, nesse nível, os cálculos para suporte e probabilidade são simples:

Suporte = contagem de casos

Probabilidade = probabilidade bruta de cada sequência no modelo. Todas as probabilidades devem somar 1.
Nós de cluster individuais Nó com sequências somente para esse cluster Lista todos os produtos em um cluster, mas fornece suporte e valores de probabilidade apenas para produtos que são características do cluster.

O suporte representa o valor de suporte ajustado para cada caso neste agrupamento. Os valores de probabilidade são a probabilidade ajustada.
Clusters individuais de nós de sequência Vários nós com transições apenas para sequências nesse cluster Exatamente as mesmas informações que nos nós individuais do cluster.
Transições Sem filhos Lista transições para o primeiro estado relacionado.

O suporte é um valor de suporte ajustado, indicando os casos que participam de cada transição. A probabilidade é a probabilidade ajustada, representada como uma porcentagem.

Tabela NODE_DISTRIBUTION

A tabela NODE_DISTRIBUTION fornece informações detalhadas de probabilidade e suporte para as transições e sequências de um cluster específico.

Uma linha sempre é adicionada à tabela de transição para representar os valores possíveis Missing . Para obter informações sobre o que o Missing valor significa e como ele afeta cálculos, consulte Valores Ausentes (Analysis Services – Mineração de Dados).

Os cálculos para suporte e probabilidade diferem dependendo se o cálculo se aplica aos casos de treinamento ou ao modelo concluído. Isso ocorre porque o método de clustering padrão, EM (Maximização de Expectativa), pressupõe que qualquer caso possa pertencer a mais de um cluster. Ao calcular o suporte para os casos no modelo, é possível usar contagens brutas e probabilidades brutas. No entanto, as probabilidades de qualquer sequência específica em um cluster devem ser ponderadas pela soma de todas as combinações possíveis de sequência e cluster.

Cardinalidade

Em um modelo de agrupamento, a cardinalidade do nó pai geralmente indica quantos grupos estão presentes no modelo. No entanto, um modelo de agrupamento de sequência possui dois tipos de nós no nível de cluster: um tipo de nó contém os clusters, e o outro tipo possui uma lista de sequências para o modelo como um todo.

Portanto, para saber o número de clusters no modelo, você pode usar o valor de NODE_CARDINALITY para o nó (Todos) e subtrair um. Por exemplo, se o modelo criou 9 clusters, a cardinalidade da raiz do modelo será 10. Isso ocorre porque o modelo contém 9 nós de cluster, cada um com seu próprio nó de sequência, além de um nó de sequência adicional chamado cluster 10, que representa as sequências do modelo.

Passo a passo da estrutura

Um exemplo pode ajudar a esclarecer como as informações são armazenadas e como você pode interpretá-la. Por exemplo, você pode encontrar a maior ordem, o que significa a cadeia observada mais longa nos dados subjacentes do AdventureWorksDW2012 , usando a seguinte consulta:

USE AdventureWorksDW2012  
SELECT DISTINCT OrderNumber, Count(*)  
FROM vAssocSeqLineItems  
GROUP BY OrderNumber  
ORDER BY Count(*) DESC  

Nesses resultados, você descobre que os números de pedido 'SO72656', 'SO58845' e 'SO70714' contêm as maiores sequências, com oito itens cada. Usando as IDs do pedido, você pode exibir os detalhes de uma ordem específica para ver quais itens foram comprados e em qual ordem.

Número do Pedido Número da linha Modelo
SO58845 1 Montanha-500
SO58845 2 LL Mountain Tire
SO58845 3 Tubo de pneu da montanha
SO58845 4 Conjunto de para-choques - Montanha
SO58845 5 Suporte de garrafa para mountain bike
SO58845 6 Garrafa de água
SO58845 7 Sport-100
SO58845 8 Camisa Logotipo Long-Sleeve

No entanto, alguns clientes que compram o Mountain-500 podem comprar produtos diferentes. Você pode exibir todos os produtos que seguem o Mountain-500 exibindo a lista de sequências no modelo. Os procedimentos a seguir orientam você a exibir essas sequências usando os dois visualizadores fornecidos no Analysis Services:

  1. No Pesquisador de Objetos, clique com o botão direito do mouse no modelo [Agrupamento de Sequência] e selecione Explorar.

  2. No visualizador de Clustering de Sequência, clique na guia Transições de Estado .

  3. Na lista suspensa Cluster, certifique-se de que População (Todos) está selecionada.

  4. Mova a barra deslizante à esquerda do painel até a parte superior para mostrar todos os links.

  5. No diagrama, localize Mountain-500 e clique no nó do diagrama.

  6. As linhas realçadas apontam para os próximos estados (os produtos que foram comprados depois da Mountain-500) e os números indicam a probabilidade. Compare-os com os resultados no visualizador de conteúdo de modelo genérico.

  1. No Pesquisador de Objetos, clique com o botão direito do mouse no modelo [Agrupamento de Sequência] e selecione Navegar.

  2. Na lista suspensa do visualizador, selecione o Visualizador Genérico de Árvore de Conteúdo da Microsoft.

  3. No painel Legenda do Nó, clique no nó chamado Nível de sequência para o cluster 16.

  4. No painel de detalhes do Nó, localize a linha NODE_DISTRIBUTION e clique em qualquer lugar na tabela aninhada.

    A linha de cima é sempre para o Valor Ausente. Essa linha é o estado de sequência 0.

  5. Pressione a tecla de seta para baixo ou use as barras de rolagem para descer pela tabela aninhada até ver a linha Mountain-500.

    Essa linha é o estado de sequência 20.

    Observação

    Você pode obter o número de linha para um estado de sequência específico programaticamente, mas se você estiver apenas navegando, pode ser mais fácil simplesmente copiar a tabela aninhada em uma pasta de trabalho do Excel.

  6. Retorne ao painel de legendas do nó e expanda o nó intitulado Nível de sequência para o cluster 16, se ele ainda não estiver expandido.

  7. Procure entre seus nós filhos por linha de transição para o estado de sequência 20. Clique no nó de transição.

  8. A tabela aninhada NODE_DISTRIBUTION contém os seguintes produtos e suas probabilidades. Compare estes com os resultados na guia Transição de Estado do visualizador de Agrupamento de Sequência.

A tabela a seguir mostra os resultados da tabela NODE_DISTRIBUTION, juntamente com os valores de probabilidade arredondados exibidos no visualizador gráfico.

Produto Suporte (tabela NODE_DISTRIBUTION) Tabela de probabilidade (NODE_DISTRIBUTION) Probabilidade (do grafo)
Em falta 48.447887 0.138028169 (não mostrado)
Tampa de ciclismo 10.876056 0.030985915 0.03
Conjunto de para-choques - Montanha 80.087324 0.228169014 0,23
Luvas de Half-Finger 0.9887324 0,002816901 0,00
Pacote de Hidratação 0.9887324 0.002816901 0,00
LL Mountain Tire 51.414085 0.146478873 0.15
Camisa Logotipo Long-Sleeve 2.9661972 0.008450704 0,01
Gaiola de garrafa de montanha 87.997183 0.250704225 0,25
Tubo de pneu da montanha 16.808451 0.047887324 0,05
Short-Sleeve Jersey Clássico 10.876056 0.030985915 0.03
Sport-100 20.76338 0.05915493 0,06
Garrafa de água 18.785915 0.053521127 0,25

Embora o caso que selecionamos inicialmente nos dados de treinamento contivesse o produto 'Mountain-500' seguido por 'LL Mountain Tire', você pode ver que há muitas outras sequências possíveis. Para encontrar informações detalhadas para qualquer cluster específico, você deve repetir o processo de detalhamento da lista de sequências no cluster para as transições reais para cada estado ou produto.

Você pode ir da sequência listada em um cluster específico para a linha de transição. Nessa linha de transição, você pode determinar qual produto é o próximo e voltar para esse produto na lista de sequências. Ao repetir esse processo para cada estado inicial e secundário, você pode percorrer longas cadeias de estados.

Usando informações de sequência

Um cenário comum para agrupamento de sequências é acompanhar os cliques de usuários em um site. Por exemplo, se os dados forem de registros de compras de clientes no site de comércio eletrônico adventure works, o modelo de clustering de sequência resultante poderá ser usado para inferir o comportamento do usuário, redesenhar o site de comércio eletrônico para resolver problemas de navegação ou promover vendas.

Por exemplo, a análise pode mostrar que os usuários sempre seguem uma cadeia específica de produtos, independentemente da demografia. Além disso, você pode descobrir que os usuários frequentemente saem do site depois de clicar em um produto específico. Levando em consideração essa descoberta, você pode perguntar quais caminhos adicionais poderia oferecer aos usuários que os levariam a permanecerem no site.

Se você não tiver informações adicionais a serem usadas na classificação de seus usuários, poderá simplesmente usar as informações de sequência para coletar dados sobre navegação para entender melhor o comportamento geral. No entanto, se você puder coletar informações sobre clientes e corresponder a essas informações com o banco de dados de clientes, poderá combinar o poder do clustering com a previsão de sequências para fornecer recomendações personalizadas para o usuário ou, talvez, baseadas no caminho de navegação até a página atual.

Outro uso das extensas informações de estado e transição compiladas por um modelo de agrupamento de sequência é determinar quais caminhos possíveis nunca são utilizados. Por exemplo, se você tiver muitos visitantes indo para as páginas 1 a 4, mas os visitantes nunca continuarem na página 5, você poderá investigar se há problemas que impedem a navegação para a página 5. Você pode fazer isso consultando o conteúdo do modelo e comparando-o com uma lista de caminhos possíveis. Os grafos que informam todos os caminhos de navegação em um site podem ser criados programaticamente ou usando uma variedade de ferramentas de análise de site.

Para descobrir como obter a lista de caminhos observados consultando o conteúdo do modelo e ver outros exemplos de consultas em um modelo de clustering de sequência, consulte Exemplos de consulta de modelo de clustering de sequência.

Consulte Também

Conteúdo do modelo de mineração (Analysis Services – Mineração de dados)
Algoritmo de Clustering de Sequência da Microsoft
Exemplos de consulta de modelo de agrupamento de sequência