Partilhar via


Explorando o modelo de agrupamento de sequência (Tutorial de mineração de dados intermediária)

Agora que você criou o modelo de Clustering de Sequência com Região, você pode explorá-lo usando o Visualizador de Clustering de Sequência da Microsoft na guia Visualizador de Modelos de Mineração do Designer de Mineração de Dados. O Visualizador de Cluster de Sequência da Microsoft contém cinco guias: Diagrama de Cluster, Perfis de Cluster, Características do Cluster, ClusterDiscrimination e Transições de Estado. Para obter mais informações sobre como usar esse visualizador, consulte Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft.

Guia do Diagrama de Agrupamento

A guia Diagrama de Cluster exibe graficamente os clusters que o algoritmo descobriu no banco de dados. O layout no diagrama representa as relações dos clusters, com clusters semelhantes agrupados juntos. Por padrão, a sombra de cada nó representa a densidade de todos os casos no cluster: quanto mais escuro o sombreamento do nó, mais casos ele contém. Você pode alterar o significado do sombreamento dos nós para que ele represente o suporte, em cada cluster, para um atributo e um estado.

Você também pode renomear os clusters para facilitar a identificação e o trabalho com clusters de destino. Para este tutorial, você renomeará o cluster que tem a maior porcentagem de clientes da região do Pacífico e o cluster que tem mais casos no geral.

Observação

Os casos atribuídos a clusters específicos podem ser alterados quando você reprocessa o modelo, dependendo dos dados e dos parâmetros do modelo. Além disso, se você renomear clusters, os nomes serão perdidos quando você reprocessar o modelo de mineração.

Para alterar o atributo usado para realçar clusters

  1. Na lista Variável de Sombreamento , selecione Modelo.

  2. Selecione o Limite de Ciclismo na lista Estado .

    O diagrama é atualizado para mostrar a concentração do produto selecionado em cada um dos clusters. O cluster que tem o sombreamento mais escuro contém a maior densidade de tampas de ciclismo. Você pode alterar a variável de sombreamento para usar qualquer estado de qualquer coluna de entrada.

  3. Na lista Variável de Sombreamento , selecione População.

    Quando você altera a variável de sombreamento para população, o diagrama é atualizado para comparar os clusters por tamanho. O cluster que tem o sombreamento mais escuro contém mais casos do que os outros clusters.

Para renomear nós no modelo

  1. Altere a Variável de Sombreamento para Region, e defina Estado como Pacífico.

  2. Realce o nó mais escuro do grafo.

  3. Clique com o botão direito do mouse neste cluster e selecione Renomear Cluster.

  4. Digite o nomePacific Cluster.

  5. Altere o valor da Variável de Sombreamento para População.

  6. No grafo atualizado, localize o cluster mais escuro, que deve ser o maior cluster. Se você não puder dizer pelo sombreamento qual cluster é maior, pause o mouse sobre cada cluster e exiba a Dica de Ferramenta e escolha o cluster que contém a maioria dos casos.

  7. Clique com o botão direito do mouse neste cluster e selecione Renomear Cluster. Digite o novo nome. Largest Cluster

Você pode fazer drill through do nó que representa o cluster para exibir detalhes dos casos que estão em cada cluster. Isso pode ser útil se você quiser tomar medidas sobre os resultados de sua análise, como enviar email para um cliente. Você também pode analisar os outros atributos dos casos incluídos na estrutura, mas que não foram usados no modelo, como Região e Grupo de Renda. Para obter mais informações sobre como fazer drill through de modelos de mineração para os casos subjacentes, consulte Consultas de detalhamento (mineração de dados).

Para detalhar os detalhes do diagrama do Cluster

  1. Clique com o botão direito do mouse Pacific Cluster, selecione Explorar e, em seguida, selecione colunas de Modelo e Estrutura.

    Abre-se a caixa de diálogo Detalhamento. As colunas que não são usadas no modelo, mas que estão disponíveis para consulta, são prefixadas com Estrutura.

    Você pode ver que esse cluster contém principalmente clientes da região do Pacífico, com apenas alguns clientes de outras regiões.

  2. Clique no sinal de adição na coluna aninhada v Assoc Seq Line Items para exibir a sequência de itens em um pedido de cliente específico.

  3. Feche a janela de diálogo Detalhamento.

    Observação

    O botão Reproduzir permite que você reconsulte os dados; no entanto, a reconsulta não altera os dados exibidos, a menos que o modelo tenha sido atualizado dinamicamente em segundo plano por outro processo.

Voltar ao topo

Aba Perfis de Cluster

A guia Perfis de Cluster exibe as sequências que estão em cada cluster. Os clusters são listados em colunas individuais à direita da coluna Estados .

No visualizador, a linha Model descreve a distribuição geral de itens em um cluster e a linha Model.samples contém sequências dos itens. Cada linha das sequências de cores em cada célula da linha Model.samples representa o comportamento de um usuário selecionado aleatoriamente no cluster.

Cada cor em um histograma de sequência individual representa um modelo de produto. A Legenda de Mineração mostra as sequências de produtos usando tanto códigos de cores quanto os nomes dos modelos de produto. Se você tiver adicionado outras colunas ao modelo de clustering, como Região ou Grupo de Renda, o visualizador conterá uma linha adicional para cada coluna que mostra a distribuição desses valores dentro de cada cluster.

Para exibir as sequências mais comuns em um cluster

  1. Clique com o botão direito do mouse na linha Modelo na coluna do cluster Largest Clustere selecione Mostrar Legenda.

    A coluna Color contém uma barra sombreada que indica a frequência de itens encontrados em sequências. Cada item é representado por uma cor diferente. A coluna Significado lista os nomes do modelo de produto para cada cor. A coluna Distribuição informa a porcentagem de casos que continham esse item em uma sequência.

  2. Feche a Legenda de Mineração.

  3. Clique com o botão direito do mouse na linha Model.samples na coluna com o título, População e selecione Mostrar Legenda.

  4. Examinar a lista de sequências no modelo geral.

    A Legenda de Mineração lista as sequências mais comuns primeiro, para que você possa ver que o Mountain Tire Tube é o primeiro item em muitas sequências. Isso significa que é muito provável que um cliente coloque o Mountain Tire Tube na cesta de compras primeiro.

Para detalhar os casos no visualizador de clusters

  1. Role para baixo no painel de atributos até encontrar a linha do atributo Region.

    A linha contém um histograma para cada cluster no modelo, além de um histograma adicional para População, o que significa todo o conjunto de casos usados no modelo. Um histograma é uma barra com cores diferentes, em que cada cor representa um atributo e o tamanho da seção colorida desse atributo representa a porcentagem de casos com esse atributo.

  2. Compare os histogramas para os clusters que você renomeou Pacific Cluster e Largest Cluster. Cada cluster aparece em uma coluna diferente.

    Ambas parecem cores sólidas, mas as cores são diferentes.

  3. Na linha Region, coloque o mouse sobre o histograma colorido para Largest Cluster.

    A Dica de Ferramenta exibe valores que mostram os percentuais reais de casos de cada região.

  4. Clique com o botão direito do mouse no histograma colorido na Region linha para Pacific Cluster, selecione Drill Through e, em seguida, selecione Somente Colunas de Modelo.

  5. Mova a barra de rolagem para examinar todos os clientes neste cluster.

    Novamente, ao examinar os detalhes, você pode ver que o cluster contém principalmente pedidos da região do Pacífico, mas também alguns das regiões da América do Norte e Europa.

  6. Feche a caixa de diálogo Drill Through.

Voltar ao topo

Aba Características do Cluster

A guia Características do Cluster resume as transições entre estados em um cluster exibindo barras que representam visualmente a importância do valor do atributo para o cluster selecionado. A coluna Variáveis informa o que o modelo achou importante para o cluster ou população selecionado: um valor específico ou a relação entre valores, conhecido como transição. A coluna Valores fornece mais detalhes sobre o valor ou a transição e a coluna Probabilidade representa visualmente o peso desse atributo ou transição.

Para exibir os atributos importantes para um cluster

  1. Na lista suspensa Cluster , selecione Pacific Cluster.

    A lista é atualizada para mostrar as características do cluster que você renomeou Pacific Cluster. Nesse cluster, a característica mais importante é Region.

  2. Pause o mouse sobre a barra sombreada na linha para Region.

    A probabilidade do valor ser o Pacífico é muito alta. Para obter mais informações sobre como interpretar esses valores, consulte a Referência Técnica do Algoritmo de Clustering de Sequência da Microsoft.

  3. Examine a lista de características do cluster até encontrar a primeira linha de transição.

  4. Uma linha de transição contém a transição de texto na coluna Variáveis e alguma combinação de valores de atributo sequencial na coluna Valor . A sequência também pode conter pontos iniciais e valores ausentes.

    Por exemplo, suponha que a transição tenha o valor [Start] –> Tubo de Pneu Rodoviário. Isso significa que os clientes neste cluster frequentemente colocam o Tubo de Pneu rodoviário em sua cesta de compras primeiro. Isso pode significar que o produto é um item popular que os clientes procuram primeiro ou pode indicar apenas que o produto é fácil de encontrar no site de compra.

  5. Role a lista até encontrar a primeira transição que não tenha [Iniciar] ou ausente nela.

    Por exemplo, suponha que você encontre a transição, Pneu de Touring, Tubo de Pneu de Touring. Isso significa que os clientes nesse cluster frequentemente compravam esses itens juntos, exatamente nessa ordem.

  6. Pause o mouse sobre a barra sombreada para essa transição.

    A probabilidade dessa transição é exibida como uma porcentagem.

  7. Na lista suspensa Cluster, selecione População (Todos).

    A lista de atualizações de atributos para mostrar as características de todos os pedidos usados para criar o modelo. Nesse modelo de mineração, a característica mais importante para distinguir entre clusters é Regiono valor da América do Norte.

Depois de revisar essas tarefas, você percebe duas coisas. A primeira é que você precisa de muitos dados para obter um número significativo de combinações. Por exemplo, as sequências com as maiores probabilidades provavelmente incluirão um estado [Iniciar] ou Ausente .

A segunda é que há um forte efeito de clustering nos atributos para Region, o que torna mais difícil ver os grupos de sequências. Portanto, você decide criar outro modelo que usa apenas sequências e não inclui as colunas para região ou renda.

Voltar ao topo

Aba Discriminação de Agrupamento

A guia Discriminação de Cluster ajuda você a comparar dois clusters, para determinar quais atributos distinguem um cluster específico de outro cluster. A guia contém quatro colunas: Variáveis, Valores, Cluster 1 e Cluster 2. Você pode escolher qualquer cluster a ser usado como Cluster 1 e Cluster 2.

A coluna Variáveis informa o nome do atributo, que pode ser um nome de coluna ou uma combinação do nome de coluna e a palavra transição. A coluna Valores mostra o valor exato do atributo ou da transição. As barras sombreadas nas colunas para Cluster 1 e Cluster 2 indicam a força do atributo nos clusters que você está comparando. Quanto maior a barra, mais o cluster provavelmente incluirá casos com esse atributo.

Para comparar dois clusters usando a guia Discriminação de Clusters

  1. Na guia Discriminação de Cluster , para Cluster 1, selecione Pacific Cluster.

    Por padrão, a seleção do Cluster 2 muda para Complemento do Cluster do Pacífico.

    O atributo superior que distingue Pacific Cluster de todos os outros casos é a região. A região é um atributo tão forte para clustering que obscurece outros atributos. Para evitar esse efeito, tente comparar vários clusters menores entre si. Quando você faz isso, a lista de atributos muda e pode incluir mais transições entre modelos.

  2. Localize uma linha de transição e pause o mouse sobre a barra sombreada.

    Os itens na coluna Valores podem incluir estados e transições. O sombreamento para cada item indica a pontuação de discriminação. Para saber mais sobre o significado de diferentes pontuações, consulte Conteúdo do Modelo de Mineração para Modelos de Clustering de Sequência (Analysis Services – Mineração de Dados).

Voltar ao topo

Aba Transições de Estado

Na guia Transições de Estado , você pode selecionar um cluster e navegar por suas transições de estado. Se você selecionar População (Todos) na lista suspensa do cluster, o diagrama mostrará a distribuição de estados para todo o modelo de mineração.

Cada nó no grafo representa um estado ou um valor possível das sequências que você está tentando analisar. A cor de fundo dos nós representa a frequência desse estado. As linhas conectam alguns estados, indicando uma transição entre estados. Você pode mover o controle deslizante para cima ou para baixo para alterar o limite de probabilidade para as transições. Os números são associados a alguns nós, indicando a probabilidade desse estado.

Para explorar as relações na aba de Transição de Estado

  1. Na guia Transições de Estado do visualizador do Modelo de Mineração, selecione Pacific Cluster na lista de clusters. Verifique se a opção Mostrar Rótulos de Borda está selecionada.

    O grafo é atualizado para mostrar as transições mais comuns neste cluster.

  2. Clique em qualquer nó que esteja conectado por uma linha a outro nó.

    O grafo é atualizado e realça os nós relacionados. O valor numérico ao lado da linha indica a probabilidade da transição.

  3. Aumente o controle deslizante para Todos os Links, para aumentar o número de transições incluídas no grafo.

  4. Selecione População (Todos) no Cluster.

    Observe que, quando você carrega um cluster diferente, o grafo é redefinido para as configurações de exibição padrão, de modo que o controle deslizante é redefinido para a posição intermediária.

  5. Clique no nó mais escuro do grafo, que deve ser Sport-100.

    Observe que não há linhas que conectem esse produto a outros produtos.

  6. Aumente o controle deslizante uma etapa para aumentar o número de transições incluídas no grafo. Não vá até Todos os Links ainda.

    O grafo é atualizado adicionando várias outras transições ao grafo, mas nenhuma que inclua o modelo Sport-100.

  7. Mova o controle deslizante até que alcance Todos os Links. Clique no nó Sport-100 se ele ainda não estiver selecionado.

    O grafo é atualizado para mostrar muitas transições que incluem o produto Sport-100. A direção da seta na linha de conexão informa se o item Sport-100 foi selecionado como o primeiro item ou o segundo item no par.

  8. Clique no nó do Pneu Touring e mova o controle deslizante de volta para a posição intermediária.

    Inicialmente, há muitas linhas de transição conectando o Pneu de passeio a outros produtos, mas quando você aumenta o limite de probabilidade, as transições menos prováveis são eliminadas do gráfico, deixando apenas a transição, Pneu de passeio > Tubo de Pneu de passeio. Essa transição significa que, se um cliente colocar um pneu touring na cesta de compras, há uma grande probabilidade de que o cliente coloque um Tubo de Pneu touring na cesta.

Voltar ao topo

Visualizador de Árvore de Conteúdo Genérico

Esse visualizador pode ser usado para todos os modelos, independentemente do algoritmo ou tipo de modelo. O Visualizador de Árvore de Conteúdo Microsoft Generic está disponível na lista suspensa Visualizador.

Uma árvore de conteúdo é uma representação de qualquer modelo de mineração como uma série de nós, em que cada nó representa o conhecimento aprendido sobre os dados de treinamento. O nó pode conter um padrão, um conjunto de regras, um cluster ou a definição de um intervalo de datas que compartilham alguns atributos. O conteúdo exato do nó difere dependendo do algoritmo e do atributo previsível, mas a representação geral do conteúdo é a mesma.

Você pode expandir cada nó para visualizar mais detalhes e copiar o conteúdo de qualquer nó para a área de transferência. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Árvore de Conteúdo Genérico da Microsoft.

Para exibir detalhes de um modelo de clustering de sequência usando o Visualizador de Árvore de Conteúdo Genérico

  1. Na guia Visualizador do Modelo de Mineração , clique na lista visualizador e selecione o visualizador da Árvore de Conteúdo Genérico da Microsoft.

  2. No painel Legenda do Nó, clique em Pacific Cluster (1).

    O nome deste nó contém tanto o nome amigável que você atribuiu ao cluster quanto a identidade do nó subjacente. Você pode usar os identificadores do nó para aprofundar detalhes adicionais no modelo.

  3. Expanda o primeiro nó filho, denominado nível de sequência para o cluster 1.

    O nó de nível de sequência para um cluster contém informações sobre os estados e transições incluídos nesse cluster. Você pode usar esses detalhes, disponíveis na coluna NODE_DISTRIBUTION, para explorar as sequências e os estados para cada cluster ou para o modelo como um todo.

  4. Continue a expandir nós e a exibir os detalhes no painel do visualizador HTML.

Para obter mais informações sobre o conteúdo do modelo de mineração e como usar os detalhes no visualizador, consulte Conteúdo do Modelo de Mineração para Modelos de Agrupamento de Sequências (Analysis Services – Mineração de Dados).

Voltar ao topo

Próxima tarefa da lição

Criando um modelo de agrupamento de sequência relacionada (Tutorial intermediário de mineração de dados)

Consulte Também

Algoritmo de Clustering de Sequência da Microsoft
Exemplos de consulta de modelo de agrupamento de sequência