Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Agora que você criou o modelo de Clustering de Sequência com Região, você pode explorá-lo usando o Visualizador de Clustering de Sequência da Microsoft na guia Visualizador de Modelos de Mineração do Designer de Mineração de Dados. O Visualizador de Cluster de Sequência da Microsoft contém cinco guias: Diagrama de Cluster, Perfis de Cluster, Características do Cluster, ClusterDiscrimination e Transições de Estado. Para obter mais informações sobre como usar esse visualizador, consulte Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft.
Guia do Diagrama de Agrupamento
A guia Diagrama de Cluster exibe graficamente os clusters que o algoritmo descobriu no banco de dados. O layout no diagrama representa as relações dos clusters, com clusters semelhantes agrupados juntos. Por padrão, a sombra de cada nó representa a densidade de todos os casos no cluster: quanto mais escuro o sombreamento do nó, mais casos ele contém. Você pode alterar o significado do sombreamento dos nós para que ele represente o suporte, em cada cluster, para um atributo e um estado.
Você também pode renomear os clusters para facilitar a identificação e o trabalho com clusters de destino. Para este tutorial, você renomeará o cluster que tem a maior porcentagem de clientes da região do Pacífico e o cluster que tem mais casos no geral.
Observação
Os casos atribuídos a clusters específicos podem ser alterados quando você reprocessa o modelo, dependendo dos dados e dos parâmetros do modelo. Além disso, se você renomear clusters, os nomes serão perdidos quando você reprocessar o modelo de mineração.
Para alterar o atributo usado para realçar clusters
Na lista Variável de Sombreamento , selecione Modelo.
Selecione o Limite de Ciclismo na lista Estado .
O diagrama é atualizado para mostrar a concentração do produto selecionado em cada um dos clusters. O cluster que tem o sombreamento mais escuro contém a maior densidade de tampas de ciclismo. Você pode alterar a variável de sombreamento para usar qualquer estado de qualquer coluna de entrada.
Na lista Variável de Sombreamento , selecione População.
Quando você altera a variável de sombreamento para população, o diagrama é atualizado para comparar os clusters por tamanho. O cluster que tem o sombreamento mais escuro contém mais casos do que os outros clusters.
Para renomear nós no modelo
Altere a Variável de Sombreamento para
Region, e defina Estado como Pacífico.Realce o nó mais escuro do grafo.
Clique com o botão direito do mouse neste cluster e selecione Renomear Cluster.
Digite o nomePacific Cluster.
Altere o valor da Variável de Sombreamento para População.
No grafo atualizado, localize o cluster mais escuro, que deve ser o maior cluster. Se você não puder dizer pelo sombreamento qual cluster é maior, pause o mouse sobre cada cluster e exiba a Dica de Ferramenta e escolha o cluster que contém a maioria dos casos.
Clique com o botão direito do mouse neste cluster e selecione Renomear Cluster. Digite o novo nome.
Largest Cluster
Você pode fazer drill through do nó que representa o cluster para exibir detalhes dos casos que estão em cada cluster. Isso pode ser útil se você quiser tomar medidas sobre os resultados de sua análise, como enviar email para um cliente. Você também pode analisar os outros atributos dos casos incluídos na estrutura, mas que não foram usados no modelo, como Região e Grupo de Renda. Para obter mais informações sobre como fazer drill through de modelos de mineração para os casos subjacentes, consulte Consultas de detalhamento (mineração de dados).
Para detalhar os detalhes do diagrama do Cluster
Clique com o botão direito do mouse
Pacific Cluster, selecione Explorar e, em seguida, selecione colunas de Modelo e Estrutura.Abre-se a caixa de diálogo Detalhamento. As colunas que não são usadas no modelo, mas que estão disponíveis para consulta, são prefixadas com Estrutura.
Você pode ver que esse cluster contém principalmente clientes da região do Pacífico, com apenas alguns clientes de outras regiões.
Clique no sinal de adição na coluna aninhada v Assoc Seq Line Items para exibir a sequência de itens em um pedido de cliente específico.
Feche a janela de diálogo Detalhamento.
Observação
O botão Reproduzir permite que você reconsulte os dados; no entanto, a reconsulta não altera os dados exibidos, a menos que o modelo tenha sido atualizado dinamicamente em segundo plano por outro processo.
Aba Perfis de Cluster
A guia Perfis de Cluster exibe as sequências que estão em cada cluster. Os clusters são listados em colunas individuais à direita da coluna Estados .
No visualizador, a linha Model descreve a distribuição geral de itens em um cluster e a linha Model.samples contém sequências dos itens. Cada linha das sequências de cores em cada célula da linha Model.samples representa o comportamento de um usuário selecionado aleatoriamente no cluster.
Cada cor em um histograma de sequência individual representa um modelo de produto. A Legenda de Mineração mostra as sequências de produtos usando tanto códigos de cores quanto os nomes dos modelos de produto. Se você tiver adicionado outras colunas ao modelo de clustering, como Região ou Grupo de Renda, o visualizador conterá uma linha adicional para cada coluna que mostra a distribuição desses valores dentro de cada cluster.
Para exibir as sequências mais comuns em um cluster
Clique com o botão direito do mouse na linha Modelo na coluna do cluster
Largest Clustere selecione Mostrar Legenda.A coluna Color contém uma barra sombreada que indica a frequência de itens encontrados em sequências. Cada item é representado por uma cor diferente. A coluna Significado lista os nomes do modelo de produto para cada cor. A coluna Distribuição informa a porcentagem de casos que continham esse item em uma sequência.
Feche a Legenda de Mineração.
Clique com o botão direito do mouse na linha Model.samples na coluna com o título, População e selecione Mostrar Legenda.
Examinar a lista de sequências no modelo geral
.A Legenda de Mineração lista as sequências mais comuns primeiro, para que você possa ver que o Mountain Tire Tube é o primeiro item em muitas sequências. Isso significa que é muito provável que um cliente coloque o Mountain Tire Tube na cesta de compras primeiro.
Para detalhar os casos no visualizador de clusters
Role para baixo no painel de atributos até encontrar a linha do atributo
Region.A linha contém um histograma para cada cluster no modelo, além de um histograma adicional para População, o que significa todo o conjunto de casos usados no modelo. Um histograma é uma barra com cores diferentes, em que cada cor representa um atributo e o tamanho da seção colorida desse atributo representa a porcentagem de casos com esse atributo.
Compare os histogramas para os clusters que você renomeou
Pacific ClustereLargest Cluster. Cada cluster aparece em uma coluna diferente.Ambas parecem cores sólidas, mas as cores são diferentes.
Na linha
Region, coloque o mouse sobre o histograma colorido paraLargest Cluster.A Dica de Ferramenta exibe valores que mostram os percentuais reais de casos de cada região.
Clique com o botão direito do mouse no histograma colorido na
Regionlinha paraPacific Cluster, selecione Drill Through e, em seguida, selecione Somente Colunas de Modelo.Mova a barra de rolagem para examinar todos os clientes neste cluster.
Novamente, ao examinar os detalhes, você pode ver que o cluster contém principalmente pedidos da região do Pacífico, mas também alguns das regiões da América do Norte e Europa.
Feche a caixa de diálogo Drill Through.
Aba Características do Cluster
A guia Características do Cluster resume as transições entre estados em um cluster exibindo barras que representam visualmente a importância do valor do atributo para o cluster selecionado. A coluna Variáveis informa o que o modelo achou importante para o cluster ou população selecionado: um valor específico ou a relação entre valores, conhecido como transição. A coluna Valores fornece mais detalhes sobre o valor ou a transição e a coluna Probabilidade representa visualmente o peso desse atributo ou transição.
Para exibir os atributos importantes para um cluster
Na lista suspensa Cluster , selecione
Pacific Cluster.A lista é atualizada para mostrar as características do cluster que você renomeou
Pacific Cluster. Nesse cluster, a característica mais importante éRegion.Pause o mouse sobre a barra sombreada na linha para
Region.A probabilidade do valor ser o Pacífico é muito alta. Para obter mais informações sobre como interpretar esses valores, consulte a Referência Técnica do Algoritmo de Clustering de Sequência da Microsoft.
Examine a lista de características do cluster até encontrar a primeira linha de transição.
Uma linha de transição contém a transição de texto na coluna Variáveis e alguma combinação de valores de atributo sequencial na coluna Valor . A sequência também pode conter pontos iniciais e valores ausentes.
Por exemplo, suponha que a transição tenha o valor [Start] –> Tubo de Pneu Rodoviário. Isso significa que os clientes neste cluster frequentemente colocam o Tubo de Pneu rodoviário em sua cesta de compras primeiro. Isso pode significar que o produto é um item popular que os clientes procuram primeiro ou pode indicar apenas que o produto é fácil de encontrar no site de compra.
Role a lista até encontrar a primeira transição que não tenha [Iniciar] ou ausente nela.
Por exemplo, suponha que você encontre a transição, Pneu de Touring, Tubo de Pneu de Touring. Isso significa que os clientes nesse cluster frequentemente compravam esses itens juntos, exatamente nessa ordem.
Pause o mouse sobre a barra sombreada para essa transição.
A probabilidade dessa transição é exibida como uma porcentagem.
Na lista suspensa Cluster, selecione População (Todos).
A lista de atualizações de atributos para mostrar as características de todos os pedidos usados para criar o modelo. Nesse modelo de mineração, a característica mais importante para distinguir entre clusters é
Regiono valor da América do Norte.
Depois de revisar essas tarefas, você percebe duas coisas. A primeira é que você precisa de muitos dados para obter um número significativo de combinações. Por exemplo, as sequências com as maiores probabilidades provavelmente incluirão um estado [Iniciar] ou Ausente .
A segunda é que há um forte efeito de clustering nos atributos para Region, o que torna mais difícil ver os grupos de sequências. Portanto, você decide criar outro modelo que usa apenas sequências e não inclui as colunas para região ou renda.
Aba Discriminação de Agrupamento
A guia Discriminação de Cluster ajuda você a comparar dois clusters, para determinar quais atributos distinguem um cluster específico de outro cluster. A guia contém quatro colunas: Variáveis, Valores, Cluster 1 e Cluster 2. Você pode escolher qualquer cluster a ser usado como Cluster 1 e Cluster 2.
A coluna Variáveis informa o nome do atributo, que pode ser um nome de coluna ou uma combinação do nome de coluna e a palavra transição. A coluna Valores mostra o valor exato do atributo ou da transição. As barras sombreadas nas colunas para Cluster 1 e Cluster 2 indicam a força do atributo nos clusters que você está comparando. Quanto maior a barra, mais o cluster provavelmente incluirá casos com esse atributo.
Para comparar dois clusters usando a guia Discriminação de Clusters
Na guia Discriminação de Cluster , para Cluster 1, selecione
Pacific Cluster.Por padrão, a seleção do Cluster 2 muda para Complemento do Cluster do Pacífico.
O atributo superior que distingue
Pacific Clusterde todos os outros casos é a região. A região é um atributo tão forte para clustering que obscurece outros atributos. Para evitar esse efeito, tente comparar vários clusters menores entre si. Quando você faz isso, a lista de atributos muda e pode incluir mais transições entre modelos.Localize uma linha de transição e pause o mouse sobre a barra sombreada.
Os itens na coluna Valores podem incluir estados e transições. O sombreamento para cada item indica a pontuação de discriminação. Para saber mais sobre o significado de diferentes pontuações, consulte Conteúdo do Modelo de Mineração para Modelos de Clustering de Sequência (Analysis Services – Mineração de Dados).
Aba Transições de Estado
Na guia Transições de Estado , você pode selecionar um cluster e navegar por suas transições de estado. Se você selecionar População (Todos) na lista suspensa do cluster, o diagrama mostrará a distribuição de estados para todo o modelo de mineração.
Cada nó no grafo representa um estado ou um valor possível das sequências que você está tentando analisar. A cor de fundo dos nós representa a frequência desse estado. As linhas conectam alguns estados, indicando uma transição entre estados. Você pode mover o controle deslizante para cima ou para baixo para alterar o limite de probabilidade para as transições. Os números são associados a alguns nós, indicando a probabilidade desse estado.
Para explorar as relações na aba de Transição de Estado
Na guia Transições de Estado do visualizador do Modelo de Mineração, selecione
Pacific Clusterna lista de clusters. Verifique se a opção Mostrar Rótulos de Borda está selecionada.O grafo é atualizado para mostrar as transições mais comuns neste cluster.
Clique em qualquer nó que esteja conectado por uma linha a outro nó.
O grafo é atualizado e realça os nós relacionados. O valor numérico ao lado da linha indica a probabilidade da transição.
Aumente o controle deslizante para Todos os Links, para aumentar o número de transições incluídas no grafo.
Selecione População (Todos) no Cluster.
Observe que, quando você carrega um cluster diferente, o grafo é redefinido para as configurações de exibição padrão, de modo que o controle deslizante é redefinido para a posição intermediária.
Clique no nó mais escuro do grafo, que deve ser Sport-100.
Observe que não há linhas que conectem esse produto a outros produtos.
Aumente o controle deslizante uma etapa para aumentar o número de transições incluídas no grafo. Não vá até Todos os Links ainda.
O grafo é atualizado adicionando várias outras transições ao grafo, mas nenhuma que inclua o modelo Sport-100.
Mova o controle deslizante até que alcance Todos os Links. Clique no nó Sport-100 se ele ainda não estiver selecionado.
O grafo é atualizado para mostrar muitas transições que incluem o produto Sport-100. A direção da seta na linha de conexão informa se o item Sport-100 foi selecionado como o primeiro item ou o segundo item no par.
Clique no nó do Pneu Touring e mova o controle deslizante de volta para a posição intermediária.
Inicialmente, há muitas linhas de transição conectando o Pneu de passeio a outros produtos, mas quando você aumenta o limite de probabilidade, as transições menos prováveis são eliminadas do gráfico, deixando apenas a transição, Pneu de passeio > Tubo de Pneu de passeio. Essa transição significa que, se um cliente colocar um pneu touring na cesta de compras, há uma grande probabilidade de que o cliente coloque um Tubo de Pneu touring na cesta.
Visualizador de Árvore de Conteúdo Genérico
Esse visualizador pode ser usado para todos os modelos, independentemente do algoritmo ou tipo de modelo. O Visualizador de Árvore de Conteúdo Microsoft Generic está disponível na lista suspensa Visualizador.
Uma árvore de conteúdo é uma representação de qualquer modelo de mineração como uma série de nós, em que cada nó representa o conhecimento aprendido sobre os dados de treinamento. O nó pode conter um padrão, um conjunto de regras, um cluster ou a definição de um intervalo de datas que compartilham alguns atributos. O conteúdo exato do nó difere dependendo do algoritmo e do atributo previsível, mas a representação geral do conteúdo é a mesma.
Você pode expandir cada nó para visualizar mais detalhes e copiar o conteúdo de qualquer nó para a área de transferência. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Árvore de Conteúdo Genérico da Microsoft.
Para exibir detalhes de um modelo de clustering de sequência usando o Visualizador de Árvore de Conteúdo Genérico
Na guia Visualizador do Modelo de Mineração , clique na lista visualizador e selecione o visualizador da Árvore de Conteúdo Genérico da Microsoft.
No painel Legenda do Nó, clique em
Pacific Cluster (1).O nome deste nó contém tanto o nome amigável que você atribuiu ao cluster quanto a identidade do nó subjacente. Você pode usar os identificadores do nó para aprofundar detalhes adicionais no modelo.
Expanda o primeiro nó filho, denominado nível de sequência para o cluster 1.
O nó de nível de sequência para um cluster contém informações sobre os estados e transições incluídos nesse cluster. Você pode usar esses detalhes, disponíveis na coluna NODE_DISTRIBUTION, para explorar as sequências e os estados para cada cluster ou para o modelo como um todo.
Continue a expandir nós e a exibir os detalhes no painel do visualizador HTML.
Para obter mais informações sobre o conteúdo do modelo de mineração e como usar os detalhes no visualizador, consulte Conteúdo do Modelo de Mineração para Modelos de Agrupamento de Sequências (Analysis Services – Mineração de Dados).
Próxima tarefa da lição
Consulte Também
Algoritmo de Clustering de Sequência da Microsoft
Exemplos de consulta de modelo de agrupamento de sequência