Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
O algoritmo de Agrupamento de Sequências da Microsoft é um algoritmo de análise de sequência fornecido pelo Analysis Services do Microsoft SQL Server. Você pode usar esse algoritmo para explorar dados que contêm eventos que podem ser vinculados seguindo caminhos ou sequências. O algoritmo localiza as sequências mais comuns agrupando ou agrupando em clusters sequências idênticas. Veja a seguir alguns exemplos de dados que contêm sequências que podem ser usadas para mineração de dados, para fornecer insights sobre problemas comuns ou cenários de negócios:
Caminhos de navegação que são criados quando os usuários exploram ou percorrem um site da Web.
Logs que listam eventos anteriores a um incidente, como falha de disco rígido ou deadlocks de servidor.
Registros de transação que descrevem o pedido no qual um cliente adiciona itens a um carrinho de compras em um varejista online.
Registros que seguem interações de cliente (ou paciente) ao longo do tempo, para prever cancelamentos de serviço ou outros resultados ruins.
Esse algoritmo é semelhante de várias maneiras ao algoritmo de Clustering da Microsoft. No entanto, em vez de encontrar clusters de casos que contêm atributos semelhantes, o algoritmo Clustering de Sequência da Microsoft localiza clusters de casos que contêm caminhos semelhantes em uma sequência.
Exemplo
O site do Adventure Works Cycles coleta informações sobre quais páginas os usuários do site visitam e sobre a ordem na qual as páginas são visitadas. Como a empresa fornece pedidos online, os clientes devem fazer logon no site. Isso fornece à empresa informações de clique para cada perfil de cliente. Usando o algoritmo Clustering de Sequência da Microsoft nesses dados, a empresa pode encontrar grupos ou clusters de clientes que têm padrões ou sequências de cliques semelhantes. Em seguida, a empresa pode usar esses clusters para analisar como os usuários se movem pelo site, para identificar quais páginas estão mais relacionadas à venda de um produto específico e prever quais páginas provavelmente serão visitadas em seguida.
Como o algoritmo funciona
O algoritmo de Agrupamento de Sequência da Microsoft é um algoritmo híbrido que combina técnicas de agrupamento com análise de cadeia de Markov para identificar agrupamentos e suas sequências. Uma das marcas do algoritmo de Clustering de Sequência da Microsoft é que ele usa dados de sequência. Esses dados normalmente representam uma série de eventos ou transições entre estados em um conjunto de dados, como uma série de compras de produtos ou cliques na Web para um usuário específico. O algoritmo examina todas as probabilidades de transição e mede as diferenças, ou distâncias, entre todas as sequências possíveis no conjunto de dados para determinar quais sequências são as melhores para usar como entradas para clustering. Depois que o algoritmo tiver criado a lista de sequências candidatas, ele usará as informações de sequência como uma entrada para o método EM de clustering.
Para obter uma descrição detalhada da implementação, consulte a Referência Técnica do Algoritmo de Clustering de Sequência da Microsoft.
Dados necessários para modelos de aglomeração de sequências
Ao preparar dados para uso no treinamento de um modelo de clustering de sequência, você deve entender os requisitos para o algoritmo específico, incluindo a quantidade de dados necessária e como os dados são usados.
Os requisitos para um modelo de clustering de sequência são os seguintes:
Uma única coluna de chave Um modelo de clustering de sequência requer uma chave que identifique registros.
Uma coluna de sequência Para dados de sequência, o modelo deve ter uma tabela aninhada que contenha uma coluna de ID de sequência. A ID da sequência pode ser qualquer tipo de dados classificável. Por exemplo, você pode usar um identificador de página da Web, um inteiro ou uma cadeia de caracteres de texto, desde que a coluna identifique os eventos em uma sequência. Somente um identificador de sequência é permitido para cada sequência e apenas um tipo de sequência é permitido em cada modelo.
Atributos opcionais sem sequência O algoritmo dá suporte à adição de outros atributos que não estão relacionados ao sequenciamento. Esses atributos podem incluir colunas aninhadas.
Por exemplo, no exemplo citado anteriormente do site da Web Adventure Works Cycles, um modelo de agrupamento de sequência pode incluir informações de pedido como tabela de casos, dados demográficos sobre o cliente específico para cada pedido como atributos não relacionados à sequência, e uma tabela aninhada que contém a sequência na qual o cliente navegou pelo site ou colocou itens em um carrinho de compras como informação de sequência.
Para obter informações mais detalhadas sobre os tipos de conteúdo e tipos de dados com suporte para modelos de clustering de sequência, consulte a seção Requisitos da Referência Técnica do Algoritmo de Clustering de Sequência da Microsoft.
Exibindo um modelo de agrupamento de sequência
O modelo de mineração criado por esse algoritmo contém descrições das sequências mais comuns nos dados. Para explorar o modelo, você pode usar o Visualizador de Cluster de Sequência da Microsoft. Quando você exibe um modelo de clustering de sequência, o Analysis Services mostra clusters que contêm várias transições. Você também pode exibir estatísticas pertinentes. Para obter mais informações, consulte Procurar um modelo usando o Visualizador de Cluster de Sequência da Microsoft.
Se quiser saber mais detalhes, navegue pelo modelo no Visualizador de Árvore de Conteúdo Genérico da Microsoft. O conteúdo armazenado para o modelo inclui a distribuição de todos os valores em cada nó, a probabilidade de cada cluster e detalhes sobre as transições. Para obter mais informações, consulte Conteúdo dos Modelos de Mineração para Modelos de Agrupamento por Sequência (Analysis Services – Mineração de Dados).
Criando previsões
Depois que o modelo for treinado, os resultados serão armazenados como um conjunto de padrões. Você pode usar as descrições das sequências mais comuns nos dados para prever a próxima etapa provável de uma nova sequência. No entanto, como o algoritmo inclui outras colunas, você pode usar o modelo resultante para identificar relações entre dados sequenciados e entradas que não são sequenciais. Por exemplo, se você adicionar dados demográficos ao modelo, poderá fazer previsões para grupos específicos de clientes. As consultas de previsão podem ser personalizadas para retornar um número variável de previsões ou para retornar estatísticas descritivas.
Para obter informações sobre como criar consultas em um modelo de mineração de dados, consulte Consultas de mineração de dados. Para obter exemplos de como usar consultas com um modelo de clustering de sequência, consulte exemplos de consulta de modelo de clustering de sequência.
Observações
Não dá suporte ao uso da PMML (Predictive Model Markup Language) para criar modelos de mineração.
Permite detalhamento por meio de drill-through.
Dá suporte ao uso de modelos de mineração OLAP e à criação de dimensões de mineração de dados.
Consulte Também
Algoritmos de mineração de dados (Analysis Services – Mineração de Dados)
Referência técnica do algoritmo de agrupamento sequencial da Microsoft
Exemplos de consulta de modelo de agrupamento de sequência
Navegar em um modelo usando o Microsoft Sequence Cluster Viewer