Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este tópico descreve o conteúdo do modelo de mineração específico para modelos que usam o algoritmo de Clustering da Microsoft. Para obter uma explicação geral do conteúdo do modelo de mineração para todos os tipos de modelo, consulte Conteúdo do Modelo de Mineração (Analysis Services – Mineração de Dados).
Noções básicas sobre a estrutura de um modelo de clustering
Um modelo de clustering tem uma estrutura simples. Cada modelo possui um nó pai único que representa o modelo e seus metadados, e cada nó pai possui uma lista não hierárquica de clusters (NODE_TYPE = 5). Essa organização é mostrada na imagem a seguir.
Cada nó filho representa um único cluster e contém estatísticas detalhadas sobre os atributos dos casos nesse cluster. Isso inclui uma contagem do número de casos no cluster e a distribuição de valores que distinguem o cluster de outros clusters.
Observação
Você não precisa percorrer os nós para obter uma contagem ou descrição dos clusters; o nó pai do modelo também contabiliza e lista os clusters.
O nó pai contém estatísticas úteis que descrevem a distribuição real de todos os exemplos de treinamento. Essas estatísticas são encontradas na coluna NODE_DISTRIBUTION da tabela aninhada. Por exemplo, a tabela a seguir mostra várias linhas da tabela NODE_DISTRIBUTION que descrevem a distribuição da demografia do cliente para o modelo de clustering, TM_Clusteringque você cria no Tutorial básico de mineração de dados:
| ATTRIBUTE_NAME | ATRIBUTO_VALOR | APOIO | PROBABILIDADE | VARIAÇÃO | TIPO_DE_VALOR |
|---|---|---|---|---|---|
| Idade | Em falta | 0 | 0 | 0 | 1 (Ausente) |
| Idade | 44.9016152716593 | 12939 | 1 | 125.663453102554 | 3 (Contínuo) |
| Gênero | Em falta | 0 | 0 | 0 | 1 (Ausente) |
| Gênero | F | 6350 | 0.490764355823479 | 0 | 4 (Discreto) |
| Gênero | M | 6589 | 0.509235644176521 | 0 | 4 (Discreto) |
A partir desses resultados, você pode ver que houve 12939 casos usados para construir o modelo, que a proporção de homens para mulheres era de cerca de 50-50, e que a idade média era 44. As estatísticas descritivas variam dependendo se o atributo que está sendo relatado é um tipo de dados numérico contínuo, como idade ou um tipo de valor discreto, como sexo. A média e a variação das medidas estatísticas são computadas para tipos de dados contínuos, enquanto a probabilidade e o suporte são computados para tipos de dados discretos.
Observação
A variação representa a variação total do cluster. Quando o valor da variação é pequeno, indica que a maioria dos valores na coluna estava bastante próxima da média. Para obter o desvio padrão, calcule a raiz quadrada da variação.
Observe que para cada um dos atributos há um Missing tipo de valor que informa quantos casos não tinham dados para esse atributo. Os dados ausentes podem ser significativos e afetam os cálculos de diferentes maneiras, dependendo do tipo de dados. Para obter mais informações, consulte Valores Ausentes (Analysis Services – Mineração de Dados).
Conteúdo do modelo para um modelo de clustering
Esta seção fornece detalhes e exemplos apenas para essas colunas no conteúdo do modelo de mineração que são relevantes para modelos de clustering.
Para obter informações sobre as colunas de uso geral nas linhas do conjunto de esquema, como MODEL_CATALOG e MODEL_NAME, consulte o Conteúdo do Modelo de Mineração de Dados (Serviços de Análise – Mineração de Dados).
CATÁLOGO_DE_MODELOS
Nome do banco de dados em que o modelo é armazenado.
MODEL_NAME
Nome do modelo.
ATTRIBUTE_NAME
Sempre em branco em modelos de clustering porque não há nenhum atributo previsível no modo.
NODE_NAME
Sempre igual a NODE_UNIQUE_NAME.
NOME_UNICO_DO_NÓ
Um identificador exclusivo para o nó dentro do modelo. Esse valor não pode ser alterado.
NODE_TYPE
Um modelo de agrupamento gera os seguintes tipos de nó:
| ID e nome do nó | Descrição |
|---|---|
| 1 (Modelo) | Nó raiz para o modelo. |
| 5 (Agrupamento) | Contém uma contagem de casos no cluster, as características dos casos no cluster e estatísticas que descrevem os valores no cluster. |
NODE_CAPTION
Um nome amigável para fins de exibição. Quando você cria um modelo, o valor de NODE_UNIQUE_NAME é usado automaticamente como legenda. No entanto, você pode alterar o valor para NODE_CAPTION, para atualizar o nome de exibição do cluster, seja programaticamente ou usando o visualizador.
Observação
Quando você reprocessar o modelo, todas as alterações de nome serão substituídas pelos novos valores. Você não pode persistir nomes no modelo ou acompanhar alterações na associação de cluster entre diferentes versões de um modelo.
CARDINALIDADE_DOS_FILHOS
Uma estimativa do número de filhos que o nó tem.
Nó pai Indica o número de clusters no modelo.
Nós de cluster Sempre 0.
NOME_ÚNICO_PAI
O nome exclusivo do pai do nó.
Nó pai Sempre NULL
Nós de cluster Normalmente 000.
NODE_DESCRIPTION
Uma descrição do nó.
Nó pai Always (All).
Nós de cluster Uma lista separada por vírgulas dos atributos primários que distinguem o cluster de outros clusters.
NODE_RULE
Não usado para modelos de clustering.
Regra Marginal
Não usado para modelos de clustering.
PROBABILIDADE_DO_NÓ
A probabilidade associada a esse nó.
Nó pai Sempre 1.
Nós de cluster A probabilidade representa a probabilidade composta dos atributos, com alguns ajustes dependendo do algoritmo usado para criar o modelo de agrupamento.
Probabilidade Marginal
A probabilidade de atingir o nó a partir do nó pai. Em um modelo de clustering, a probabilidade marginal é sempre igual à probabilidade do nó.
DISTRIBUIÇÃO_DE_NÓDULOS
Uma tabela que ilustra o histograma de probabilidade do nó.
Nó pai Consulte a Introdução a este tópico.
Nós de cluster Representam a distribuição de atributos e valores para casos incluídos neste cluster.
NODE_SUPPORT
O número de casos que oferecem suporte a este nó.
Nó Pai Indica o número de casos de treinamento para o modelo todo.
Nós de cluster Indica o tamanho do cluster em número de casos.
Nota Se o modelo usar clustering K-Means, cada caso poderá pertencer a apenas um cluster. No entanto, se o modelo usa clustering EM, cada caso pode pertencer a um cluster diferente e o caso recebe uma distância ponderada para cada cluster ao qual ele pertence. Portanto, para modelos EM, a soma do suporte para um cluster individual é maior do que o suporte para o modelo geral.
MSOLAP_MODEL_COLUMN
Não usado para modelos de clustering.
MSOLAP_NODE_SCORE
Exibe uma pontuação associada ao nó.
Nó pai A pontuação BIC (Critério de Informações Bayesiana) para o modelo de clustering.
Sempre 0 para nós do cluster.
MSOLAP_NODE_SHORT_CAPTION
Um rótulo usado para fins de exibição. Você não pode alterar essa legenda.
Nó pai O tipo de modelo: modelo de cluster
Nós de cluster O nome do cluster. Exemplo: Cluster 1.
Observações
O Analysis Services fornece vários métodos para criar um modelo de clustering. Se você não souber com qual método foi usado para criar o modelo com o qual está trabalhando, poderá recuperar os metadados do modelo programaticamente usando um cliente ADOMD ou AMO ou consultando o conjunto de linhas do esquema de mineração de dados. Para obter mais informações, consulte Consultar os parâmetros usados para criar um modelo de mineração.
Observação
A estrutura e o conteúdo do modelo permanecem os mesmos, independentemente de quais métodos ou parâmetros de clustering você usa.
Consulte Também
Conteúdo do modelo de mineração (Analysis Services – Mineração de dados)
Visualizadores do modelo de Mineração de dados
Algoritmo de clustering da Microsoft
Consultas de mineração de dados