Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este tópico descreve o conteúdo do modelo de mineração específico para modelos que usam o algoritmo regressão linear da Microsoft. Para obter uma explicação geral do conteúdo do modelo de mineração para todos os tipos de modelo, consulte Conteúdo do Modelo de Mineração (Analysis Services – Mineração de Dados).
Noções básicas sobre a estrutura de um modelo de regressão linear
Um modelo de regressão linear tem uma estrutura extremamente simples. Cada modelo tem um nó pai único que representa o modelo e seus metadados e um nó de árvore de regressão (NODE_TYPE = 25) que contém a fórmula de regressão para cada atributo previsível.
Os modelos de regressão linear usam o mesmo algoritmo que as Árvores de Decisão da Microsoft, mas parâmetros diferentes são usados para restringir a árvore e apenas atributos contínuos são aceitos como entradas. No entanto, como os modelos de regressão linear são baseados no algoritmo Árvores de Decisão da Microsoft, os modelos de regressão linear são exibidos usando o Visualizador de Árvore de Decisão da Microsoft. Para obter informações, consulte Procurar um modelo usando o Microsoft Tree Viewer.
A próxima seção explica como interpretar informações no nó da fórmula de regressão. Essas informações se aplicam não apenas a modelos de regressão linear, mas também a modelos de árvores de decisão que contêm regressões em uma parte da árvore.
Conteúdo do modelo para um modelo de regressão linear
Esta seção fornece detalhes e exemplos apenas para essas colunas no conteúdo do modelo de mineração que têm relevância específica para regressão linear.
Para obter informações sobre colunas de uso geral no conjunto de linhas de esquema, consulte Conteúdo do Modelo de Mineração (Analysis Services – Mineração de Dados).
CATÁLOGO_DE_MODELOS
Nome do banco de dados em que o modelo é armazenado.
MODEL_NAME
Nome do modelo.
ATTRIBUTE_NAME
Nó raiz: Vazio
Nó de regressão: O nome do atributo previsível.
NODE_NAME
Sempre igual a NODE_UNIQUE_NAME.
NOME_UNICO_DO_NÓ
Um identificador exclusivo para o nó dentro do modelo. Esse valor não pode ser alterado.
NODE_TYPE
Um modelo de regressão linear gera os seguintes tipos de nó:
| ID do tipo de nó | Tipo | Descrição |
|---|---|---|
| vinte e cinco | Raiz da árvore de regressão | Contém a fórmula que descreve a relação entre a variável de entrada e saída. |
NODE_CAPTION
Um rótulo ou uma legenda associada ao nó. Essa propriedade é principalmente para fins de exibição.
Nó raiz: Vazio
Nó de regressão: Todos.
CARDINALIDADE_DOS_FILHOS
Uma estimativa do número de filhos que o nó tem.
Nó raiz: Indica o número de nós de regressão. Um nó de regressão é criado para cada atributo previsível no modelo.
Nó de regressão: Sempre 0.
NOME_ÚNICO_PAI
O nome exclusivo do pai do nó. NULL é retornado para quaisquer nós no nível raiz.
NODE_DESCRIPTION
Uma descrição do nó.
Nó raiz: Vazio
Nó de regressão: Todos.
NODE_RULE
Não usado para modelos de regressão linear.
Regra Marginal
Não usado para modelos de regressão linear.
PROBABILIDADE_DO_NÓ
A probabilidade associada a esse nó.
Nó raiz: 0
Nó de regressão: 1
Probabilidade Marginal
A probabilidade de atingir o nó a partir do nó pai.
Nó raiz: 0
Nó de regressão: 1
NODE_DISTRIBUTION
Uma tabela aninhada que fornece estatísticas sobre os valores no nó.
Nó raiz: 0
Nó de regressão: Uma tabela que contém os elementos usados para criar a fórmula de regressão. Um nó de regressão contém os seguintes tipos de valor:
| TIPODEVALOR |
|---|
| 1 (Ausente) |
| 3 (Contínuo) |
| 7 (Coeficiente) |
| 8 (Ganho de Pontuação) |
| 9 (Estatísticas) |
| 11 (Intercepto) |
NODE_SUPPORT
O número de casos que oferecem suporte a este nó.
Nó raiz: 0
Nó de regressão: Número de casos de treinamento.
MSOLAP_MODEL_COLUMN
Nome do atributo previsível.
MSOLAP_NODE_SCORE
O mesmo que NODE_PROBABILITY
MSOLAP_NODE_SHORT_CAPTION
Rótulo usado para fins de exibição.
Observações
Quando você cria um modelo usando o algoritmo Regressão Linear da Microsoft, o mecanismo de mineração de dados cria uma instância especial de um modelo de árvores de decisão e fornece parâmetros que restringem a árvore para conter todos os dados de treinamento em um único nó. Todas as entradas contínuas são sinalizadas e avaliadas como potenciais regressores, mas somente os regressores que se ajustam aos dados são mantidos como regressores no modelo final. A análise produz uma única fórmula de regressão para cada regressor ou nenhuma fórmula de regressão.
Você pode exibir a fórmula de regressão completa na Legenda de Mineração clicando no nó (Todos) no Microsoft Tree Viewer.
Além disso, quando você cria um modelo de árvores de decisão que inclui um atributo previsível contínuo, às vezes a árvore tem nós de regressão que compartilham as propriedades dos nós de árvore de regressão.
Distribuição de nós para atributos contínuos
A maioria das informações importantes em um nó de regressão está contida na tabela NODE_DISTRIBUTION. O exemplo a seguir ilustra o layout da tabela NODE_DISTRIBUTION. Neste exemplo, a estrutura de mineração de Mala Direcionada foi usada para criar um modelo de regressão linear que prevê a renda do cliente com base na idade. O modelo é apenas para fins de ilustração, pois pode ser criado facilmente usando a estrutura de mineração e dados de exemplo AdventureWorks2012 existentes.
| ATTRIBUTE_NAME | ATTRIBUTE_VALUE | APOIO | PROBABILIDADE | VARIAÇÃO | TIPO DE VALOR |
|---|---|---|---|---|---|
| Renda Anual | Em falta | 0 | 0.000457142857142857 | 0 | 1 |
| Renda Anual | 57220.8876687257 | 17484 | 0,999542857142857 | 1041275619.52776 | 3 |
| Idade | 471.687717702463 | 0 | 0 | 126.969442359327 | 7 |
| Idade | 234.680904692439 | 0 | 0 | 0 | 8 |
| Idade | 45.4269617936399 | 0 | 0 | 126.969442359327 | 9 |
| 35793.5477381267 | 0 | 0 | 1012968919.28372 | 11 |
A tabela NODE_DISTRIBUTION contém várias linhas, cada uma agrupada por uma variável. As duas primeiras linhas são sempre os tipos de valor 1 e 3 e descrevem o atributo de destino. As linhas seguintes fornecem detalhes sobre a fórmula para um regressor específico. Um regressor é uma variável de entrada que tem uma relação linear com a variável de saída. Você pode ter vários regressores e cada regressor terá uma linha separada para o coeficiente (VALUETYPE = 7), ganho de pontuação (VALUETYPE = 8) e estatísticas (VALUETYPE = 9). Por fim, a tabela tem uma linha que contém a interceptação da equação (VALUETYPE = 11).
Elementos da fórmula de regressão
A tabela NODE_DISTRIBUTION aninhada contém cada elemento da fórmula de regressão em uma linha separada. As duas primeiras linhas de dados nos resultados de exemplo contêm informações sobre o atributo previsível, Renda Anual, que modela a variável dependente. A coluna SUPPORT mostra a contagem de casos em suporte dos dois estados desse atributo: um valor de Renda Anual estava disponível ou o valor de Renda Anual estava ausente.
A coluna VARIANCE informa a variação computada do atributo previsível. Variação é uma medida de quão dispersos os valores estão em um exemplo, dada uma distribuição esperada. A variação aqui é calculada tomando a média do desvio quadrado da média. A raiz quadrada da variação também é conhecida como desvio padrão. O Analysis Services não fornece o desvio padrão, mas você pode calculá-lo facilmente.
Para cada regressor, três linhas são geradas como saída. Eles contêm as estatísticas de coeficiente, ganho de pontuação e regressor.
Por fim, a tabela contém uma linha que fornece o intercepto para a equação.
Coeficiente
Para cada regressor, um coeficiente (VALUETYPE = 7) é calculado. O coeficiente em si aparece na coluna ATTRIBUTE_VALUE, enquanto a coluna VARIANCE informa a variação do coeficiente. Os coeficientes são calculados para maximizar a linearidade.
Ganho de pontuação
O ganho de pontuação (VALUETYPE = 8) para cada regressor representa a pontuação de interessante do atributo. Você pode usar esse valor para estimar a utilidade de vários regressores.
Estatísticas
A estatística de regressor (VALUETYPE = 9) é a média para o atributo para casos que têm um valor. A coluna ATTRIBUTE_VALUE contém a própria média, enquanto a coluna VARIANCE contém a soma de desvios da média.
Interceptar
Normalmente, o intercepto (VALUETYPE = 11) ou residual em uma equação de regressão informa o valor do atributo predito no ponto em que o atributo de entrada é 0. Em muitos casos, isso pode não acontecer e pode levar a resultados contraintuitivos.
Por exemplo, em um modelo que prevê renda com base na idade, é inútil aprender a renda aos 0 anos de idade. Na vida real, normalmente é mais útil saber sobre o comportamento da linha em relação aos valores médios. Portanto, o SQL Server Analysis Services modifica o intercepto para expressar cada regressor em relação à média.
Esse ajuste é difícil de ver no conteúdo do modelo de mineração, mas é evidente se você exibir a equação concluída na Legenda de Mineração do Microsoft Tree Viewer. A fórmula de regressão é deslocada do ponto 0 para o ponto que representa a média. Isso apresenta uma exibição mais intuitiva considerando os dados atuais.
Portanto, supondo que a idade média seja em torno de 45 anos, a interceptação (VALUETYPE = 11) para a fórmula de regressão informa a renda média.
Consulte Também
Conteúdo do modelo de mineração (Analysis Services – Mineração de dados)
Algoritmo de regressão linear da Microsoft
Referência técnica do algoritmo de regressão linear da Microsoft
Exemplos de consulta de modelo de regressão linear