Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O algoritmo Regressão Linear da Microsoft é uma versão especial do algoritmo Árvores de Decisão da Microsoft otimizada para pares de modelagem de atributos contínuos. Este tópico explica a implementação do algoritmo, descreve como personalizar o comportamento do algoritmo e fornece links para informações adicionais sobre modelos de consulta.
Implementação do algoritmo de regressão linear
O algoritmo Árvores de Decisão da Microsoft pode ser usado para muitas tarefas: regressão linear, classificação ou análise de associação. Para implementar esse algoritmo para fins de regressão linear, os parâmetros do algoritmo são controlados para restringir o crescimento da árvore e manter todos os dados no modelo em um único nó. Em outras palavras, apesar de a regressão linear ser baseada em uma árvore de decisão, a árvore contém apenas uma única raiz e nenhum ramo: todos os dados ficam no nó raiz.
Para fazer isso, o parâmetro MINIMUM_LEAF_CASES do algoritmo é definido como maior ou igual ao número total de casos que o algoritmo usa para treinar o modelo de mineração. Com o parâmetro definido dessa forma, o algoritmo nunca criará uma divisão e, portanto, executará uma regressão linear.
A equação que representa a linha de regressão assume a forma geral de y = ax + b e é conhecida como a equação de regressão. A variável Y representa a variável de saída, X representa a variável de entrada e a e b são coeficientes ajustáveis. Você pode recuperar os coeficientes, interceptações e outras informações sobre a fórmula de regressão consultando o modelo de mineração concluído. Para obter mais informações, consulte exemplos de consulta de modelo de regressão linear.
Métodos de pontuação e seleção de recursos
Todos os algoritmos de mineração de dados do Analysis Services usam automaticamente a seleção de recursos para melhorar a análise e reduzir a carga de processamento. O método usado para a seleção de características na regressão linear é a pontuação de interesse, porque o modelo suporta apenas colunas contínuas. Para referência, a tabela a seguir mostra a diferença na seleção de recursos para o algoritmo regressão linear e o algoritmo Árvores de Decisão.
| Algoritmo | Método de análise | Comentários |
|---|---|---|
| Regressão Linear | Pontuação de interessante | Padrão. Outros métodos de seleção de recursos disponíveis com o algoritmo Árvores de Decisão se aplicam apenas a variáveis discretas e, portanto, não são aplicáveis a modelos de regressão linear. |
| Árvores de decisão | Pontuação de interessante Entropia de Shannon Bayesian com K2 Prior Dirichlet bayesiano com prévio uniforme (padrão) |
Se qualquer coluna contiver valores contínuos não binários, a pontuação de interessante será usada para todas as colunas, para garantir a consistência. Caso contrário, o método padrão ou especificado será usado. |
Os parâmetros de algoritmo que controlam a seleção de recursos para um modelo de árvores de decisão são MAXIMUM_INPUT_ATTRIBUTES e MAXIMUM_OUTPUT.
Personalizando o algoritmo de regressão linear
O algoritmo regressão linear da Microsoft dá suporte a parâmetros que afetam o comportamento, o desempenho e a precisão do modelo de mineração resultante. Você também pode definir sinalizadores de modelagem nas colunas do modelo de mineração ou colunas de estrutura de mineração para controlar a maneira como os dados são processados.
Definindo parâmetros de algoritmo
A tabela a seguir lista os parâmetros fornecidos para o algoritmo regressão linear da Microsoft.
| Parâmetro | Descrição |
|---|---|
| ATRIBUTOS_MÁXIMOS_DE_ENTRADA | Define o número de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recursos. Defina esse valor como 0 para desativar a seleção de recursos. O padrão é 255. |
| MAXIMUM_OUTPUT_ATTRIBUTES | Define o número de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recursos. Defina esse valor como 0 para desativar a seleção de recursos. O padrão é 255. |
| FORCE_REGRESSOR | Força o algoritmo a usar as colunas indicadas como regressores, independentemente da importância das colunas, conforme calculado pelo algoritmo. |
Sinalizadores de modelagem
O algoritmo regressão linear da Microsoft dá suporte aos seguintes sinalizadores de modelagem. Ao criar a estrutura de mineração ou o modelo de mineração, você define sinalizadores de modelagem para especificar como os valores em cada coluna são tratados durante a análise. Para obter mais informações, consulte Sinalizadores de Modelagem (Mineração de Dados).
| Sinalizador de modelagem | Descrição |
|---|---|
| NÃO NULO | Indica que a coluna não pode conter um nulo. Um erro resultará se o Analysis Services encontrar um valor nulo durante o treinamento do modelo. Aplica-se a colunas de estrutura de mineração. |
| REGRESSOR | Indica que a coluna contém valores numéricos contínuos que devem ser tratados como variáveis independentes potenciais durante a análise. Observação: marcar uma coluna como regressor não garante que a coluna será utilizada como regressor no modelo final. Aplica-se a colunas de modelo de mineração. |
Regressores em modelos de regressão linear
Os modelos de regressão linear baseiam-se no algoritmo Árvores de Decisão da Microsoft. No entanto, mesmo que você não use o algoritmo regressão linear da Microsoft, qualquer modelo de árvore de decisão poderá conter uma árvore ou nós que representem uma regressão em um atributo contínuo.
Você não precisa especificar que uma coluna contínua represente um regressor. O algoritmo Árvores de Decisão da Microsoft particionará o conjunto de dados em regiões com padrões significativos, mesmo se você não definir o sinalizador REGRESSOR na coluna. A diferença é que quando você define o sinalizador de modelagem, o algoritmo tentará encontrar equações de regressão do formulário a*C1 + b*C2 + ... para ajustar os padrões nos nós da árvore. A soma dos resíduos é calculada e, se o desvio for muito grande, força-se uma divisão na árvore.
Por exemplo, se você estiver prevendo o comportamento de compra do cliente usando Income como um atributo e definir o sinalizador REGRESSOR de modelagem na coluna, o algoritmo primeiro tentará ajustar os valores de Income usando uma fórmula de regressão padrão. Se o desvio for muito grande, a fórmula de regressão será abandonada e a árvore será dividida em algum outro atributo. O algoritmo de árvore de decisão tentaria ajustar um regressor para a renda em cada um dos ramos após a divisão.
Você pode usar o parâmetro FORCED_REGRESSOR para garantir que o algoritmo usará um regressor específico. Esse parâmetro pode ser usado com os algoritmos Árvores de Decisão da Microsoft e Regressão Linear da Microsoft.
Requisitos
Um modelo de regressão linear deve conter uma coluna de chave, colunas de entrada e pelo menos uma coluna previsível.
Colunas de entrada e previsão
O algoritmo Regressão Linear da Microsoft dá suporte às colunas de entrada específicas e colunas previsíveis listadas na tabela a seguir. Para obter mais informações sobre o que os tipos de conteúdo significam quando usados em um modelo de mineração, consulte Tipos de Conteúdo (Mineração de Dados).
| Coluna | Tipos de conteúdo |
|---|---|
| Atributo de entrada | Contínuo, cíclico, chave, tabela e ordenado |
| Atributo previsível | Contínuo, cíclico e ordenado |
Observação
Os tipos de conteúdo Cyclical e Ordered são suportados, mas o algoritmo os trata como valores discretos e não executa processamento especial.
Consulte Também
Algoritmo de regressão linear da Microsoft
Exemplos de consulta de modelo de regressão linear
Conteúdo do modelo de mineração para modelos de regressão linear (Analysis Services – Mineração de dados)