Referência técnica do algoritmo Árvores de Decisão da Microsoft

O algoritmo Árvores de Decisão da Microsoft é um algoritmo híbrido que incorpora diferentes métodos para criar uma árvore e dá suporte a várias tarefas analíticas, incluindo regressão, classificação e associação. O algoritmo Árvores de Decisão da Microsoft dá suporte à modelagem de atributos discretos e contínuos.

Este tópico explica a implementação do algoritmo, descreve como personalizar o comportamento do algoritmo para tarefas diferentes e fornece links para informações adicionais sobre como consultar modelos de árvore de decisão.

Implementação do algoritmo Árvores de Decisão

O algoritmo Árvores de Decisão da Microsoft aplica a abordagem bayesiana para aprender modelos de interação causal obtendo distribuições posteriores aproximadas para os modelos. Para obter uma explicação detalhada dessa abordagem, consulte o artigo no site de Pesquisa da Microsoft, por Estrutura e Aprendizado de Parâmetro.

A metodologia para avaliar o valor das informações dos antecedentes necessários para o aprendizado baseia-se na suposição de equivalência de probabilidade. Essa suposição diz que os dados não devem ajudar a discriminar estruturas de rede que, de outra forma, representam as mesmas declarações de independência condicional. Acredita-se que cada caso tenha uma única rede anterior bayesiana e uma única medida de confiança para essa rede.

Usando essas redes anteriores, o algoritmo computa as probabilidades posteriores relativas das estruturas de rede dadas os dados de treinamento atuais e identifica as estruturas de rede que têm as maiores probabilidades posteriores.

O algoritmo Árvores de Decisão da Microsoft usa métodos diferentes para calcular a melhor árvore. O método usado depende da tarefa, que pode ser regressão linear, classificação ou análise de associação. Um único modelo pode conter várias árvores para diferentes atributos previsíveis. Além disso, cada árvore pode conter várias ramificações, dependendo do número de atributos e valores presentes nos dados. A forma e a profundidade da árvore criada em um modelo específico dependem do método de pontuação e de outros parâmetros que foram usados. As alterações nos parâmetros também podem afetar onde os nós são divididos.

Construindo a árvore

Quando o algoritmo Árvores de Decisão da Microsoft cria o conjunto de valores de entrada possíveis, ele executa a seleção de recursos para identificar os atributos e valores que fornecem mais informações e remove da consideração os valores que são muito raros. O algoritmo também agrupa valores em compartimentos, para criar agrupamentos de valores que podem ser processados como uma unidade para otimizar o desempenho.

Uma árvore é criada determinando as correlações entre uma entrada e o resultado direcionado. Depois que todos os atributos tiverem sido correlacionados, o algoritmo identificará o único atributo que separa mais limpamente os resultados. Esse ponto da melhor separação é medido usando uma equação que calcula o ganho de informações. O atributo que tem a melhor pontuação para ganho de informações é usado para dividir os casos em subconjuntos, que são analisados recursivamente pelo mesmo processo, até que a árvore não possa mais ser dividida.

A equação exata usada para avaliar o ganho de informações depende dos parâmetros definidos quando você criou o algoritmo, o tipo de dados da coluna previsível e o tipo de dados da entrada.

Entradas discretas e contínuas

Quando o atributo previsível é discreto e as entradas são discretas, contar os resultados por entrada é uma questão de criar uma matriz e gerar pontuações para cada célula na matriz.

No entanto, quando o atributo previsível é discreto e as entradas são contínuas, a entrada das colunas contínuas é automaticamente discreta. Você pode aceitar o valor padrão e permitir que o Analysis Services encontre o número ideal de compartimentos ou pode controlar a maneira como as entradas contínuas são discretizadas definindo as propriedades DiscretizationMethod e DiscretizationBucketCount. Para obter mais informações, consulte Alterar a discretização de uma coluna em um modelo de mineração.

Para atributos contínuos, o algoritmo usa regressão linear para determinar onde uma árvore de decisão é dividida.

Quando o atributo previsível é um tipo de dados numérico contínuo, a seleção de recursos também é aplicada às saídas, para reduzir o número possível de resultados e criar o modelo mais rapidamente. Você pode alterar o limite para a seleção de recursos e, assim, aumentar ou diminuir o número de valores possíveis definindo o parâmetro MAXIMUM_OUTPUT_ATTRIBUTES.

Para obter uma explicação mais detalhada sobre como o algoritmo Árvores de Decisão da Microsoft funciona com colunas previsíveis discretas, consulte Learning Bayesian Networks: The Combination of Knowledge and Statistical Data. Para obter mais informações sobre como o algoritmo Árvores de Decisão da Microsoft funciona com uma coluna previsível contínua, consulte o apêndice de modelos de árvore autoregressiva para análise de Time-Series.

Métodos de pontuação e seleção de recursos

O algoritmo Árvores de Decisão da Microsoft oferece três fórmulas para calcular o ganho de informação: a entropia de Shannon, a rede bayesiana com K2 como a priori, e a rede bayesiana com uma distribuição uniforme de Dirichlet nos priors. Todos os três métodos estão bem estabelecidos no campo de mineração de dados. Recomendamos que você experimente diferentes parâmetros e métodos de pontuação para determinar quais fornecem os melhores resultados. Para obter mais informações sobre esses métodos de pontuação, consulte Seleção de Características.

Todos os algoritmos de mineração de dados do Analysis Services usam automaticamente a seleção de recursos para melhorar a análise e reduzir a carga de processamento. O método usado para a seleção de recursos depende do algoritmo usado para criar o modelo. Os parâmetros de algoritmo que controlam a seleção de recursos para um modelo de árvores de decisão são MAXIMUM_INPUT_ATTRIBUTES e MAXIMUM_OUTPUT.

Algoritmo	Método de análise	Comentários
Árvores de decisão	Pontuação de interessante Entropia de Shannon Bayesian com K2 Prior Dirichlet bayesiano com prévio uniforme (padrão)	Se qualquer coluna contiver valores contínuos não binários, a pontuação de interessante será usada para todas as colunas, para garantir a consistência. Caso contrário, o método padrão ou especificado será usado.
Regressão Linear	Pontuação de interessante	A Regressão Linear usa apenas a interessanteidade, pois dá suporte apenas a colunas contínuas.

Desempenho e escalabilidade

A classificação é uma estratégia de mineração de dados importante. Em geral, a quantidade de informações necessárias para classificar os casos aumenta em proporção direta ao número de registros de entrada. Isso limita o tamanho dos dados que podem ser classificados. O algoritmo Árvores de Decisão da Microsoft utiliza os seguintes métodos para resolver esses problemas, melhorar o desempenho e eliminar restrições de memória:

Seleção de recursos para otimizar a seleção de atributos.
Pontuação bayesiana para controlar o crescimento da árvore.
Otimização do binning para atributos contínuos.
Agrupamento dinâmico de valores de entrada para determinar os valores mais importantes.

O algoritmo Árvores de Decisão da Microsoft é rápido e escalonável e foi projetado para ser facilmente paralelizado, o que significa que todos os processadores trabalham juntos para criar um único modelo consistente. A combinação dessas características torna o classificador de árvore de decisão uma ferramenta ideal para mineração de dados.

Se as restrições de desempenho forem severas, você poderá melhorar o tempo de processamento durante o treinamento de um modelo de árvore de decisão usando os métodos a seguir. No entanto, se você fizer isso, lembre-se de que eliminar atributos para melhorar o desempenho do processamento alterará os resultados do modelo e, possivelmente, o tornará menos representativo da população total.

Aumente o valor do parâmetro COMPLEXITY_PENALTY para limitar o crescimento da árvore.
Limite o número de itens em modelos de associação para limitar o número de árvores que são criadas.
Aumente o valor do parâmetro MINIMUM_SUPPORT para evitar o sobreajustamento.
Restrinja o número de valores discretos para qualquer atributo para 10 ou menos. Você pode tentar agrupar valores de diferentes maneiras em modelos diferentes.

Observação

Você pode usar as ferramentas de exploração de dados disponíveis no SSIS (SQL Server 2014 Integration Services) para visualizar a distribuição de valores em seus dados e agrupar seus valores adequadamente antes de iniciar a mineração de dados. Para obter mais informações, consulte a Tarefa Criação de Perfil de Dados e o Visualizador. Você também pode usar os Suplementos de Mineração de Dados para Excel 2007, para explorar, agrupar e relançar dados no Microsoft Excel.

Personalizando o algoritmo Árvores de Decisão

O algoritmo Árvores de Decisão da Microsoft dá suporte a parâmetros que afetam o desempenho e a precisão do modelo de mineração resultante. Você também pode definir sinalizadores de modelagem nas colunas do modelo de mineração ou colunas de estrutura de mineração para controlar a maneira como os dados são processados.

Observação

O algoritmo Árvores de Decisão da Microsoft está disponível em todas as edições do SQL Server; no entanto, alguns parâmetros avançados para personalizar o comportamento do algoritmo Árvores de Decisão da Microsoft estão disponíveis para uso somente em edições específicas do SQL Server. Para obter uma lista de recursos compatíveis com as edições do SQL Server, consulte recursos compatíveis com as edições do SQL Server 2012 (https://go.microsoft.com/fwlink/?linkid=232473).

Definindo parâmetros de algoritmo

A tabela a seguir descreve os parâmetros que você pode usar com o algoritmo Árvores de Decisão da Microsoft.

PENA_CUMPLEXIDADE
Controla o crescimento da árvore de decisão. Um valor baixo aumenta o número de divisões e um valor alto diminui o número de divisões. O valor padrão é baseado no número de atributos de um modelo específico, conforme descrito na seguinte lista:

Para atributos de 1 a 9, o padrão é 0,5.
Para 10 a 99 atributos, o padrão é 0,9.
Para 100 ou mais atributos, o padrão é 0,99.

FORCE_REGRESSOR
Força o algoritmo a usar as colunas especificadas como regressores, independentemente da importância das colunas, conforme calculado pelo algoritmo. Esse parâmetro é usado apenas para árvores de decisão que estão prevendo um atributo contínuo.

Observação

Ao definir esse parâmetro, você força o algoritmo a tentar usar o atributo como um regressor. No entanto, se o atributo é realmente usado como um regressor no modelo final depende dos resultados da análise. Você pode descobrir quais colunas foram usadas como regressores consultando o conteúdo do modelo.

[Disponível apenas em algumas edições do SQL Server]

ATRIBUTOS_MÁXIMOS_DE_ENTRADA
Define o número de atributos de entrada que o algoritmo pode manipular antes de invocar a seleção de recursos.

O padrão é 255.

Defina esse valor como 0 para desativar a seleção de recursos.

[Disponível apenas em algumas edições do SQL Server]

MAXIMUM_OUTPUT_ATTRIBUTES
Define o número de atributos de saída que o algoritmo pode manipular antes de invocar a seleção de recursos.

O padrão é 255.

Defina esse valor como 0 para desativar a seleção de recursos.

[Disponível apenas em algumas edições do SQL Server]

MINIMUM_SUPPORT
Determina o número mínimo de casos de folha necessários para gerar uma divisão em uma árvore de decisão.

O padrão é 10.

Talvez seja necessário aumentar esse valor se o conjunto de dados for muito grande, para evitar o excesso de treinamento.

SCORE_METHOD
Determina o método usado para calcular a pontuação de divisão. As seguintes opções estão disponíveis:

Número de Identificação	Nome
1	Entropia
3	Bayesian com K2 Prior
4	Equivalente de Dirichlet Bayesiano (BDE) com priori uniforme (padrão)

O padrão é 4 ou BDE.

Para obter uma explicação desses métodos de avaliação, consulte Seleção de Recursos.

MÉTODO_DE_DIVISÃO
Determina o método usado para dividir o nó. As seguintes opções estão disponíveis:

Número de Identificação	Nome
1	Binário: Indica que, independentemente do número real de valores do atributo, a árvore deve ser dividida em dois branches.
2	Completo: Indica que a árvore pode criar tantas divisões quanto houver valores de atributo.
3	Ambos: Especifica que o Analysis Services pode determinar se uma divisão binária ou completa deve ser usada para produzir os melhores resultados.

O padrão é 3.

Bandeiras de modelagem

O algoritmo Árvores de Decisão da Microsoft dá suporte aos seguintes sinalizadores de modelagem. Ao criar a estrutura de mineração ou o modelo de mineração, você define sinalizadores de modelagem para especificar como os valores em cada coluna são tratados durante a análise. Para obter mais informações, consulte Sinalizadores de Modelagem (Mineração de Dados).

Bandeira de Modelagem	Descrição
Existência_somente_modelo	Significa que a coluna será tratada como tendo dois estados possíveis: `Missing` e `Existing`. Um valor nulo é um valor ausente. Aplica-se a colunas de modelo de mineração.
NÃO NULO	Indica que a coluna não pode conter um nulo. Um erro resultará se o Analysis Services encontrar um valor nulo durante o treinamento do modelo. Aplica-se às colunas da estrutura de mineração.

Regressores em modelos de árvore de decisão

Mesmo que você não use o algoritmo regressão linear da Microsoft, qualquer modelo de árvore de decisão que tenha entradas e saídas numéricas contínuas poderá incluir nós que representam uma regressão em um atributo contínuo.

Você não precisa especificar que uma coluna de dados numéricos contínuos represente um regressor. O algoritmo Árvores de Decisão da Microsoft usará automaticamente a coluna como um potencial regressor e particionará o conjunto de dados em regiões com padrões significativos, mesmo que você não defina o sinalizador REGRESSOR na coluna.

No entanto, você pode usar o parâmetro FORCE_REGRESSOR para garantir que o algoritmo usará um regressor específico. Esse parâmetro só pode ser usado com os algoritmos Árvores de Decisão da Microsoft e Regressão Linear da Microsoft. Quando você definir o sinalizador de modelagem, o algoritmo tentará encontrar equações de regressão do formulário a*C1 + b*C2 + ... para ajustar os padrões nos nós da árvore. A soma dos resíduos é calculada e, se o desvio for muito grande, força-se uma divisão na árvore.

Por exemplo, se você estiver prevendo o comportamento de compra do cliente usando o Income como um atributo e definir o sinalizador de modelagem REGRESSOR na coluna, o algoritmo tentará primeiro ajustar os valores de Renda usando uma fórmula de regressão padrão. Se o desvio for muito grande, a fórmula de regressão será abandonada e a árvore será dividida em outro atributo. O algoritmo de árvore de decisão tentará ajustar um regressor para obter renda em cada uma das ramificações após a divisão.

Requisitos

Um modelo de árvore de decisão deve conter uma coluna de chave, colunas de entrada e pelo menos uma coluna previsível.

Colunas de entrada e de previsão

O algoritmo Árvores de Decisão da Microsoft dá suporte às colunas de entrada específicas e colunas previsíveis listadas na tabela a seguir. Para obter mais informações sobre o que os tipos de conteúdo significam quando usados em um modelo de mineração, consulte Tipos de Conteúdo (Mineração de Dados).

Coluna	Tipos de conteúdo
Atributo de entrada	Contínua, cíclica, discreta, discretizada, chave, ordenada, tabela
Atributo previsível	Contínuo, Cíclico, Discreto, Discretizado, Ordenado, Tabela

Observação

Tipos de conteúdo cíclico e ordenado têm suporte, mas o algoritmo os trata como valores discretos e não executa processamento especial.

Consulte Também

O Algoritmo de Árvores de Decisão da Microsoft
Exemplos de consulta de modelo de árvores de decisão
Conteúdo do modelo de mineração para modelos de árvore de decisão (Analysis Services – Mineração de dados)

Last updated on 2017-06-13

Compartilhar via

Referência técnica do algoritmo Árvores de Decisão da Microsoft

Implementação do algoritmo Árvores de Decisão

Construindo a árvore

Entradas discretas e contínuas

Métodos de pontuação e seleção de recursos

Desempenho e escalabilidade

Personalizando o algoritmo Árvores de Decisão

Definindo parâmetros de algoritmo

Bandeiras de modelagem

Regressores em modelos de árvore de decisão

Requisitos

Colunas de entrada e de previsão

Consulte Também

Recursos adicionais