Artigo
04/01/2012

Algoritmo Árvores de Decisão da Microsoft

O algoritmo Árvores de Decisão da Microsoft é um algoritmo de classificação e regressão fornecido pelo Microsoft SQL Server Analysis Services para uso em modelagens de previsão de atributos discretos e contínuos.

No caso dos atributos discretos, o algoritmo faz previsões fundadas nas relações entre colunas de entrada em um conjunto de dados. Ele usa os valores, conhecidos como estados, dessas colunas para prever os estados de uma coluna que você define como previsível. Especificamente, o algoritmo identifica as colunas de entrada que são correlacionadas com a coluna previsível. Por exemplo, em um cenário em que se deseja prever a tendência dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens comprarem uma bicicleta, mas apenas 2 de 10 clientes mais velhos fizerem o mesmo, o algoritmo infere que idade é um bom indicador para a compra de bicicletas. A árvore de decisão faz previsões com base nesta tendência para obter um resultado específico.

No caso de atributos contínuos, o algoritmo usa a regressão linear para determinar onde uma árvore de decisão se divide.

Se mais de uma coluna for definida como previsível, ou se os dados de entrada tiverem uma tabela aninhada configurada como previsível, o algoritmo criará uma árvore de decisão separada para cada coluna previsível.

Exemplo

O departamento de marketing da empresa Ciclos da Adventure Works deseja identificar as características dos clientes antigos que possam indicar se há chance de eles realizarem compras futuramente. O banco de dados da AdventureWorks2008R2 armazena informações demográficas que descrevem clientes antigos. Usando o algoritmo Árvores de Decisão da Microsoft para analisar essas informações, o departamento de marketing pode criar um modelo que prevê se um cliente específico comprará ou não produtos com base nos estados de colunas conhecidas sobre aquele cliente, como padrões demográficos ou compras já efetuadas.

Como o algoritmo funciona

O algoritmo Árvores de Decisão da Microsoft gera um modelo de mineração de dados criando uma série de divisões na árvore. Essas divisões são representadas como nós. O algoritmo adiciona um nó ao modelo toda vez que uma coluna de entrada é considerada significativamente correlacionada a uma coluna previsível. A forma que o algoritmo determina uma divisão depende do fato de ele estar prevendo uma coluna contínua ou discreta.

O algoritmo Árvores de Decisão da Microsoft usa a seleção de recurso para guiar a seleção dos atributos mais úteis. A seleção de recurso é usada por todos os algoritmos de mineração de dados do Analysis Services para melhorar o desempenho e a qualidade da análise. A seleção de recurso é importante para impedir que atributos sem importância usem tempo do processador. Se você usar muitas entradas ou atributos previsíveis ao criar um modelo de mineração de dados, o modelo poderá demorar muito tempo para processar ou ainda esgotar a memória. Os métodos usados para determinar a divisão da árvore incluem medidas padrão da indústria para entropia e redes Bayesianas. Para obter mais informações sobre os métodos usados para selecionar atributos significativos e depois classificá-los, consulte Seleção de recursos em mineração de dados.

Um problema muito comum nos modelos de mineração de dados é que eles se tornam muito sensíveis a diferenças pequenas nos dados de treinamento. Nesse caso, nos referimos a eles como sobrecarregados ou muito treinados. Um modelo sobrecarregado não pode ser generalizado para outros conjuntos de dados. Para evitar a superajuste de um determinado conjunto de dados, o algoritmo Árvores de Decisão da Microsoft usa técnicas para controlar o crescimento da árvore. Para obter uma explicação mais detalhada sobre como o algoritmo Árvores de Decisão da Microsoft funciona, consulte Referência técnica do algoritmo Árvores de Decisão da Microsoft.

Prevendo colunas discretas

A forma como o algoritmo Árvores de Decisão da Microsoft cria uma árvore para uma coluna previsível discreta pode ser mostrada usando um histograma. O diagrama a seguir mostra um histograma que esboça uma coluna previsível, Compradores de bicicleta, em comparação com uma coluna de entrada, Idade. O histograma mostra que a idade de uma pessoa ajuda a distinguir se ela comprará uma bicicleta.

Histograma do algoritmo Árvores de Decisão da Microsoft

A correlação que é mostrada no diagrama faz com que o algoritmo Árvores de Decisão da Microsoft crie um novo nó no modelo.

Nó da árvore de decisão

À medida que o algoritmo acrescenta novos nós em um modelo, uma estrutura de árvore é formada. O nó superior da árvore indica a divisão da coluna previsível para a média da população de clientes. Como o modelo continua crescendo, o algoritmo considera todas as colunas.

Prevendo colunas contínuas

Quando o algoritmo Árvores de Decisão da Microsoft cria uma árvore com base em uma coluna previsível contínua, cada nó contém uma fórmula de regressão. Uma divisão ocorre em um ponto de não-linearidade na fórmula de regressão. Por exemplo, considere o seguinte diagrama:

Várias linhas de regressão mostrando não linearidade

O diagrama contém dados que podem ser modelados usando uma única linha ou usando duas linhas conectadas. Porém, uma única linha não representaria os dados de forma satisfatória. Mas, se você usar duas linhas, o modelo terá um desempenho muito melhor ao aproximar dados. O ponto onde duas linhas se encontram é o ponto de não-linearidade e é onde o nó de um modelo de árvore de decisão se dividiria. Por exemplo, o nó que corresponde ao ponto de não-linearidade no gráfico anterior poderia ser representado pelo diagrama a seguir. As duas equações representam as equações de regressão para as duas linhas.

Equação que representa um ponto de não linearidade

Dados necessários para modelos de árvore de decisão

Ao preparar dados para usar em um modelo de árvore de decisão, você deve saber os requisitos do algoritmo específico, incluindo a quantidade de dados necessária e como eles são usados.

Os requisitos para um modelo de árvore de decisão são os seguintes:

Uma única key coluna Cada modelo deve conter uma coluna numérica ou de texto que identifique unicamente cada registro. Não são permitidas chaves compostas.
Uma coluna previsível Requer, pelo menos, uma coluna previsível. Você pode incluir vários atributos previsíveis em um modelo, e o atributo previsível pode ser de diferentes tipos, tanto numérico como discreto. Porém, o aumento no número de atributos previsíveis pode aumentar o tempo de processamento.
Colunas de entrada Requer colunas de entrada que podem ser discretas ou contínuas. O aumento no número de atributos de entrada afeta o tempo de processamento.

Para obter informações mais detalhadas sobre os tipos de conteúdo e de dados suportados pelos modelos de árvore de decisão, consulte a seção Requisitos de Referência técnica do algoritmo Árvores de Decisão da Microsoft.

Exibindo um modelo de árvore de decisão

Para explorar o modelo, você pode usar o Visualizador de Árvores da Microsoft. Caso seu modelo gere várias árvores, é possível selecionar uma árvore e o visualizador mostrará uma divisão de como os casos são categorizados para cada atributo previsível. Você também pode exibir a interação das árvores usando o visualizador de rede de dependência. Para obter mais informações, consulte Exibindo um modelo de mineração com o Visualizador de Árvores da Microsoft.

Se quiser obter mais detalhes sobre qualquer ramificação ou nó da árvore, você também pode explorar o modelo usando o Visualizador de Árvore de Conteúdo Genérica da Microsoft. O conteúdo armazenado para o modelo inclui a distribuição de todos os valores em cada nó, as probabilidades em cada nível da árvore e as fórmulas de regressão dos atributos contínuos. Para obter mais informações, consulte Conteúdo do modelo de mineração para modelos de árvore de decisão (Analysis Services – Mineração de Dados).

Criando previsões

Depois que o modelo foi processado, os resultados são armazenados como um conjunto de padrões e estatísticas. Esse conjunto pode ser usado para explorar relações e fazer previsões.

Para obter exemplos de consultas a serem usadas com um modelo de árvores de decisão, consulte Consultando um modelo de árvores de decisão (Analysis Services – Mineração de dados).

Para obter informações gerais sobre como criar consultas para modelos de mineração, consulte Consultando modelos de mineração de dados (Analysis Services - Mineração de dados).

Comentários

Suporta o uso de PMML (Predictive Model Markup Language) para criar modelos de mineração.
Suporta detalhamento.
Suporta o uso de modelos de mineração OLAP e a criação de dimensões de mineração de dados.