Gráfico de comparação de precisão (Analysis Services - Mineração de Dados)
É possível exibir tipos diferentes de gráficos na guia Gráfico de Comparação de Precisão da guia Gráfico de Precisão de Mineração do Designer de Mineração de Dados, dependendo do modelo que você seleciona, do atributo previsível no modelo e outras configurações.
Se o seu modelo prevê um valor discreto, você poderá criar um gráfico de comparação de precisão ou de ganho. Um gráfico de comparação de precisão compara a precisão das previsões de cada modelo e pode ser configurado para mostrar a precisão das previsões no geral ou de um valor específico. Um gráfico de ganho é um tipo de gráfico relacionado que contém as mesmas informações do gráfico de comparação de precisão, mas que também exibe o aumento projetado em ganho associado ao uso de cada modelo. Utilize a lista Tipo de Gráfico para selecionar o tipo de gráfico desejado.
Observação Não é possível exibir modelos de série temporal em um gráfico de comparação de precisão ou de ganho, mas você pode exibir um gráfico que contenha séries históricas e previsões baseadas nestas séries utilizando a guia Previsão de Modelo de Mineração. Para obter mais informações, consulte Algoritmo MTS.
Para obter mais informações:Gráfico de ganho (Analysis Services - Mineração de dados), Dispersão (Analysis Services - Mineração de dados)
Cenário
A guia Gráfico de Comparação de Precisão exibe uma representação gráfica da alteração na precisão causada por um modelo de mineração. Por exemplo, o departamento de marketing do Adventure Works Cycles quer criar uma campanha de mala direta dirigida. Das campanhas anteriores eles sabem que é típica uma taxa de resposta de 10 por cento. Eles têm uma lista de 10.000 clientes potenciais armazenada em uma tabela do banco de dados. Por isso, com base na taxa de resposta típica, eles podem esperar que 1.000 dos clientes potenciais respondam.
Porém, o dinheiro orçado para o projeto não é suficiente para atingir todos os 10.000 clientes do banco de dados. De acordo com o orçamento, eles têm recursos para enviar um anúncio para apenas 5.000 clientes. O departamento de marketing tem duas opções:
Selecionar aleatoriamente 5.000 clientes-alvo
Usar um modelo de mineração para atingir os 5.000 clientes mais prováveis de responder
Se a empresa selecionar aleatoriamente 5.000 clientes, pode esperar receber apenas 500 respostas, com base na taxa de resposta típica. Este cenário é representado pela linha aleatório no gráfico de comparação de precisão. No entanto, se o departamento de marketing utilizar um modelo de mineração para direcionar a mala direta, eles poderão esperar uma taxa de resposta mais alta, pois poderão atingir os clientes que mais provavelmente responderão. Se o modelo é perfeito, o que significa que cria previsões que nunca estão erradas, a empresa pode esperar receber 1.000 respostas pelo correio de 1.000 potenciais clientes recomendados pelo modelo. Este cenário é representado pela linha ideal no gráfico de comparação de precisão. A realidade é que o modelo de mineração muito provavelmente cairá entre estes dois extremos; entre a previsão aleatória e a perfeita. Qualquer melhoria da previsão aleatória é considerada para a precisão.
Entendendo o gráfico de comparação de precisão
É possível criar dois tipos de gráficos de comparação de precisão: um no qual você especifica um valor de destino para a coluna previsível e outro no qual não se especifica o valor. Quando você alterna entre as guias Seleção de Entrada e Gráfico de Comparação de Precisão, o gráfico é atualizado para refletir as modificações feitas nos mapeamentos de coluna ou em outras configurações.
Gráfico de comparação de precisão com valor de destino
O gráfico a seguir mostra um gráfico de comparação de precisão relativo ao modelo Mala Direta Dirigida criado no Tutorial de mineração de dados básico. Neste gráfico, o atributo de destino é [Comprador de Bicicleta] e o valor de destino é 1, que significa que o cliente comprou uma bicicleta ou está propenso a fazer isso. Portanto, o gráfico de comparação de precisão mostra a melhoria que o modelo oferece ao identificar os clientes que estão propensos a comprar uma bicicleta.
Além do modelo básico, o gráfico inclui um modelo relacionado que foi filtrado visando clientes específicos. É possível adicionar vários modelos a um gráfico de comparação de precisão, desde que todos os modelos tenham o mesmo atributo previsível. Este filtro restringe os casos usados tanto no treinamento quanto na avaliação a clientes com menos de 30 anos de idade. Conseqüentemente, o número de casos avaliados pelo modelo é diferente para os modelos básico e filtrado. Este é um ponto importante a ser lembrado na interpretação dos resultados da previsão e de outras estatísticas.
O eixo x do gráfico representa a porcentagem do conjunto de dados de teste usada para comparar as previsões. O eixo y do gráfico representa a porcentagem de valores previstos.
A linha reta diagonal, em azul, aparece em todos os gráficos. Ela representa os resultados da previsão aleatória e é a linha de base para avaliar a precisão. Para cada modelo adicionado a um gráfico de comparação de precisão, você tem duas linhas adicionais: uma que mostra os resultados ideais para o conjunto de dados de treinamento se for possível criar um modelo que sempre faça previsões com perfeição e uma segunda linha, que mostra a precisão real, ou a melhoria nos resultados, do modelo.
Neste exemplo, a linha ideal para o modelo filtrado é mostrada em azul escuro, e a linha relativa à precisão real aparece em amarelo. Com base no gráfico, podemos afirmar que a linha ideal atinge o ponto máximo em torno dos 40%, o que significa que, se você tiver um modelo perfeito, pode atingir 100% dos clientes-alvo enviando uma mala direta para apenas 40% da população total. A precisão real referente ao modelo filtrado quando você visa 40% da população fica entre 60% e 70%, o que significa que é possível atingir 60-70% dos clientes-alvo enviando a mala direta para 40% da população total de clientes.
A Legenda de Mineração contém os valores reais em qualquer ponto das curvas. Você pode alterar o lugar que é medido clicando na barra vertical cinza para movê-la. No gráfico, a linha cinza foi movida até 30% porque esse é o ponto em que tanto o modelo filtrado quanto o não filtrado parecem ser mais eficientes, e após esse ponto o valor da precisão diminui.
A Legenda de Mineração também mostra pontuações e estatísticas que ajudam a interpretar o gráfico. Esses resultados representam a precisão do modelo na linha cinza, que neste cenário está posicionada para incluir 30% dos testes de caso gerais.
Série, modelo |
Pontuação |
População de destino |
Probabilidade da previsão |
---|---|---|---|
Mala direta dirigida - todos |
0,71 |
47,40% |
61,38% |
Mala direta dirigida – menos de 30 anos |
0,85 |
51,81% |
46,62% |
Modelo de previsão aleatória |
|
31,00% |
|
Modelo ideal para: Mala direta dirigida – todos |
|
62,48% |
|
Modelo ideal para: Mala direta dirigida – menos de 30 anos |
|
65,28% |
|
Com base nesses resultados, podemos observar que, quando avaliado em 30% de todos os casos, o modelo geral (Mala direta dirigida – todos) pode prever o comportamento de compra de bicicleta de 47,40% da população de destino. Em outras palavras, se você enviar uma mala direta direcionada para apenas 30% dos clientes do seu banco de dados, poderá atingir um pouco menos da metade do público-alvo. Se usasse o modelo filtrado, poderia atingir aproximadamente 51% de seus clientes-alvo.
O valor de Probabilidade da previsão representa o limite necessário para incluir um cliente entre os casos "propenso a comprar". Para cada caso, o modelo estima a precisão de cada previsão e armazena esse valor, que você pode usar para filtrar os clientes ou definir os clientes-alvo. Por exemplo, para identificar os clientes do modelo básico que são possíveis compradores, use uma consulta que recupere os casos com um valor de Probabilidade da previsão de, pelo menos, 61%. Para definir os clientes-alvo pelo modelo filtrado, crie uma consulta que recupere os casos que atendem a todos os critérios: idade e um valor de PredictProbability de, pelo menos, 46%.
É interessante comparar os modelos. O modelo filtrado parece capturar mais clientes potenciais, mas quando você visa clientes com uma pontuação de probabilidade de previsão de 46%, também tem 53% de probabilidade de enviar uma mala direta para alguém que não comprará uma bicicleta. Portanto, para decidir qual é o melhor modelo, procure contrabalançar a maior precisão e o menor tamanho de destino do modelo filtrado com base na seletividade do modelo básico.
O valor de Pontuação ajuda a comparar os modelos calculando a eficácia do modelo em uma população normalizada. Uma pontuação maior é melhor, por isso nesse caso você deve decidir que visar clientes com menos de 30 anos é a estratégia mais eficaz, apesar da probabilidade de previsão mais baixa.
Gráfico de comparação de precisão para modelo sem valor de destino
Se você não especificar o estado da coluna previsível, criará o tipo de gráfico mostrado no diagrama a seguir. Este gráfico mostra o desempenho do modelo para todos os estados do atributo previsível. Por exemplo, ele informa com que precisão o modelo prevê tanto os clientes que estão propensos a comprar uma bicicleta quanto aqueles que provavelmente não comprarão uma.
O eixo x é o mesmo do gráfico com a coluna previsível especificada, mas agora o eixo y representa a porcentagem de previsões corretas. Portanto, a linha ideal é a diagonal, que mostra que em 50% dos dados o modelo prevê corretamente 50% dos casos, o valor máximo que se pode esperar.
Você pode clicar no gráfico para mover a barra vertical cinza, e a Legenda de Mineração exibe a porcentagem de casos no geral e a porcentagem dos casos previstos corretamente. Por exemplo, se você posicionar a barra deslizante cinza na marca dos 50%, a Legenda de Mineração exibirá as pontuações de precisão listadas a seguir. Estes números têm como base o modelo TM_Decision Tree criado no Tutorial Básico de Mineração de Dados.
Série, modelo |
Pontuação |
População de destino |
Probabilidade da previsão |
---|---|---|---|
TM_Decision Tree |
0,77 |
40,50% |
72,91% |
Modelo ideal |
|
50,00% |
|
Essa tabela mostra que, em 50% da população, o modelo que você criou prevê corretamente 40% dos casos. Você deve considerar esse modelo razoavelmente preciso. No entanto, lembre-se de que esse modelo específico prevê todos os valores do atributo previsível. Por isso, o modelo pode ser preciso ao prever que 90% dos clientes não comprarão uma bicicleta.
Observação |
---|
A exatidão de previsão de todos os valores distintos do atributo previsível é mostrada em uma única linha. Para ver as linhas de exatidão de previsão de qualquer valor individual do atributo previsível, crie um gráfico de comparação de precisão à parte para esse valor. |
Voltar ao início
Criando um gráfico de comparação de precisão
O Tutorial Básico de Mineração de Dados inclui um passo a passo sobre como criar um gráfico de comparação de precisão para o modelo Mala Direta Dirigida. Para obter mais informações, consulte Testando a precisão com gráficos de comparação de precisão (Tutorial de mineração de dados básico).
Para ver o procedimento passo a passo que se aplica a todos os tipos de gráficos, consulte Como criar um gráfico de precisão para um modelo de mineração.
Consulte também