Validando modelos de mineração de dados [Analysis Services - Mineração de Dados]
A validação é o processo de avaliar como seus modelos de mineração são executados nos dados reais. É importante validar seus modelos de mineração entendendo suas qualidades e características antes de implantá-los em um ambiente de produção.
Há várias abordagens para avaliar a qualidade e as características de um modelo de mineração de dados. A primeira inclui o uso de várias medidas de validade estatística para determinar se há problemas nos dados ou no modelo. A segunda é separar os dados em conjuntos de treinamentos e testes para testar a exatidão das previsões. Finalmente, você pode pedir a especialistas comerciais para revisar os resultados do modelo de mineração de dados a fim de determinar se os padrões descobertos são significativos no cenário de negócios de destino. Todos esses métodos são úteis na metodologia de mineração de dados e são usados iterativamente ao criar, testar e refinar modelos para responder a um problema específico.
Esta seção apresenta alguns conceitos básicos relacionados à qualidade de modelo introduz estratégias para a validação de modelo que são fornecidas no MicrosoftSQL Server 2008Analysis Services. Para obter uma visão geral de como a validação modelo funciona no grande processo de mineração de dados, consulte Projetos de mineração de dados (Analysis Services – Mineração de Dados).
Critérios para medir os modelos de mineração de dados
A maioria dos métodos para validar um modelo de mineração de dados não responde às perguntas de negócios diretamente, mas fornece a métrica que pode ser usada para orientar uma decisão de negócios ou desenvolvimento. Não há nenhuma regra abrangente que possa dizer quando um modelo é bom o bastante o quando tem dados suficientes.
As medidas de mineração de dados geralmente entram nas categorias de exatidão, confiabilidade e utilidade.
Exatidão, confiabilidade e utilidade
Exatidão é uma medida que mostra se o modelo se relaciona bem com o resultado com os atributos nos dados que foram fornecidos. Há várias medidas de exatidão, mas todas dependem dos dados que são usados. Na verdade, os valores podem ser ausentes ou aproximados, ou os dados podem ter sido alterados por vários processos. Especialmente na fase de exploração e desenvolvimento, você pode decidir aceitar uma determinada quantidade de erros nos dados, especialmente se os dados tiverem características bastante uniformes. Por exemplo, um modelo que prevê vendas para uma loja específica baseado nas vendas anteriores pode estar fortemente correlacionado e ser bastante preciso, mesmo que a loja tenha usado sempre o método de contabilidade errado. Portanto, as medidas de exatidão devem ser equilibradas pelas avaliações de confiança.
A confiança avalia o modo como um modelo de mineração de dados é executado em conjuntos de dados diferentes. Um modelo de mineração de dados é confiável se gerar o mesmo tipo de previsões ou localizar os mesmos tipos gerais de padrões independentemente dos dados de teste fornecidos. Por exemplo, o modelo que você gerar para a loja que usou o método de contabilidade errado não pode ser generalizado para outras lojas e, portanto, não é confiável.
A utilidade inclui várias métricas que dizem se o modelo fornece informações úteis. Por exemplo, um modelo de mineração de dados que correlaciona o local da loja com as vendas pode ser exato e confiável, mas não útil, porque você não pode generalizar esse resultado adicionando mais lojas no mesmo local. Além disso, ele não responde à questão empresarial fundamental de por que certos locais têm mais de vendas. Você também pode descobrir que um modelo que parece ter êxito na verdade é insignificante, porque se baseia em correlações cruzadas nos dados.
Estrutura de mineração de dados da Microsoft
A CRISP-DM é uma metodologia conhecida que descreve as etapas para definir, desenvolver e implementar um projeto de mineração de dados. Entretanto, ela é uma estrutura conceitual que não fornece orientação específica sobre como fazer o escopo e agendar um projeto. Para atender melhor às necessidades específicas dos usuários comerciais interessados em mineração de dados, mas que não sabem como começar a planejar, e às necessidades de desenvolvedores que podem ser habilidosos no desenvolvimento do aplicativo .NET mas têm pouca experiência em mineração de dados, a Microsoft desenvolveu um método para implementar um projeto de mineração de dados que inclui um sistema abrangente de avaliação.
Para obter mais informações, consulte a página Recursos de mineração de dados da Microsoft.
Abordagens da validação de modelo de mineração no SQL Server Analysis Services
O SQL Server 2008 oferece suporte a várias abordagens para a validação de soluções de mineração de dados com suporte para todas as fases da metodologia de desenvolvimento de mineração de dados.
Particionando dados em conjuntos de treinamentos e de testes
O particionamento de dados em conjuntos de treinamentos e testes é uma técnica estabelecida por preparar dados para avaliação. Algumas partes dos dados do conjunto de treinamento são reservadas para testes e o restante dos dados são usados para treinamento. Depois que é concluído, o modelo é usado para fazer previsões no conjunto de testes. Como os dados no conjunto de treinamento são selecionados aleatoriamente nos mesmos dados usados para treinamento, a métrica de exatidão derivada dos testes tem menos chance de ser afetada pelas discrepâncias de dados e, portanto, reflete melhor as características do modelo.
Para obter mais informações, consulte Particionando dados em conjuntos de treinamento e teste (Analysis Services - Mineração de dados).
Validação cruzada de modelos de mineração
A validação cruzada permite particionar um conjunto de dados em várias seções menores e criar vários modelos nas seções para testar a validade do conjunto de dados completo. O Analysis Services então gera uma métrica de exatidão detalhada para cada partição. Ao usar essas informações, é possível melhorar a qualidade de um modelo individual ou identificar os melhores modelos para um conjunto de dados específico.
Para obter mais informações, consulte Validação cruzada (Analysis Services - Mineração de dados).
Traçando gráficos de exatidão de modelo de mineração
MicrosoftSQL ServerAnalysis Services fornece ferramentas para ajudá-lo a traçar gráficos de exatidão de previsão, testar o modelo em dados novos ou existentes ou comparar vários modelos em gráficos e relatórios.
Um gráfico de comparação de precisão é um método de visualização de melhoria obtida usando um modelo de mineração de dados, quando você o compara com um palpite aleatório. Também é possível criar gráficos de ganho que associam ganhos ou custos financeiros com o uso de um modelo de mineração e dispersões para modelos de regressão. Uma matriz de classificação é um método de classificar bons e maus palpites em uma tabela para poder medir com rapidez e facilidade a exatidão da previsão do valor de destino pelo modelo.
Para obter mais informações, Ferramentas para criar gráficos de precisão de modelos (Analysis Services - Mineração de dados).
Você também pode filtrar modelos de várias maneiras para treinar e testar diferentes combinações dos mesmos dados de origem. Para obter mais informações, consulte Medindo a precisão do modelo de mineração (Analysis Services - Mineração de dados).
Procurando e examinando conteúdo e casos de modelo
O Analysis Services fornece um conjunto de visualizadores de mineração de dados para procurar e explorar o modelo. Você também pode criar consultas de conteúdo que ajudam a entender melhor o modelo e encontrar problemas inesperados na sua abordagem ou nos dados. Ao criar uma consulta de conteúdo usando DMX (Data Mining Extensions), você pode obter informações estatísticas sobre os padrões descobertos pelo modelo de mineração ou recuperar casos que oferecem suporte a padrões específicos encontrados pelo modelo. Você também pode fazer o detalhamento na estrutura de mineração subjacente, para localizar ou apresentar informações detalhadas que não foram incluídas no modelo ou executar ações nos padrões encontrados nos dados.
Para obter mais informações sobre como consultar o conteúdo de modelo, consulte Consultando modelos de mineração de dados (Analysis Services - Mineração de dados).
Para obter mais informações sobre como procurar o conteúdo de modelo, consulte Exibindo um modelo de mineração de dados.
Para obter mais informações sobre como interpretar o conteúdo modelo para algoritmos específicos, consulte Algoritmos de mineração de dados (Analysis Services – Mineração de Dados).