Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Aplica-se a:
SQL Server 2019 e versões anteriores do Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
Importante
A mineração de dados foi preterida no SQL Server 2017 Analysis Services e agora descontinuada no SQL Server 2022 Analysis Services. A documentação não é atualizada para recursos preteridos e descontinuados. Para saber mais, consulte a compatibilidade com versões anteriores do Analysis Services.
A validação é o processo de avaliar o desempenho dos modelos de mineração em relação aos dados reais. É importante que você valide seus modelos de mineração compreendendo sua qualidade e características antes de implantá-los em um ambiente de produção.
Esta seção apresenta alguns conceitos básicos relacionados à qualidade do modelo e descreve as estratégias de validação de modelo fornecidas no Microsoft SQL Server Analysis Services. Para obter uma visão geral de como a validação de modelo se encaixa no processo de mineração de dados maior, consulte Soluções de Mineração de Dados.
Métodos para teste e validação de modelos de mineração de dados
Há muitas abordagens para avaliar a qualidade e as características de um modelo de mineração de dados.
Use várias medidas de validade estatística para determinar se há problemas nos dados ou no modelo.
Separe os dados em conjuntos de treinamento e teste para testar a precisão das previsões.
Peça aos especialistas em negócios que revisem os resultados do modelo de mineração de dados para determinar se os padrões descobertos têm significado no cenário de negócios de destino
Todos esses métodos são úteis na metodologia de mineração de dados e são usados iterativamente à medida que você cria, testa e refina modelos para responder a um problema específico. Nenhuma regra abrangente pode informar quando um modelo é bom o suficiente ou quando você tem dados suficientes.
Definição de critérios para validar modelos de mineração de dados
As medidas de mineração de dados geralmente se enquadram nas categorias de precisão, confiabilidade e utilidade.
A precisão é uma medida de quão bem o modelo correlaciona um resultado com os atributos nos dados fornecidos. Há várias medidas de precisão, mas todas as medidas de precisão dependem dos dados usados. Na realidade, os valores podem estar ausentes ou aproximados ou os dados podem ter sido alterados por vários processos. Particularmente na fase de exploração e desenvolvimento, você pode decidir aceitar uma determinada quantidade de erro nos dados, especialmente se os dados forem bastante uniformes em suas características. Por exemplo, um modelo que prevê vendas para um repositório específico com base em vendas passadas pode ser fortemente correlacionado e muito preciso, mesmo que esse repositório tenha usado consistentemente o método de contabilidade errado. Portanto, as medidas de precisão devem ser equilibradas por avaliações de confiabilidade.
A confiabilidade avalia a maneira como um modelo de mineração de dados é executado em diferentes conjuntos de dados. Um modelo de mineração de dados será confiável se gerar o mesmo tipo de previsões ou encontrar os mesmos tipos gerais de padrões, independentemente dos dados de teste fornecidos. Por exemplo, o modelo gerado para o repositório que usou o método de contabilidade incorreto não generalizaria bem para outros repositórios e, portanto, não seria confiável.
A utilidade inclui várias métricas que informam se o modelo fornece informações úteis. Por exemplo, um modelo de mineração de dados que correlaciona o local do repositório com vendas pode ser preciso e confiável, mas pode não ser útil, pois você não pode generalizar esse resultado adicionando mais repositórios no mesmo local. Além disso, ele não responde à questão comercial fundamental de por que determinados locais têm mais vendas. Você também pode descobrir que um modelo que aparece bem-sucedido de fato não tem sentido, pois se baseia em correlações cruzadas nos dados.
Ferramentas para teste e validação de modelos de mineração
O SQL Server Analysis Services dá suporte a várias abordagens para validação de soluções de mineração de dados, dando suporte a todas as fases da metodologia de teste de mineração de dados.
Particionando dados em conjuntos de teste e treinamento.
Filtrando modelos para treinar e testar diferentes combinações dos mesmos dados de origem.
Medindo o aumento e o ganho. Um gráfico de elevação é um método de visualização da melhoria que você obtém usando um modelo de mineração de dados ao compará-lo com a adivinhação aleatória.
Executando a validação cruzada de conjuntos de dados
Gerando matrizes de classificação. Esses gráficos classificam boas e ruins estimativas em uma tabela para que você possa medir com rapidez e facilidade o quão preciso o modelo prevê o valor de destino.
Criando gráficos de dispersão para avaliar o ajuste de uma fórmula de regressão.
Criando gráficos de lucro que associam ganhos financeiros ou custos ao uso de um modelo de mineração, para que você possa avaliar o valor das recomendações.
Essas métricas não visam responder à pergunta sobre se o modelo de mineração de dados responde à sua pergunta de negócios; em vez disso, essas métricas fornecem medidas objetivas que você pode usar para avaliar a confiabilidade de seus dados para análise preditiva e orientar sua decisão de usar um iterado específico no processo de desenvolvimento.
Os tópicos desta seção fornecem uma visão geral de cada método e orientam você pelo processo de medição da precisão dos modelos que você cria usando a Mineração de Dados do SQL Server.
Tópicos relacionados
| Tópicos | Links |
|---|---|
| Saiba como configurar um conjunto de dados de teste usando um assistente ou comandos DMX | Conjuntos de dados de treinamento e teste |
| Saiba como testar a distribuição e a representatividade dos dados em uma estrutura de mineração | Validação cruzada (Analysis Services – Mineração de dados) |
| Saiba mais sobre os tipos de gráfico de precisão fornecidos. |
Gráfico de ganho (Analysis Services – Mineração de dados) Gráfico de Lucros (Analysis Services – Mineração de Dados) Gráfico de dispersão (Serviços de Análise – Mineração de Dados) |
| Saiba como criar uma matriz de classificação, às vezes chamada de matriz de confusão, para avaliar o número de verdadeiros e falsos positivos e negativos. | Matriz de classificação (Analysis Services – Mineração de dados) |
Consulte Também
Ferramentas de Mineração de Dados
Soluções de mineração de dados
Tarefas de teste e validação e instruções (mineração de dados)