Compartilhar via


Avaliar Modelo

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Avalia os resultados de um modelo de classificação ou regressão com métricas padrão

Categoria: Machine Learning/Avaliar

Observação

Aplica-se a: somente Machine Learning Studio (clássico)

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Avaliar Modelo no Machine Learning Studio (clássico) para medir a precisão de um modelo treinado. Você fornece um conjunto de dados que contém pontuações geradas por um modelo, e o módulo Avaliar modelo calcula um conjunto de métricas de avaliação padrão do setor.

As métricas retornadas por Avaliar modelo dependem do tipo de modelo em avaliação:

Para modelos de recomendação, use o módulo Avaliar Recomendador .

Dica

Se você não estiver familiarizado com a avaliação do modelo, recomendamos estes exemplos na Galeria de IA do Azure, que criam um modelo e explicam como usar as métricas relacionadas:

Também recomendamos a série de vídeos do Dr. Stephen Elston, como parte do curso de machine learning da EdX.

Como usar Avaliar modelo

Há três maneiras de usar o módulo Avaliar Modelo :

  • Gere pontuações sobre seus dados de treinamento e avalie o modelo com base nessas pontuações
  • Gerar pontuações no modelo, mas comparar essas pontuações com as pontuações em um conjunto de teste reservado
  • Comparar pontuações para dois modelos diferentes, mas relacionados, usando o mesmo conjunto de dados

Usar os dados de treinamento

Para avaliar um modelo, você deve se conectar a um conjunto de dados que contém um conjunto de colunas de entrada e classificações. Se nenhum outro dado estiver disponível, você poderá usar o conjunto de dados original.

  1. Conexão a saída do datset pontuado do Modelo de Pontuação para a entrada do Modelo de Avaliação.
  2. Clique no módulo Avaliar Modelo e selecione Executar selecionado para gerar as pontuações de avaliação.

Usar dados de teste

Um cenário comum no machine learning é separar o conjunto de dados original em conjuntos de dados de treinamento e teste, usando o módulo Dividir ou o módulo Partição e Exemplo .

  1. Conexão a saída do conjunto de dados pontuado do Modelo de Pontuação à entrada do Modelo de Avaliação.
  2. Conexão a saída do módulo Dividir Dados que contém os dados de teste para a entrada à direita do Modelo de Avaliação.
  3. Clique no módulo Avaliar Modelo e selecione Executar selecionado para gerar as pontuações de avaliação.

Comparar pontuações de dois modelos

Você também pode conectar um segundo conjunto de pontuações ao Modelo de Avaliação. As pontuações podem ser um conjunto de avaliação compartilhado que tem resultados conhecidos ou um conjunto de resultados de um modelo diferente para os mesmos dados.

This featureEste recurso é útil pois você pode comparar facilmente resultados de dois modelos diferentes nos mesmos dados. Ou, você pode comparar pontuações de duas execuções diferentes sobre os mesmos dados com parâmetros diferentes.

  1. Conexão a saída do datset pontuado do Modelo de Pontuação para a entrada do Modelo de Avaliação.
  2. Conexão a saída do módulo Modelo de Pontuação para o segundo modelo à entrada à direita do Modelo de Avaliação.
  3. Clique com o botão direito do mouse em Avaliar Modelo e selecione Executar selecionado para gerar as pontuações de avaliação.

Resultados

Depois de executar o Modelo de Avaliação, clique com o botão direito do mouse no módulo e selecione Os resultados da avaliação para ver os resultados. Você pode:

  • Salve os resultados como um conjunto de dados para facilitar a análise com outras ferramentas
  • Gerar uma visualização na interface do Studio (clássico)

Se você conectar conjuntos de dados a ambas as entradas de Avaliar modelo, os resultados conterão as métricas para o conjunto de dados ou ambos os modelos. O modelo ou dados anexados à porta esquerda é apresentado primeiro no relatório, seguido pelas métricas do conjunto de dados ou modelo anexado à porta direita.

Por exemplo, a imagem a seguir representa uma comparação de resultados de dois modelos de clustering criados com os mesmos dados, mas com parâmetros diferentes.

AML_Comparing2Models

Como esse é um modelo de clustering, os resultados da avaliação são diferentes da comparação de pontuações de dois modelos de regressão ou de dois modelos de classificação. No entanto, a apresentação geral é a mesma.

Métricas

Esta seção descreve as métricas retornadas para os tipos específicos de modelos com suporte para uso com Avaliar modelo:

Métricas para modelos de classificação

As métricas a seguir são relatadas ao avaliar modelos de classificação. Se você comparar modelos, eles serão classificados pela métrica selecionada para avaliação.

  • Precisão mede a qualidade de um modelo de classificação como a proporção entre os resultados verdadeiros com o total de casos.

  • A precisão é a proporção entre os resultados verdadeiros com os resultados positivos.

  • Recall é a fração de todos os resultados corretos retornados pelo modelo.

  • A pontuação F é calculada como a média ponderada da precisão e recall entre 0 e 1, onde a pontuação F ideal seria 1.

  • AUC mede a área sob a curva plotada com verdadeiros positivos no eixo y e falsos positivos no eixo x. Essa métrica é útil porque ele fornece um único número que permite comparar modelos de tipos diferentes.

  • Perda de registro médio é uma pontuação única usada para expressar a penalidade por resultados errados. Ela é calculada como a diferença entre duas distribuições de probabilidade: o verdadeiro e no modelo.

  • Perda de log de treinamento é uma pontuação única que representa a vantagem do classificador sobre uma predição aleatória. A perda de log mede a incerteza do seu modelo comparando as probabilidades que ele gera com os valores conhecidos (valor de referência) nos rótulos. O objetivo é minimizar a perda de log do modelo como um todo.

Métricas para modelos de regressão

As métricas retornadas para modelos de regressão geralmente são projetadas para estimar a quantidade de erros. Um modelo é considerado adequado para os dados se a diferença entre os valores observados e previstos for pequena. No entanto, observar o padrão dos resíduos (a diferença entre qualquer ponto previsto e seu valor real correspondente) pode fornecer muitas informações sobre o desvio potencial de um modelo.

As métricas a seguir são relatadas para avaliar modelos de regressão. Quando você compara modelos, eles são classificados pela métrica selecionada para avaliação.

  • A probabilidade de log negativo mede a função de perda, uma pontuação inferior é melhor. Observe que essa métrica só é calculada para Regressão Linear Bayesiana e Regressão da Floresta de Decisão; para outros algoritmos, o valor é Infinity o que significa para nada.

  • Erro absoluto médio (MAE) mede a distância das previsões dos resultados reais, assim, quanto menor esse valor, melhor.

  • Raiz do quadrado médio (RMSE) cria um valor único que resume o erro no modelo. Ao elevar a diferença ao quadrado, a métrica desconsidera a diferença entre uma previsão abaixo e uma previsão acima do valor real.

  • Erro relativo absoluto (RAE) é a diferença relativa absoluta entre os valores esperado e real. Ele é relativo porque a diferença média é dividida pela média aritmética.

  • Erro relativo ao quadrado (RSE) normaliza similarmente o erro ao quadrado total dos valores previstos ao dividir pelo erro total ao quadrado dos valores reais.

  • O MZOE (Erro Médio zero um) indica se a previsão estava correta ou não. Em outras palavras: ZeroOneLoss(x,y) = 1 quando x!=y; caso contrário 0.

  • Coeficiente de determinação, frequentemente chamado de R2, representa o poder de previsão do modelo como um valor entre 0 e 1. Zero significa que o modelo é aleatório (não explica nada) e 1 significa que há um ajuste perfeito. No entanto, deve-se ter cuidado ao interpretar valores de R2, pois valores baixos podem ser totalmente normais e valores altos podem ser suspeitos.

Métricas para modelos de clustering

Como os modelos de clustering diferem significativamente dos modelos de classificação e regressão em muitos aspectos, Avaliar modelo também retorna um conjunto diferente de estatísticas para modelos de clustering.

As estatísticas retornadas para um modelo de clustering descrevem quantos pontos de dados foram atribuídos a cada cluster, o valor de separação entre clusters e a densidade dos pontos de dados dentro de cada cluster.

As estatísticas para o modelo de clustering são calculadas em média em todo o conjunto de dados, com linhas adicionais contendo as estatísticas por cluster.

Por exemplo, os resultados a seguir mostram uma parte dos resultados de um experimento de exemplo que agrupa os dados no conjunto de dados de classificação binária de diabetes indiano PIMA, que está disponível no Machine Learning Studio (clássico).

Descrição do resultado Distância Média para o Centro de Cluster Distância média para outro centro Número de pontos Distância máxima para o Centro de Cluster
Avaliação Combinada 55.915068 169.897505 538 303.545166
Avaliação do cluster nº 0 0 1 570 0
Avaliação para cluster nº 1 0 1 178 0
Avaliação do cluster nº 2 0 1 178 0

Nesses resultados, você obtém as seguintes informações:

  • O módulo Clustering de Varredura cria vários modelos de clustering, listados em ordem de precisão. Para simplificar, mostramos apenas o modelo mais bem classificado aqui. Os modelos são medidos usando todas as métricas possíveis, mas os modelos são classificados usando a métrica especificada. Se você alterou a métrica, um modelo diferente poderá ser classificado mais alto.

  • A pontuação de Avaliação Combinada na parte superior de cada seção de resultados lista as pontuações médias para os clusters criados nesse modelo específico.

    Esse modelo mais bem classificado passou a criar três clusters; outros modelos podem criar dois clusters ou quatro clusters. Portanto, essa pontuação de avaliação combinada ajuda você a comparar modelos com um número diferente de clusters.

  • As pontuações na coluna Distância média ao centro de cluster representam a proximidade de todos os pontos em um cluster ao centroide desse cluster.

  • As pontuações na coluna Distância média a outros centros representam a proximidade, em média, de cada ponto no coluna em relação aos centroides de todos os outros clusters.

    Você pode escolher qualquer uma das quatro métricas para medir essa distância, mas todas as medidas devem usar a mesma métrica.

  • A coluna Número de pontos mostra quantos pontos de dados foram atribuídos a cada cluster, juntamente com o número total geral de pontos de dados em qualquer cluster.

    Se o número de pontos de dados atribuídos a clusters for menor que o número total de pontos de dados disponíveis, isso significará que não foi possível atribuir os pontos de dados a um cluster.

  • As pontuações na coluna, Distância Máxima até o Centro de Cluster, representam a soma das distâncias entre cada ponto e o centroide do cluster desse ponto.

    Se esse número for alto, pode significar que o cluster é amplamente disperso. Você deve examinar essa estatística junto com a Distância Média para o Centro de Cluster para determinar a disseminação do cluster.

Exemplos

Para obter exemplos de como gerar, visualizar e interpretar métricas de avaliação, consulte esses experimentos de exemplo na Galeria de IA do Azure. Essas experiências demonstram como criar vários modelos e usar Avaliar Modelo para determinar qual modelo é o melhor.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados classificado Tabela de Dados Conjunto de dados classificado
Conjunto de dados classificado a ser comparado Tabela de Dados Conjunto de dados classificado a ser comparado (opcional)

Saídas

Nome Tipo Descrição
Resultados de avaliação Tabela de Dados Resultado da avaliação de dados

Exceções

Exceção Descrição
Erro 0003 Ocorrerá uma exceção se uma ou mais das entradas for nula ou estiver vazia.
Erro 0013 Ocorrerá uma exceção se passado para aprendiz do módulo tiver um tipo inválido.
Erro 0020 Ocorrerá uma exceção se o número de colunas em alguns dos conjuntos de dados transmitidos para o módulo for muito pequeno.
Erro 0021 Ocorrerá uma exceção se o número de linhas em alguns dos conjuntos de dados passados para o módulo for muito pequeno.
Erro 0024 Ocorrerá uma exceção se o conjunto de dados não contiver uma coluna de rótulo.
Erro 0025 Ocorrerá uma exceção se o conjunto de dados não contiver uma coluna de pontuação.

Confira também

Modelo de validação cruzada
Avaliar o Sistema de Recomendação
Avaliar
Pontuar Modelo