Avaliar Modelo
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Avalia os resultados de uma classificação ou regressão modelo com métricas padrão
Categoria: Machine Learning / Avaliar
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Visão geral do módulo
Este artigo descreve como usar o módulo De Avaliar Modelo em Machine Learning Studio (clássico) para medir a precisão de um modelo treinado. Fornece um conjunto de dados contendo pontuações geradas a partir de um modelo, e o módulo De Avaliar Model calcula um conjunto de métricas de avaliação padrão da indústria.
As métricas devolvidas pelo Modelo de Avaliação dependem do tipo de modelo que está a avaliar:
Para modelos de recomendação, utilize o módulo 'Avaliador' de Avaliação .
Dica
Se você é novo para modelo avaliação, recomendamos estas amostras na Galeria Azure AI, que constroem uma modelo e, em seguida, explicar como usar as métricas relacionadas:
- Comparar modelos de regressão
- Comparar classificadores binários
- Comparar classificadores de várias classes
Também recomendamos a série de vídeo do Dr. Stephen Elston, como parte do curso de aprendizagem automática da EdX.
Como utilizar o Modelo de Avaliação
Existem três formas de utilizar o módulo De Avaliar o Modelo :
- Gere pontuações sobre os seus dados de treino e avalie o modelo com base nestas pontuações
- Gere pontuações no modelo, mas compare essas pontuações com pontuações num conjunto de testes reservado
- Compare pontuações para dois modelos diferentes mas relacionados, usando o mesmo conjunto de dados
Utilize os dados de formação
Para avaliar uma modelo, deve ligar um conjunto de dados que contém um conjunto de colunas de entrada e pontuações. Se não houver outros dados disponíveis, pode utilizar o seu conjunto de dados original.
- Ligação a saída datset pontuada do Modelo de Pontuação para a entrada do Modelo de Avaliação.
- Clique no módulo Modelo de Avaliação e selecione Executar selecionado para gerar os resultados da avaliação.
Utilize dados de testes
Um cenário comum na aprendizagem automática é separar o seu conjunto de dados original em conjuntos de dados de treino e teste, utilizando o módulo Split , ou o módulo de partição e amostra .
- Ligação a saída do conjunto de dados pontuado do Modelo de Pontuação para a entrada do Modelo de Avaliação.
- Ligação a saída do módulo De Dados Divididos que contém os dados de teste para a entrada direita do Modelo de Avaliação.
- Clique no módulo Modelo de Avaliação e selecione Executar selecionado para gerar os resultados da avaliação.
Comparar pontuações de dois modelos
Também pode ligar um segundo conjunto de pontuações ao Modelo de Avaliação. As pontuações podem ser um conjunto de avaliação partilhada que tenha resultados conhecidos, ou um conjunto de resultados de um modelo diferente para os mesmos dados.
Esta funcionalidade é útil porque pode facilmente comparar resultados de dois modelos diferentes nos mesmos dados. Ou, pode comparar pontuações de duas corridas diferentes sobre os mesmos dados com parâmetros diferentes.
- Ligação a saída datset pontuada do Modelo de Pontuação para a entrada do Modelo de Avaliação.
- Ligação a saída do módulo 'Modelo de Pontuação' para a segunda modelo à entrada direita do Modelo de Avaliação.
- Clique no Modelo de Avaliação com direito e selecione Executar selecionado para gerar as pontuações de avaliação.
Resultados
Depois de executar o Modelo de Avaliação, clique com o botão direito no módulo e selecione os resultados da avaliação para ver os resultados. Pode:
- Guarde os resultados como conjunto de dados, para uma análise mais fácil com outras ferramentas
- Gerar uma visualização na interface Studio (clássica)
Se ligar conjuntos de dados a ambas as entradas do Modelo de Avaliação, os resultados conterão métricas tanto para o conjunto de dados como para ambos os modelos. O modelo ou dados anexados à porta esquerda é apresentado em primeiro lugar no relatório, seguido das métricas para o conjunto de dados ou modelo anexados na porta direita.
Por exemplo, a imagem a seguir representa uma comparação de resultados de dois modelos de agrupamento que foram construídos com base nos mesmos dados, mas com parâmetros diferentes.
Por se tratar de um modelo de agrupamento, os resultados da avaliação são diferentes dos que comparamos pontuações de dois modelos de regressão, ou comparados com dois modelos de classificação. No entanto, a apresentação geral é a mesma.
Métricas
Esta secção descreve as métricas devolvidas para os tipos específicos de modelos suportados para utilização com o Modelo de Avaliação:
Métricas para modelos de classificação
As seguintes métricas são reportadas na avaliação dos modelos de classificação. Se comparar modelos, são classificados pela métrica que seleciona para avaliação.
A precisão mede a bondade de uma classificação modelo como a proporção de resultados verdadeiros para os casos totais.
Precisão é a proporção de resultados verdadeiros sobre todos os resultados positivos.
A recuperação é a fração de todos os resultados corretos devolvidos pelo modelo.
A pontuação F é calculada como a média ponderada de precisão e recordação entre 0 e 1, onde o valor ideal de pontuação F é 1.
A AUC mede a área sob a curva traçada com verdadeiros positivos no eixo y e falsos positivos no eixo x. Esta métrica é útil porque fornece um único número que permite comparar modelos de diferentes tipos.
A perda média de registo é uma única pontuação usada para expressar a penalidade pelos resultados errados. É calculada como a diferença entre duas distribuições de probabilidades – a verdadeira, e a do modelo.
A perda de registo de treino é uma pontuação única que representa a vantagem do classificador sobre uma previsão aleatória. A perda de registo mede a incerteza do seu modelo comparando as probabilidades que produz com os valores conhecidos (verdade básica) nos rótulos. Quer minimizar a perda de registos para o modelo como um todo.
Métricas para modelos de regressão
As métricas devolvidas para modelos de regressão são geralmente concebidas para estimar a quantidade de erro. Um modelo é considerado como adaptando-se bem aos dados se a diferença entre valores observados e previstos for pequena. No entanto, olhando para o padrão dos residuais (a diferença entre qualquer ponto previsto e o seu valor real correspondente) pode dizer-lhe muito sobre o potencial enviesamento no modelo.
As seguintes métricas são reportadas para avaliar modelos de regressão. Quando comparamos modelos, são classificados pela métrica que seleciona para avaliação.
A probabilidade de registo negativo mede a função de perda, uma pontuação mais baixa é melhor. Note-se que esta métrica só é calculada para a regressão linear bayesiana e para a regressão florestal de decisão; para outros algoritmos, o valor é
Infinity
o que significa para nada.O erro absoluto médio (MAE) mede a proximidade das previsões aos resultados reais; assim, uma pontuação mais baixa é melhor.
Erro quadrado de raiz (RMSE) cria um único valor que resume o erro no modelo. Ao esquartejar a diferença, a métrica ignora a diferença entre a sobre-previsão e a sub-previsão.
Erro absoluto relativo (RAE) é a diferença absoluta relativa entre valores esperados e reais; relativo porque a diferença média é dividida pela média aritmética.
Erro ao quadrado relativo (RSE) normaliza igualmente o erro total ao quadrado dos valores previstos, dividindo-se pelo erro total ao quadrado dos valores reais.
O erro zero único (MZOE) indica se a previsão estava correta ou não. Por outras palavras:
ZeroOneLoss(x,y) = 1
quandox!=y
, caso contrário0
.Coeficiente de determinação, muitas vezes referido como R2, representa o poder preditivo do modelo como um valor entre 0 e 1. Zero significa que o modelo é aleatório (não explica nada); 1 significa que há um ajuste perfeito. No entanto, deve ser usada cautela na interpretação dos valores R2 , uma vez que valores baixos podem ser inteiramente normais e valores elevados podem ser suspeitos.
Métricas para modelos de agrupamento
Como os modelos de clustering diferem significativamente dos modelos de classificação e regressão em muitos aspetos, o Modelo de Avaliação também devolve um conjunto diferente de estatísticas para modelos de clustering.
As estatísticas devolvidas para um agrupamento modelo descrevem quantos pontos de dados foram atribuídos a cada cluster, a quantidade de separação entre clusters, e quão apertados os pontos de dados são agrupados dentro de cada cluster.
As estatísticas do agrupamento modelo são médias ao longo de todo o conjunto de dados, com linhas adicionais contendo as estatísticas por cluster.
Por exemplo, os seguintes resultados mostram uma parte dos resultados de uma experiência de amostra que agrupa os dados no conjunto de dados de classificação binária de diabetes indiano PIMA, que está disponível no Machine Learning Studio (clássico).
Descrição do resultado | Distância média para o Centro de Agrupamentos | Distância média para outro centro | Número de pontos | Distância máxima para o centro de agrupamento |
---|---|---|---|---|
Avaliação Combinada | 55.915068 | 169.897505 | 538 | 303.545166 |
Avaliação para cluster no.0 | 0 | 1 | 570 | 0 |
Avaliação para cluster nº 1 | 0 | 1 | 178 | 0 |
Avaliação para cluster nº 2 | 0 | 1 | 178 | 0 |
A partir destes resultados, obtém-se as seguintes informações:
O módulo de Agrupamento sweep cria vários modelos de agrupamento, listados por ordem de precisão. Para simplificar, mostramos apenas os modelo mais bem classificados aqui. Os modelos são medidos usando todas as métricas possíveis, mas os modelos são classificados usando a métrica que especificou. Se mudar a métrica, um modelo diferente pode ser classificado mais alto.
A pontuação de Avaliação Combinada no topo de cada secção de resultados lista as pontuações médias para os clusters criados nesse modelo particular.
Este modelo de topo passou a criar três clusters; outros modelos podem criar dois clusters, ou quatro clusters. Portanto, esta pontuação de avaliação combinada ajuda a comparar modelos com um número diferente de clusters.
As pontuações na coluna, Distância Média para Centro de Cluster, representam a proximidade de todos os pontos num aglomerado ao centroíid daquele cluster.
As pontuações na coluna, Distância Média para Outro Centro, representam o quão perto, em média, cada ponto do cluster é para os centrosids de todos os outros clusters.
Pode escolher qualquer uma das quatro métricas para medir esta distância, mas todas as medições devem usar a mesma métrica.
A coluna Número de Pontos mostra quantos pontos de dados foram atribuídos a cada cluster, juntamente com o número total total de pontos de dados em qualquer cluster.
Se o número de pontos de dados atribuídos aos clusters for inferior ao número total de pontos de dados disponíveis, significa que os pontos de dados não poderiam ser atribuídos a um cluster.
As pontuações na coluna, Maximal Distance to Cluster Center, representam a soma das distâncias entre cada ponto e o centroírico do cluster desse ponto.
Se este número for elevado, pode significar que o aglomerado está amplamente disperso. Deve rever esta estatística juntamente com a Distância Média ao Cluster Center para determinar a propagação do cluster.
Exemplos
Por exemplo, como gerar, visualizar e interpretar métricas de avaliação, consulte estas experiências de amostra na Galeria Azure AI. Estas experiências demonstram como construir vários modelos e usar o Modelo de Avaliação para determinar qual modelo é o melhor.
Compare os Classificadores Binários: Explica como comparar o desempenho de diferentes classificadores que foram construídos usando os mesmos dados.
Compare os Classificadores multi-classes: Demonstra como comparar a precisão de diferentes modelos de classificação que foram construídos no conjunto de dados de reconhecimento de letras.
Compare Regressors: Acompanha-o através do processo de avaliação de diferentes modelos de regressão.
Estimativa da procura: Aprenda a combinar métricas de avaliação de vários modelos.
Previsão da relação com o cliente: Demonstra como avaliar vários modelos relacionados.
Entradas esperadas
Nome | Tipo | Description |
---|---|---|
Conjunto de dados pontuado | Tabela de Dados | Conjunto de dados pontuado |
Conjunto de dados marcado para comparar | Tabela de Dados | Conjunto de dados marcado para comparar (opcional) |
Saídas
Nome | Tipo | Description |
---|---|---|
Resultados da avaliação | Tabela de Dados | Resultado da avaliação de dados |
Exceções
Exceção | Description |
---|---|
Erro 0003 | A exceção ocorre se uma ou mais entradas forem nulas ou vazias. |
Erro 0013 | A exceção ocorre se a aprovação para o aprendiz de módulo tem um tipo inválido. |
Erro 0020 | A exceção ocorre se o número de colunas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno. |
Erro 0021 | A exceção ocorre se o número de linhas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno. |
Erro 0024 | A exceção ocorre se o conjunto de dados não contiver uma coluna de etiqueta. |
Erro 0025 | A exceção ocorre se o conjunto de dados não contiver uma coluna de pontuação. |
Ver também
Modelo de validação cruzada
Avaliar Recomendador
Avaliar
Modelo de Classificação