Avaliar resultados automatizados de experiências de aprendizagem automática de máquinas

Neste artigo, aprenda a avaliar e comparar modelos treinados pela sua experiência automatizada de aprendizagem automática de máquinas (ML automatizado). Ao longo de uma experiência automatizada de ML, muitos empregos são criados e cada trabalho cria um modelo. Para cada modelo, o ML automatizado gera métricas de avaliação e gráficos que ajudam a medir o desempenho do modelo.

Por exemplo, ml automatizado gera os seguintes gráficos com base no tipo de experiência.

Classificação Regressão/previsão
A matriz de confusão Histogramas residuais
Curva característica do funcionamento do recetor (ROC) Previsto vs. verdadeiro
Curva de precisão (PR) Horizonte de previsão (pré-visualização)
Curva de aumento
Curva de ganhos cumulativos
Curva de calibração

Pré-requisitos

Ver resultados de emprego

Após a conclusão da sua experiência automatizada de ML, uma história dos trabalhos pode ser encontrada através de:

Os seguintes passos e vídeo, mostrar-lhe como ver a história de execução e as métricas e gráficos de avaliação de modelos no estúdio:

  1. Inscreva-se no estúdio e navegue para o seu espaço de trabalho.
  2. No menu esquerdo, selecione Runs.
  3. Selecione a sua experiência na lista de experiências.
  4. Na tabela na parte inferior da página, selecione um trabalho ML automatizado.
  5. No separador Modelos , selecione o nome Algoritmo para o modelo que pretende avaliar.
  6. No separador Métricas , utilize as caixas de verificação à esquerda para visualizar métricas e gráficos.

Métricas de classificação

ML automatizado calcula métricas de desempenho para cada modelo de classificação gerado para a sua experiência. Estas métricas baseiam-se na implementação do scikit learn.

Muitas métricas de classificação são definidas para classificação binária em duas classes, e requerem uma média sobre as classes para produzir uma pontuação para classificação multi-classes. O Scikit-learn fornece vários métodos de média, três dos quais ml automatizado expõe: macro, micro e ponderado.

  • Macro - Calcular a métrica para cada classe e tomar a média não ponderada
  • Micro - Calcular a métrica globalmente contando os verdadeiros positivos totais, falsos negativos e falsos positivos (independentes das classes).
  • Ponderado - Calcular a métrica para cada classe e tomar a média ponderada com base no número de amostras por classe.

Embora cada método de média tenha os seus benefícios, uma consideração comum ao selecionar o método adequado é o desequilíbrio de classe. Se as classes tiverem um número diferente de amostras, pode ser mais informativo utilizar uma média macro onde as classes minoritárias recebem igual ponderação para as classes maioritárias. Saiba mais sobre métricas binárias vs multiclasse em ML automatizado.

A tabela seguinte resume as métricas de desempenho do modelo que o ML automatizado calcula para cada modelo de classificação gerado para a sua experiência. Para obter mais detalhes, consulte a documentação scikit-learn ligada no campo de cálculo de cada métrica.

Nota

Consulte a secção de métricas de imagem para obter detalhes adicionais sobre métricas para modelos de classificação de imagem.

Metric Descrição Cálculo
AUC AUC é a área sob a curva característica de funcionamento do recetor.

Objetivo: Mais perto de 1, melhor
Alcance: [0, 1]

Os nomes métricos suportados incluem,
  • AUC_macro, a média aritmética da AUC para cada classe.
  • AUC_micro, calculado contando os verdadeiros positivos totais, falsos negativos e falsos positivos.
  • AUC_weighted, média aritmética da pontuação para cada classe, ponderada pelo número de casos verdadeiros em cada classe.
  • AUC_binary, o valor da AUC, tratando uma classe específica como true classe e combinando todas as outras classes como false classe.

  • Cálculo
    accuracy Precisão é a razão das previsões que correspondem exatamente às verdadeiras etiquetas de classe.

    Objetivo: Mais perto de 1, melhor
    Alcance: [0, 1]
    Cálculo
    average_precision A precisão média resume uma curva de precisão-recordação como a média ponderada de precisões alcançadas em cada limiar, com o aumento da recordação do limiar anterior utilizado como peso.

    Objetivo: Mais perto de 1, melhor
    Alcance: [0, 1]

    Os nomes métricos suportados incluem,
  • average_precision_score_macro, a média aritmética da pontuação média de precisão de cada classe.
  • average_precision_score_micro, calculado contando os verdadeiros positivos totais, falsos negativos e falsos positivos.
  • average_precision_score_weighted, a média aritmética da pontuação média de precisão para cada classe, ponderada pelo número de casos verdadeiros em cada classe.
  • average_precision_score_binary, o valor da precisão média, tratando uma classe específica como true classe e combinando todas as outras classes como false classe.
  • Cálculo
    balanced_accuracy Precisão equilibrada é a média aritmética de recordação para cada classe.

    Objetivo: Mais perto de 1, melhor
    Alcance: [0, 1]
    Cálculo
    f1_score A pontuação de F1 é a média harmónica de precisão e recordação. É uma boa medida equilibrada tanto de falsos positivos como de falsos negativos. No entanto, não tem em conta os verdadeiros negativos.

    Objetivo: Mais perto de 1, melhor
    Alcance: [0, 1]

    Os nomes métricos suportados incluem,
  • f1_score_macro: a média aritmética da pontuação F1 para cada classe.
  • f1_score_micro: calculado contando os verdadeiros positivos totais, falsos negativos e falsos positivos.
  • f1_score_weighted: média ponderada por frequência de classe da pontuação F1 para cada classe.
  • f1_score_binary, o valor da F1, tratando uma classe específica como true classe e combinando todas as outras classes como false classe.
  • Cálculo
    log_loss Esta é a função de perda utilizada na regressão logística (multinomial) e extensões da mesmo, tais como redes neurais, definidas como a probabilidade negativa de log-probabilidade dos verdadeiros rótulos dadas as previsões de um classificador probabilístico.

    Objetivo: Mais perto de 0, melhor
    Alcance: [0, inf)
    Cálculo
    norm_macro_recall A recuperação macro normalizada é a recuperação macro-média e normalizada, de modo que o desempenho aleatório tem uma pontuação de 0, e o desempenho perfeito tem uma pontuação de 1.

    Objetivo: Mais perto de 1, melhor
    Alcance: [0, 1]
    (recall_score_macro - R) / (1 - R)

    onde, R é o valor esperado de recall_score_macro previsões aleatórias.

    R = 0.5 para a classificação binária.
    R = (1 / C) para problemas de classificação de classe C.
    matthews_correlation O coeficiente de correlação matthews é uma medida equilibrada de precisão, que pode ser usada mesmo que uma classe tenha muito mais amostras do que outra. Um coeficiente de 1 indica previsão perfeita, 0 previsão aleatória e previsão inversa de -1.

    Objetivo: Mais perto de 1, melhor
    Alcance: [-1, 1]
    Cálculo
    precisão Precisão é a capacidade de um modelo para evitar a rotulagem de amostras negativas como positivas.

    Objetivo: Mais perto de 1, melhor
    Alcance: [0, 1]

    Os nomes métricos suportados incluem,
  • precision_score_macro, a média aritmética de precisão para cada classe.
  • precision_score_micro, calculado globalmente contando os verdadeiros positivos e falsos positivos.
  • precision_score_weighted, a média aritmética de precisão para cada classe, ponderada pelo número de casos verdadeiros em cada classe.
  • precision_score_binary, o valor da precisão, tratando uma classe específica como true classe e combinando todas as outras classes como false classe.
  • Cálculo
    revocação Lembre-se é a capacidade de um modelo detetar todas as amostras positivas.

    Objetivo: Mais perto de 1, melhor
    Alcance: [0, 1]

    Os nomes métricos suportados incluem,
  • recall_score_macro: a média aritmética de recordação para cada classe.
  • recall_score_micro: calculado globalmente contando os verdadeiros positivos totais, falsos negativos e falsos positivos.
  • recall_score_weighted: a média aritmética de recordação para cada classe, ponderada pelo número de casos verdadeiros em cada classe.
  • recall_score_binary, o valor da recordação, tratando uma classe específica como true classe e combinando todas as outras classes como false classe.
  • Cálculo
    weighted_accuracy A precisão ponderada é a precisão em que cada amostra é ponderada pelo número total de amostras pertencentes à mesma classe.

    Objetivo: Mais perto de 1, melhor
    Alcance: [0, 1]
    Cálculo

    Métricas de classificação binárias vs. multiclasses

    O ML automatizado deteta automaticamente se os dados são binários e também permite que os utilizadores ativem métricas de classificação binárias, mesmo que os dados são multiclasse especificando uma true classe. As métricas de classificação multiclasse serão reportadas independentemente de um conjunto de dados ter duas classes ou mais de duas classes. As métricas de classificação binárias só serão reportadas quando os dados são binários, ou os utilizadores ativarem a opção.

    Nota

    Quando uma tarefa de classificação binária é detetada, usamos numpy.unique para encontrar o conjunto de rótulos e a etiqueta posterior será usada como classe true . Uma vez que existe um procedimento de triagem em numpy.unique, a escolha da true classe será estável.

    Note que as métricas de classificação multiclasse destinam-se à classificação multiclasse. Quando aplicadas a um conjunto binário de dados, estas métricas não tratarão nenhuma classe como a true classe, como seria de esperar. As métricas claramente destinadas a multiclasses são sufixadas com micro, macroou weighted. Exemplos incluem, , , e AUCrecall_score. precision_scoref1_scoreaverage_precision_score Por exemplo, em vez de calcular a recordação como tp / (tp + fn), as médias médias de multiclasse (micro, macroou weighted) médias em ambas as classes de um conjunto de dados de classificação binária. Isto equivale a calcular a recordação para a true classe e a false classe separadamente, e, em seguida, tomar a média dos dois.

    Além disso, embora a deteção automática da classificação binária seja suportada, recomenda-se ainda especificar sempre a true classe manualmente para garantir que as métricas de classificação binária são calculadas para a classe correta.

    Para ativar métricas para conjuntos de dados de classificação binária quando o conjunto de dados em si é multiclasse, os utilizadores apenas precisam de especificar a classe a ser tratada como true classe e estas métricas serão calculadas.

    A matriz de confusão

    As matrizes de confusão fornecem um visual para como um modelo de aprendizagem automática está a cometer erros sistemáticos nas suas previsões para modelos de classificação. A palavra "confusão" no nome provém de um modelo "confuso" ou de amostras de rotulagem errada. Uma célula em linha i e coluna j numa matriz de confusão contém o número de amostras no conjunto de dados de avaliação que pertencem à classe C_i e foram classificadas pelo modelo como classe C_j.

    No estúdio, uma célula mais escura indica um maior número de amostras. Selecionar a vista normalizada no dropdown normalizará em cada linha matriz para mostrar a percentagem de classe C_i prevista para ser classe C_j. O benefício da visão raw padrão é que você pode ver se o desequilíbrio na distribuição de classes reais fez com que o modelo classificasse mal amostras da classe minoritária, uma questão comum em conjuntos de dados desequilibrados.

    A matriz de confusão de um bom modelo terá a maioria das amostras ao longo da diagonal.

    Matriz de confusão para um bom modelo

    Matriz de confusão para um bom modelo

    Matriz de confusão para um mau modelo

    Matriz de confusão para um mau modelo

    Curva ROC

    A característica de funcionamento do recetor (ROC) traça a relação entre a taxa positiva verdadeira (TPR) e a taxa falsa positiva (FPR) à medida que o limiar de decisão muda. A curva ROC pode ser menos informativa quando se treinam modelos em conjuntos de dados com desequilíbrio de classe elevada, uma vez que a classe maioritária pode abafar as contribuições das classes minoritárias.

    A área sob a curva (AUC) pode ser interpretada como a proporção de amostras corretamente classificadas. Mais precisamente, a AUC é a probabilidade de o classificador classificar uma amostra positiva escolhida aleatoriamente mais do que uma amostra negativa escolhida aleatoriamente. A forma da curva dá uma intuição para a relação entre TPR e FPR em função do limiar de classificação ou limite de decisão.

    Uma curva que se aproxima do canto superior esquerdo da tabela está a aproximar-se de um TPR 100% e 0% de FPR, o melhor modelo possível. Um modelo aleatório produziria uma curva ROC ao longo da y = x linha do canto inferior esquerdo para o canto superior direito. Um modelo pior do que aleatório teria uma curva ROC que desce abaixo da y = x linha.

    Dica

    Para experiências de classificação, cada um dos gráficos de linha produzidos para modelos ML automatizados pode ser usado para avaliar o modelo por classe ou em média em todas as classes. Pode alternar entre estas diferentes vistas clicando nas etiquetas de classe na legenda à direita da tabela.

    Curva ROC para um bom modelo

    Curva ROC para um bom modelo

    Curva ROC para um mau modelo

    Curva ROC para um mau modelo

    Curva de precisão

    A curva de precisão-recordação traça a relação entre precisão e recordação à medida que o limiar de decisão muda. Recorde-se que a capacidade de um modelo detetar todas as amostras positivas e precisão é a capacidade de um modelo evitar a rotulagem de amostras negativas como positivas. Alguns problemas de negócio podem exigir uma maior recuperação e uma maior precisão dependendo da importância relativa de evitar falsos negativos vs falsos positivos.

    Dica

    Para experiências de classificação, cada um dos gráficos de linha produzidos para modelos ML automatizados pode ser usado para avaliar o modelo por classe ou em média em todas as classes. Pode alternar entre estas diferentes vistas clicando nas etiquetas de classe na legenda à direita da tabela.

    Curva de precisão para um bom modelo

    Curva de precisão para um bom modelo

    Curva de precisão para um mau modelo

    Curva de precisão para um mau modelo

    Curva de ganhos cumulativos

    A curva de ganhos cumulativos traça a percentagem de amostras positivas corretamente classificadas como uma função da percentagem de amostras consideradas onde consideramos amostras na ordem da probabilidade prevista.

    Para calcular o ganho, primeiro classifica todas as amostras da probabilidade mais alta para a menor prevista pelo modelo. Em seguida, pegue x% as previsões de maior confiança. Divida o número de amostras positivas detetadas na questão x% pelo número total de amostras positivas para obter o ganho. O ganho acumulado é a percentagem de amostras positivas que detetamos quando consideramos alguns por cento dos dados que são mais prováveis de pertencer à classe positiva.

    Um modelo perfeito classificará todas as amostras positivas acima de todas as amostras negativas, dando uma curva de ganhos cumulativos composta por dois segmentos retos. A primeira é uma linha com declive 1 / x de (0, 0) onde x está a (x, 1) fração de amostras que pertencem à classe positiva (1 / num_classesse as classes são equilibradas). A segunda é uma linha horizontal de (x, 1) . .(1, 1) No primeiro segmento, todas as amostras positivas são classificadas corretamente e o ganho acumulado vai para 100% dentro da primeira x% das amostras consideradas.

    O modelo aleatório de base terá uma curva de ganhos cumulativa, na sequência y = x do qual x% foram detetadas amostras consideradas apenas cerca x% do total de amostras positivas. Um modelo perfeito para um conjunto de dados equilibrado terá uma curva média micro e uma linha média macro que tem inclinação num_classes até que o ganho acumulado seja 100% e depois horizontal até que o dado por cento seja de 100.

    Dica

    Para experiências de classificação, cada um dos gráficos de linha produzidos para modelos ML automatizados pode ser usado para avaliar o modelo por classe ou em média em todas as classes. Pode alternar entre estas diferentes vistas clicando nas etiquetas de classe na legenda à direita da tabela.

    Curva de ganhos cumulativos para um bom modelo

    Curva de ganhos cumulativos para um bom modelo

    Curva de ganhos cumulativos para um mau modelo

    Curva de ganhos cumulativos para um mau modelo

    Curva de aumento

    A curva de elevação mostra quantas vezes melhor um modelo funciona em comparação com um modelo aleatório. O elevador é definido como o rácio de ganho cumulativo ao ganho cumulativo de um modelo aleatório (que deve ser 1sempre).

    Este desempenho relativo tem em conta o facto de que a classificação fica mais difícil à medida que aumenta o número de turmas. (Um modelo aleatório prevê incorretamente uma fração mais elevada de amostras de um conjunto de dados com 10 classes em comparação com um conjunto de dados com duas classes)

    A curva de elevação de base é a y = 1 linha onde o desempenho do modelo é consistente com o de um modelo aleatório. Em geral, a curva de elevação para um bom modelo será mais alta nesse gráfico e mais longe do eixo x, mostrando que quando o modelo está mais confiante nas suas previsões, executa muitas vezes melhor do que adivinhação aleatória.

    Dica

    Para experiências de classificação, cada um dos gráficos de linha produzidos para modelos ML automatizados pode ser usado para avaliar o modelo por classe ou em média em todas as classes. Pode alternar entre estas diferentes vistas clicando nas etiquetas de classe na legenda à direita da tabela.

    Curva de elevação para um bom modelo

    Curva de elevação para um bom modelo

    Levante a curva para um mau modelo

    Levante a curva para um mau modelo

    Curva de calibração

    A curva de calibração traça a confiança de um modelo nas suas previsões contra a proporção de amostras positivas a cada nível de confiança. Um modelo bem calibrado classificará corretamente 100% das previsões a que atribui 100% de confiança, 50% das previsões que atribui 50% de confiança, 20% das previsões que atribui a 20% de confiança, e assim por diante. Um modelo perfeitamente calibrado terá uma curva de calibração seguindo a y = x linha onde o modelo prevê perfeitamente a probabilidade de as amostras pertencerem a cada classe.

    Um modelo excessivamente confiante irá prever probabilidades excessivamente próximas de zero e uma, raramente sendo incerto sobre a classe de cada amostra e a curva de calibração será semelhante a "S" atrasado. Um modelo pouco confiante atribuirá uma menor probabilidade, em média, à classe que prevê e a curva de calibração associada será semelhante a um "S". A curva de calibração não retrata a capacidade de classificação correta de um modelo, mas sim a sua capacidade de atribuir corretamente confiança às suas previsões. Um mau modelo ainda pode ter uma boa curva de calibração se o modelo atribuir corretamente baixa confiança e elevada incerteza.

    Nota

    A curva de calibração é sensível ao número de amostras, pelo que um pequeno conjunto de validação pode produzir resultados ruidosos que podem ser difíceis de interpretar. Isto não significa necessariamente que o modelo não esteja bem calibrado.

    Curva de calibração para um bom modelo

    Curva de calibração para um bom modelo

    Curva de calibração para um mau modelo

    Curva de calibração para um mau modelo

    Métricas de regressão/previsão

    O ML automatizado calcula as mesmas métricas de desempenho de cada modelo gerado, independentemente de se tratar de uma experiência de regressão ou previsão. Estas métricas também passam por normalização para permitir a comparação entre modelos treinados em dados com diferentes gamas. Para saber mais, consulte a normalização métrica.

    A tabela seguinte resume as métricas de desempenho do modelo geradas para experiências de regressão e previsão. Tal como as métricas de classificação, estas métricas também são baseadas nas implementações do scikit learn. A documentação adequada para aprender scikit está ligada em conformidade, no campo de Cálculo .

    Metric Descrição Cálculo
    explained_variance A variação explicada mede até que ponto um modelo explica a variação da variável-alvo. É a diminuição percentual da variação dos dados originais para a variação dos erros. Quando a média dos erros é 0, é igual ao coeficiente de determinação (ver r2_score abaixo).

    Objetivo: Mais perto de 1, melhor
    Alcance: (inf, 1]
    Cálculo
    mean_absolute_error Erro absoluto médio é o valor esperado do valor absoluto da diferença entre o alvo e a previsão.

    Objetivo: Mais perto de 0, melhor
    Alcance: [0, inf)

    Tipos:
    mean_absolute_error
    normalized_mean_absolute_error, o mean_absolute_error dividido pelo leque de dados.
    Cálculo
    mean_absolute_percentage_error Erro percentual absoluto médio (MAPE) é uma medida da diferença média entre um valor previsto e o valor real.

    Objetivo: Mais perto de 0, melhor
    Alcance: [0, inf)
    median_absolute_error O erro absoluto mediano é a mediana de todas as diferenças absolutas entre o alvo e a previsão. Esta perda é robusta para os forasteiros.

    Objetivo: Mais perto de 0, melhor
    Alcance: [0, inf)

    Tipos:
    median_absolute_error
    normalized_median_absolute_error: o median_absolute_error dividido pelo alcance dos dados.
    Cálculo
    r2_score R2 (coeficiente de determinação) mede a redução proporcional do erro quadrado médio (MSE) em relação à variação total dos dados observados.

    Objetivo: Mais perto de 1, melhor
    Alcance: [-1, 1]

    Nota: R2 tem frequentemente o alcance (-inf, 1]. O MSE pode ser maior do que a variação observada, pelo que r2 pode ter valores negativos arbitrariamente grandes, dependendo dos dados e das previsões do modelo. Os clips ML automatizados reportaram pontuações R2 em -1, pelo que um valor de -1 para R2 provavelmente significa que a verdadeira pontuação R2 é inferior a -1. Considere os outros valores métricas e as propriedades dos dados ao interpretar uma pontuação R2 negativa.
    Cálculo
    root_mean_squared_error Erro quadrado de raiz (RMSE) é a raiz quadrada da diferença quadrada esperada entre o alvo e a previsão. Para um estimador imparcial, o RMSE é igual ao desvio padrão.

    Objetivo: Mais perto de 0, melhor
    Alcance: [0, inf)

    Tipos:
    root_mean_squared_error
    normalized_root_mean_squared_error: o root_mean_squared_error dividido pelo intervalo dos dados.
    Cálculo
    root_mean_squared_log_error Erro de log quadrado de raiz é a raiz quadrada do erro logarítmico quadrado esperado.

    Objetivo: Mais perto de 0, melhor
    Alcance: [0, inf)

    Tipos:
    root_mean_squared_log_error
    normalized_root_mean_squared_log_error: o root_mean_squared_log_error dividido pelo intervalo dos dados.
    Cálculo
    spearman_correlation A correlação de Spearman é uma medida não paraetística da monótona da relação entre dois conjuntos de dados. Ao contrário da correlação pearson, a correlação de Spearman não assume que ambos os conjuntos de dados são normalmente distribuídos. Como outros coeficientes de correlação, Spearman varia entre -1 e 1 com 0 implicando nenhuma correlação. Correlações de -1 ou 1 implicam uma relação monótona exata.

    Spearman é uma métrica de correlação de ordem de classificação, o que significa que as alterações aos valores previstos ou reais não mudarão o resultado de Spearman se não alterarem a ordem de classificação dos valores previstos ou reais.

    Objetivo: Mais perto de 1, melhor
    Alcance: [-1, 1]
    Cálculo

    Normalização métrica

    ML automatizado normaliza métricas de regressão e previsão que permitem a comparação entre modelos treinados em dados com diferentes gamas. Um modelo treinado num dado com uma gama maior tem um erro maior do que o mesmo modelo treinado em dados com uma gama menor, a menos que esse erro seja normalizado.

    Embora não exista um método padrão para normalizar as métricas de erro, a ML automatizada toma a abordagem comum de dividir o erro pela gama dos dados: normalized_error = error / (y_max - y_min)

    Nota

    O intervalo de dados não é guardado com o modelo. Se fizer inferência com o mesmo modelo num conjunto de testes de retenção, y_min podendo y_max alterar-se de acordo com os dados do teste e as métricas normalizadas podem não ser diretamente utilizadas para comparar o desempenho do modelo em conjuntos de treino e teste. Você pode passar no valor de y_min e y_max do seu conjunto de treinamento para tornar a comparação justa.

    Ao avaliar um modelo de previsão sobre os dados da série de tempo, o ML automatizado toma medidas adicionais para garantir que a normalização ocorre por série de tempo ID (grão), porque cada série de tempo provavelmente tem uma distribuição diferente dos valores-alvo.

    Residuais

    O gráfico residual é um histograma dos erros de previsão (residuais) gerados para experiências de regressão e previsão. Os residuais são calculados como y_predicted - y_true para todas as amostras e depois apresentados como um histograma para mostrar viés do modelo.

    Neste exemplo, note-se que ambos os modelos são ligeiramente tendenciosos para prever abaixo do valor real. Isto não é incomum para um conjunto de dados com uma distribuição distorcida de alvos reais, mas indica pior desempenho do modelo. Um bom modelo terá uma distribuição residual que atinge zero com poucos residuais nos extremos. Um modelo pior terá uma distribuição de residuais espalhada com menos amostras em torno de zero.

    Gráfico de residuais para um bom modelo

    Gráfico de residuais para um bom modelo

    Gráfico de residuais para um mau modelo

    Gráfico de residuais para um mau modelo

    Previsto vs. verdadeiro

    Para a regressão e a experiência de previsão, o gráfico previsto vs. verdadeiro traça a relação entre a característica-alvo (valores verdadeiros/reais) e as previsões do modelo. Os verdadeiros valores são ligados ao longo do eixo x e para cada caixote o valor médio previsto é traçado com barras de erro. Isto permite-lhe ver se um modelo é tendencioso para prever determinados valores. A linha apresenta a previsão média e a área sombreada indica a variação das previsões em torno dessa média.

    Muitas vezes, o valor verdadeiro mais comum terá as previsões mais precisas com a menor variação. A distância da linha de tendência da linha ideal y = x onde existem poucos valores verdadeiros é uma boa medida do desempenho do modelo em outliers. Pode usar o histograma na parte inferior da tabela para raciocinar sobre a distribuição de dados real. Incluir mais amostras de dados onde a distribuição é escassa pode melhorar o desempenho do modelo em dados invisíveis.

    Neste exemplo, note-se que o melhor modelo tem uma linha previsível vs. verdadeira que está mais próxima da linha ideal y = x .

    Gráfico previsto vs. verdadeiro para um bom modelo

    Gráfico previsto vs. verdadeiro para um bom modelo

    Gráfico previsto vs. verdadeiro para um mau modelo

    Gráfico previsto vs. verdadeiro para um mau modelo

    Horizonte de previsão (pré-visualização)

    Para a previsão de experiências, o gráfico de horizonte de previsão traça a relação entre os modelos de valor previsto e os valores reais mapeados ao longo do tempo por dobra de validação cruzada, até 5 vezes. O eixo x mapeia o tempo com base na frequência que forneceu durante a configuração do treino. A linha vertical do gráfico marca o ponto de previsão do horizonte também referido como a linha horizonte, que é o período em que se gostaria de começar a gerar previsões. À esquerda da linha horizonte de previsão, pode ver dados históricos de formação para melhor visualizar as tendências passadas. À direita do horizonte de previsão, pode visualizar as previsões (a linha roxa) contra os reais (a linha azul) para as diferentes dobras de validação cruzada e identificadores de séries de tempo. A área roxa sombreada indica os intervalos de confiança ou variação das previsões em torno dessa média.

    Pode escolher quais as combinações de identificadores de dobras de validação cruzada e de séries de tempo para exibir clicando no ícone de lápis de edição no canto superior direito da tabela. Selecione a partir das primeiras 5 dobras de validação cruzada e até 20 identificadores de séries de tempo diferentes para visualizar a tabela para as suas várias séries de tempo.

    Importante

    Este gráfico só está disponível para modelos gerados a partir de dados de treino e validação. Permitimos até 20 pontos de dados antes e até 80 pontos de dados após a origem prevista. Os visuais para modelos baseados em dados de teste não são suportados neste momento.

    Gráfico do horizonte de previsão

    Métricas para modelos de imagem (pré-visualização)

    ML automatizado utiliza as imagens do conjunto de dados de validação para avaliar o desempenho do modelo. O desempenho do modelo é medido a nível de época para entender como o treino progride. Uma época decorre quando um conjunto de dados inteiro é passado para a frente e para trás através da rede neural exatamente uma vez.

    Métricas de classificação de imagem

    A métrica primária para avaliação é a precisão para os modelos binários e multi-classes de classificação e IoU (Intersecção sobre a União) para modelos de classificação multilabel. As métricas de classificação dos modelos de classificação de imagem são as mesmas definidas na secção de métricas de classificação . Os valores de perda associados a uma época também são registados, o que pode ajudar a monitorizar o progresso da formação e determinar se o modelo é sobreajustado ou inadequado.

    Cada previsão de um modelo de classificação está associada a uma pontuação de confiança, o que indica o nível de confiança com que a previsão foi feita. Os modelos de classificação de imagem multilabel são avaliados por padrão com um limiar de pontuação de 0,5, o que significa que apenas as previsões com pelo menos este nível de confiança serão consideradas como uma previsão positiva para a classe associada. A classificação multiclasse não usa um limiar de pontuação, mas sim, a classe com a pontuação máxima de confiança é considerada como a previsão.

    Métricas de nível de época para classificação de imagem

    Ao contrário das métricas de classificação dos conjuntos de dados tabulares, os modelos de classificação de imagem registam todas as métricas de classificação a um nível de época, como mostrado abaixo.

    Gráficos de nível de época para classificação de imagem

    Métricas sumárias para classificação de imagem

    Para além das métricas escalares que são registadas ao nível da época, o modelo de classificação de imagem também regista métricas sumárias como matriz de confusão, gráficos de classificação incluindo curva ROC, curva de precisão e relatório de classificação para o modelo a partir da melhor época em que obtemos a pontuação mais alta métrica primária (precisão).

    O relatório de classificação fornece os valores de nível de classe para métricas como precisão, recordação, f1-score, suporte, auc e average_precision com vários níveis de média - micro, macro e ponderado como mostrado abaixo. Consulte as definições de métricas da secção de métricas de classificação .

    Relatório de classificação para classificação de imagem

    Métricas de deteção e segmentação de casos de objetos

    Cada previsão de um modelo de deteção de objetos de imagem ou segmentação de instâncias está associada a uma pontuação de confiança. As previsões com pontuação de confiança superior ao limiar de pontuação são a saída como previsões e usadas no cálculo métrico, sendo o valor padrão específico do modelo e pode ser referido a partir da página de sintonização do hiperparímetro (box_score_threshold hiperparaímetro).

    O cálculo métrico de um modelo de deteção de objetos de imagem e segmentação de instância baseia-se numa medição de sobreposição definida por uma métrica chamada IoU (Intersecção sobre a União) que é calculada dividindo a área de sobreposição entre a verdade do solo e as previsões pela área de união da verdade terrestre e das previsões. A IoU calculada a partir de cada previsão é comparada com um limiar de sobreposição chamado limiar de IoU que determina quanto uma previsão deve sobrepor-se a uma verdade terrestre anotada pelo utilizador, a fim de ser considerada como uma previsão positiva. Se a IoU calculada a partir da previsão for inferior ao limiar de sobreposição, a previsão não seria considerada como uma previsão positiva para a classe associada.

    A métrica primária para a avaliação dos modelos de deteção de objetos de imagem e segmentação de instâncias é a precisão média média (mAP). O mAP é o valor médio da precisão média (AP) em todas as classes. Os modelos automatizados de deteção de objetos ML suportam a computação do mAP utilizando os dois métodos abaixo.

    Métricas Pascal VOC:

    Pascal VOC mAP é a forma padrão de computação mAP para modelos de deteção/segmentação de instância de objetos. O método mAP do estilo Pascal VOC calcula a área sob uma versão da curva de precisão-recordação. Primeiro p(ri), que é precisão em lembrar i é calculado para todos os valores únicos de recordação. p(ri) é então substituído por uma precisão máxima obtida para qualquer recordação r' >= ri. O valor de precisão está a diminuir monotonicamente nesta versão da curva. A métrica do mAP pascal é avaliada por padrão com um limiar de IoU de 0,5. Uma explicação detalhada deste conceito está disponível neste blog.

    Métricas COCO:

    O método de avaliação do COCO utiliza um método interpolado de 101 pontos para o cálculo da AP, juntamente com uma média de mais de dez limiares de IoU. AP@[.5:.95] corresponde à média da AP para IoU de 0,5 para 0,95 com um tamanho de degrau de 0,05. O ML automatizado regista todas as doze métricas definidas pelo método COCO, incluindo a AP e a AR (recordação média) em várias escalas nos registos de aplicação, enquanto a interface do utilizador das métricas mostra apenas o mAP num limiar de IoU de 0,5.

    Dica

    A avaliação do modelo de deteção de objetos de imagem pode utilizar métricas de coco se o validation_metric_type hiperparímetro estiver definido para ser 'coco' como explicado na secção de afinação do hiperparaímetro .

    Métricas de nível de época para deteção de objetos e segmentação de instâncias

    Os valores de mAP, precisão e recolha são registados a nível de época para modelos de deteção/segmentação de casos de deteção de objetos de imagem. As métricas de mAP, precisão e recordação também são registadas a nível de classe com o nome 'per_label_metrics'. O "per_label_metrics" deve ser visto como uma mesa.

    Nota

    As métricas ao nível da época para precisão, recolha e per_label_metrics não estão disponíveis quando se utiliza o método 'coco'.

    Gráficos de nível de época para deteção de objetos

    Explicações do modelo e importâncias de características

    Embora as métricas e gráficos de avaliação de modelos sejam bons para medir a qualidade geral de um modelo, inspecionar que conjunto de dados possui um modelo usado para fazer as suas previsões é essencial na prática de IA responsável. É por isso que a ML automatizada fornece um painel de explicações de modelo para medir e reportar as contribuições relativas das funcionalidades do conjunto de dados. Veja como ver o painel de explicações no estúdio do Azure Machine Learning.

    Para uma primeira experiência de código, consulte como configurar explicações de modelos para experiências automatizadas de ML com o Azure Machine Learning Python SDK.

    Nota

    A interpretação, melhor explicação para o modelo, não está disponível para experiências automatizadas de previsão de ML que recomendem os seguintes algoritmos como o melhor modelo ou conjunto:

    • TCNForecaster
    • AutoArima
    • ExponencialSmoothing
    • Profeta
    • Média
    • Ingénuo
    • Média sazonal
    • Ingénua Sazonal

    Passos seguintes