Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Entenda as métricas usadas para avaliar um modelo de ML.NET.
As métricas de avaliação são específicas para o tipo de tarefa de machine learning que um modelo executa.
Por exemplo, para a tarefa de classificação, o modelo é avaliado medindo o quão bem uma categoria prevista corresponde à categoria real. E para agrupamento, a avaliação baseia-se na proximidade dos itens agrupados entre si e na distância entre os grupos.
Métricas de avaliação para classificação binária
Métricas | Descrição | Procurar |
---|---|---|
Exatidão | A precisão é a proporção de previsões corretas com um conjunto de dados de teste. É a taxa de número de previsões corretas para o número total de amostras de entrada. Funcionará bem se houver um número semelhante de amostras pertencentes a cada classe. | Quanto mais perto de 1,00, melhor. Mas exatamente 1,00 indica um problema (geralmente: vazamento de rótulo/destino, ajuste excessivo ou teste com os dados de treinamento). Quando os dados de teste são desequilibrados (onde a maioria das instâncias pertencem a uma das classes), o conjunto de dados é pequeno ou as pontuações se aproximam de 0,00 ou 1,00, então a precisão realmente não captura a eficácia de um classificador e você precisa verificar métricas adicionais. |
AUC | aucROC ou Área sob a curva mede a área sob a curva criada varrendo a taxa positiva verdadeira versus a taxa de falso positivo. | Quanto mais perto de 1,00, melhor. Deve ser maior que 0,50 para que um modelo seja aceitável. Um modelo com AUC de 0,50 ou menos é inútil. |
AUCPR | aucPR ou Área sob a curva de uma curva Precision-Recall: medida útil de sucesso da previsão quando as classes estão desequilibradas (conjuntos de dados altamente distorcidos). | Quanto mais perto de 1,00, melhor. Pontuações elevadas próximas de 1,00 mostram que o classificador retorna resultados precisos (precisão alta) e retorna a maioria de todos os resultados positivos (recall alto). |
Medida F1 | Pontuação F1 também conhecida como pontuação F equilibrada ou medida F. É a média harmônica da precisão e do recall. A pontuação F1 é útil quando você deseja buscar um equilíbrio entre a precisão e o recall. | Quanto mais perto de 1,00, melhor. Uma pontuação de F1 atinge seu melhor valor em 1,00 e a pior pontuação em 0,00. Ela informa o nível de precisão do classificador. |
Para obter mais detalhes sobre as métricas de classificação binária, leia os seguintes artigos:
Métricas de avaliação para classificação de várias classes e classificação de texto
Métricas | Descrição | Procurar |
---|---|---|
Microatidão | A precisão de micromédia agrega as contribuições de todas as classes para computar a métrica média. Ela é a fração de instâncias previstas corretamente. A micro-média não leva em conta o pertencimento de classe. Basicamente, cada par de classe de exemplo contribui igualmente para a métrica de precisão. | Quanto mais perto de 1,00, melhor. Em uma tarefa de classificação de várias classes, a micro-precisão é preferível à macro-precisão se você suspeitar que pode haver um desequilíbrio de classes (ou seja, você pode ter muito mais exemplos de uma classe do que de outras classes). |
Macroprecisão | A precisão de macromédia é a precisão média no nível de classe. A precisão de cada classe é computada e a precisão da macro é a média dessas precisões. Basicamente, cada classe contribui igualmente para a métrica de precisão. Classes minoritárias recebem o mesmo peso que as classes maiores. A métrica de média de macro fornece o mesmo peso para cada classe, independentemente de quantas instâncias dessa classe o conjunto de dados contém. | Quanto mais perto de 1,00, melhor. Ele calcula a métrica de forma independente para cada classe e, em seguida, usa a média (portanto, tratando todas as classes igualmente) |
Perda de log | A perda logarítmica mede o desempenho de um modelo de classificação em que a entrada de previsão é um valor de probabilidade entre 0,00 e 1,00. A perda logarítmica aumenta à medida que a probabilidade prevista diverge do rótulo real. | Quanto mais perto de 0,00, melhor. Um modelo perfeito teria uma perda logarítmica de 0,00. A meta dos modelos de machine learning é minimizar esse valor. |
Redução de perda logarítmica | A redução da perda logarítmica pode ser interpretada como a vantagem do classificador em relação a uma previsão aleatória. | Varia entre -inf e 1,00, onde 1,00 representa previsões perfeitas e 0,00 indica previsões médias. Por exemplo, se o valor for igual a 0,20, ele poderá ser interpretado como "a probabilidade de uma previsão correta é 20% melhor do que a estimativa aleatória" |
A microatidão geralmente é melhor alinhada com as necessidades de negócios das previsões de ML. Se você quiser selecionar uma única métrica para escolher a qualidade de uma tarefa de classificação multiclasse, ela geralmente deve ser de microatidão.
Exemplo de uma tarefa de classificação do tíquete de suporte: (mapeia tíquetes de entrada para equipes de suporte)
- Microprecisão – com que frequência um tíquete de entrada é classificado para a equipe certa?
- Macroprecisão – para uma equipe de média, com que frequência um tíquete de entrada é correto para sua equipe?
A macroprecisão superpondera equipes pequenas neste exemplo: uma equipe pequena, que obtém apenas 10 tíquetes por ano, conta tanto quanto uma equipe grande, com 10 mil tíquetes por ano. Nesse caso, a micro-precisão correlaciona-se melhor com a necessidade empresarial de "quanto tempo/dinheiro a empresa pode economizar ao automatizar meu processo de roteamento de tíquetes".
Para obter mais detalhes sobre métricas de classificação de várias classes, consulte Micro e macromédia de precisão, recall e F-Score.
Métricas de avaliação para regressão e recomendação
As tarefas de regressão e recomendação preveem um número. No caso de regressão, o número pode ser qualquer propriedade de saída que seja influenciada pelas propriedades de entrada. Para recomendação, o número geralmente é um valor de classificação (entre 1 e 5, por exemplo) ou uma recomendação sim/não (representada por 1 e 0, respectivamente).
Métrica | Descrição | Procurar |
---|---|---|
R-Squared | R-squared (R2) ou Coeficiente de determinação representa o poder preditivo do modelo como um valor entre -inf e 1,00. 1,00 significa que há um ajuste perfeito, e o ajuste pode ser arbitrariamente ruim para que as pontuações possam ser negativas. Uma pontuação de 0,00 significa que o modelo está adivinhando o valor esperado para o rótulo. Um valor R2 negativo indica que o ajuste não segue a tendência dos dados e o modelo tem um desempenho pior do que a estimativa aleatória. Isso só é possível com modelos de regressão não linear ou regressão linear restrita. R2 mede o quão próximos os valores reais de dados de teste estão com os valores previstos. | Quanto mais próximo de 1,00, melhor qualidade. No entanto, às vezes valores R-quadrados baixos (como 0,50) podem ser totalmente normais ou bons o suficiente para seu cenário e valores R-quadrados altos nem sempre são bons e são suspeitos. |
Perda absoluta | A MAE (perda absoluta ou erro absoluto médio) mede a proximidade das previsões com os resultados reais. É a média de todos os erros de modelo, em que o erro de modelo é a distância absoluta entre o valor do rótulo previsto e o valor correto do rótulo. Esse erro de previsão é calculado para cada registro do conjunto de dados de teste. Por fim, o valor médio é calculado para todos os erros absolutos registrados. | Quanto mais próximo de 0,00, melhor qualidade. O erro absoluto médio usa a mesma escala que os dados que estão sendo medidos (não é normalizado para um intervalo específico). Perda absoluta, perda quadrada e perda de RMS só podem ser usadas para fazer comparações entre modelos para o mesmo conjunto de dados ou conjunto de dados com uma distribuição de valor de rótulo semelhante. |
Perda quadrática | A perda quadrática ou erro quadrático médio (MSE), também chamado de desvio quadrático médio (MSD), informa o nível de proximidade de uma linha de regressão em relação a um conjunto de valores de dados de teste considerando as distâncias dos pontos até a linha de regressão (essas distâncias são os erros E) e elevando-os ao quadrado. Elevar ao quadrado dá mais peso para diferenças maiores. | É sempre não negativo e os valores mais próximos de 0,00 são melhores. Dependendo de seus dados, pode ser impossível obter um valor muito pequeno para o erro quadrado médio. |
Perda de RMS | RMS-loss ou RMSE (erro quadrático médio) (também chamado RMSD, desvio quadrático médio), mede a diferença entre os valores previstos por um modelo e os valores observados do ambiente que está sendo modelado. A perda de RMS é a raiz quadrada da perda quadrática e tem as mesmas unidades que o rótulo, de modo semelhante à perda absoluta, mas dando mais peso para diferenças maiores. O erro quadrado médio raiz é comumente usado em climatologia, previsão e análise de regressão para verificar os resultados experimentais. | É sempre não negativo e os valores mais próximos de 0,00 são melhores. O RMSD é uma medida de precisão, para comparar erros de previsão de modelos diferentes para um conjunto de dados específico e não entre conjuntos de dados, pois depende de escala. |
Para obter mais detalhes sobre as métricas de regressão, leia os seguintes artigos:
- Análise de regressão: como interpretar R ao quadrado e avaliar a adequação do ajuste?
- Como interpretar r-squared na análise de regressão
- Definição de R-Squared
- O coeficiente de determinação e as suposições de modelos de regressão linear
- Definição de erro quadrado médio
- O que são erro médio quadrado e erro quadrado médio raiz?
Métricas de avaliação para agrupamento
Métrica | Descrição | Procurar |
---|---|---|
Distância Média | Média da distância entre os pontos de dados e o centro do cluster atribuído. A distância média é uma medida de proximidade dos pontos de dados para centroides de cluster. É uma medida de quão "coeso" o agrupamento é. | Valores mais próximos de 0 são melhores. Quanto mais próximo de zero a distância média for, mais clusterizados serão os dados. Observe, porém, que essa métrica diminuirá se o número de clusters for aumentado e, no caso extremo (em que cada ponto de dados distinto for seu próprio cluster), ela será igual a zero. |
Índice Davies Bouldin | A razão média das distâncias dentro de clusters em relação às distâncias entre clusters. Quanto mais apertado o cluster e mais distantes estiverem os clusters, menor será esse valor. | Valores mais próximos de 0 são melhores. Clusters mais distantes e menos dispersos resultarão em uma melhor pontuação. |
Informações mútuas normalizadas | Podem ser usadas quando os dados de treinamento utilizados para treinar o modelo de clustering também vêm com rótulos reais (ou seja, clustering supervisionado). A métrica De Informações Mútuas Normalizadas mede se pontos de dados semelhantes são atribuídos ao mesmo cluster e pontos de dados diferentes são atribuídos a clusters diferentes. As informações mútuas normalizadas são um valor entre 0 e 1. | Valores mais próximos de 1 são melhores. |
Métricas de avaliação para Classificação
Métrica | Descrição | Procurar |
---|---|---|
Ganhos cumulativos com desconto | O DCG (ganho cumulativo com desconto) é uma medida da qualidade da classificação. Ela é derivada de duas suposições. Um: itens altamente relevantes são mais úteis ao aparecerem mais altos na ordem de classificação. Dois: a utilidade controla a relevância, quanto maior a relevância, mais útil será um item. O ganho cumulativo com desconto é calculado para uma posição específica na ordem de classificação. Ele soma a classificação de relevância dividida pelo logaritmo do índice de classificação até a posição de interesse. Ele é calculado usando $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ As classificações de relevância são fornecidas para um algoritmo de treinamento de classificação como rótulos de verdade base. Um valor DCG é fornecido para cada posição na tabela de classificação, por isso o nome Ganhos Cumulativos Com Desconto. | Valores mais altos são melhores. |
Ganhos Cumulativos Descontados Normalizados | A normalização do DCG permite que a métrica seja comparada para listas de classificação de tamanhos diferentes. | Valores mais próximos de 1 são melhores. |
Métricas de avaliação para detecção de anomalias
Métrica | Descrição | Procurar |
---|---|---|
Área sob curva ROC | A área sob a curva do operador receptor mede o quão bem o modelo separa pontos de dados anômalos e usuais. | Valores mais próximos de 1 são melhores. Somente valores maiores que 0,5 demonstram eficácia do modelo. Valores de 0,5 ou abaixo indicam que o modelo não é melhor do que alocar aleatoriamente as entradas para categorias anômalas e usuais. |
Taxa de detecção na contagem de falsos positivos | A taxa de detecção em contagem de falsos positivos é a proporção do número de anomalias identificadas corretamente para o número total de anomalias em um conjunto de testes, indexada por cada falso positivo. Ou seja, há um valor para a taxa de detecção na contagem de falsos positivos de cada item falso positivo. | Valores mais próximos de 1 são melhores. Se não houver falsos positivos, esse valor será 1. |
Métricas de avaliação para similaridade de frase
Métrica | Descrição | Procurar |
---|---|---|
Correlação de Pearson | A correlação de Pearson, também conhecida como coeficiente de correlação, mede a dependência ou a relação entre dois conjuntos de dados. | Valores absolutos mais próximos de 1 são mais semelhantes. Essa métrica varia de -1 a 1. Um valor absoluto de 1 implica que os conjuntos de dados são idênticos. Um valor de 0 implica que não há relação entre os dois conjuntos de dados. |