Avaliar erros nos modelos de machine learning

Um dos maiores desafios com as práticas atuais de depuração de modelos é o uso de métricas agregadas para avaliar modelos em um conjunto de dados de parâmetro de comparação. A precisão do modelo pode não ser uniforme entre subgrupos de dados, e pode haver coortes de entrada para as quais o modelo falha com mais frequência. As consequências diretas dessas falhas são a falta de confiabilidade e segurança, o aparecimento de problemas de imparcialidade e uma perda de confiança total no aprendizado de máquina.

Diagrama que mostra um exemplo de taxa de precisão e falhas para um parâmetro de comparação e um modelo de machine learning.

A análise de erro se afasta das métricas de precisão de agregação. Ela expõe a distribuição de erros aos desenvolvedores de modo transparente e permite que eles identifiquem e façam o diagnóstico de erros com eficiência.

O componente Análise de Erros do painel de IA Responsável fornece aos profissionais de aprendizado de máquina uma compreensão mais profunda da distribuição de falhas do modelo e os ajuda a identificar rapidamente coortes de dados errôneas. Esse componente identifica as coortes de dados com uma taxa de erro maior em comparação com a taxa de erro geral do parâmetro de comparação. Ele contribui para o estágio de identificação do fluxo de trabalho do ciclo de vida do modelo por meio de:

  • Uma árvore de decisão que revela coortes com altas taxas de erro.
  • Um mapa de calor que mostra como os recursos de entrada afetam a taxa de erros entre coortes.

Podem ocorrer discrepâncias nos erros quando o sistema apresenta baixo desempenho para grupos demográficos específicos ou coortes de entrada raramente observadas nos dados de treinamento.

Os recursos desse componente vêm do pacote Análise de Erros, que gera perfis de erro de modelo.

Use a Análise de Erro quando precisar:

  • Compreender profundamente como as falhas do modelo são distribuídas em um conjunto de dados e em várias dimensões de entradas e recursos.
  • Dividir as métricas de desempenho agregadas para descobrir automaticamente coortes errôneas para informar as suas etapas de mitigação direcionadas.

Árvore de erros

Muitas vezes, os padrões de erros são complexos e envolvem mais de um ou dois recursos. Desenvolvedores podem ter dificuldade para explorar todas as combinações possíveis de recursos para descobrir bolsões de dados ocultos com falhas críticas.

Para aliviar a carga, a visualização de árvore binária particiona automaticamente os dados de parâmetro de comparação em subgrupos interpretáveis que têm taxas de erro inesperadamente altas ou baixas. Em outras palavras, a árvore usa os recursos de entrada para separar ao máximo o erro do modelo do sucesso. Para cada nó que define um subgrupo de dados, os usuários podem investigar as seguintes informações:

  • Taxa de erro: uma parte das instâncias no nó para o qual o modelo está incorreto. É mostrada pela intensidade da cor vermelha.
  • Cobertura de erro: uma parte de todos os erros que se enquadram no nó. É mostrada por meio da taxa de preenchimento do nó.
  • Representação de dados: o número de instâncias em cada nó da árvore de erros. É mostrado por meio da espessura da borda de entrada do nó, juntamente com o número total de instâncias no nó.

Captura de tela de uma árvore de análise de erros que mostra coortes com maiores ou menores taxas de erro e cobertura.

Mapa de calor de erro

A exibição fatia os dados com base em uma grade unidimensional ou bidimensional de recursos de entrada. Os usuários podem escolher os recursos de entrada de interesse para análise.

O mapa de calor mostra as células com alto erro usando uma cor vermelha mais escura para chamar a atenção do usuário para essas regiões. Esse recurso é especialmente útil quando os temas de erro são diferentes entre partições, o que acontece muito na prática. Nessa exibição de identificação de erro, a análise é altamente orientada pelos usuários e pelos conhecimentos ou hipóteses deles sobre quais recursos podem ser mais importantes para entender as falhas.

Captura de tela de um mapa de calor de análise de erro que mostra erros de modelo particionados por um ou dois recursos.

Próximas etapas