Partilhar via


Compreender os seus conjuntos de dados

Os modelos de aprendizado de máquina "aprendem" com decisões e ações históricas capturadas em dados de treinamento. Como resultado, seu desempenho em cenários do mundo real é fortemente influenciado pelos dados nos quais são treinados. Quando a distribuição de recursos em um conjunto de dados é distorcida, isso pode fazer com que um modelo preveja incorretamente pontos de dados que pertencem a um grupo sub-representado ou seja otimizado ao longo de uma métrica inadequada.

Por exemplo, enquanto um modelo estava treinando um sistema de IA para prever os preços das casas, o conjunto de treinamento estava representando 75% das casas mais novas que tinham preços abaixo da mediana. Como resultado, foi muito menos preciso na identificação bem-sucedida de casas históricas mais caras. A solução foi adicionar casas mais antigas e caras aos dados de treinamento e aumentar os recursos para incluir insights sobre o valor histórico. Esse aumento de dados melhorou os resultados.

O componente de análise de dados do painel de IA responsável ajuda a visualizar conjuntos de dados com base em resultados previstos e reais, grupos de erros e recursos específicos. Ele ajuda a identificar problemas de sobrerepresentação e sub-representação e a ver como os dados são agrupados no conjunto de dados. As visualizações de dados consistem em gráficos agregados ou pontos de dados individuais.

Quando usar a análise de dados

Use a análise de dados quando precisar:

  • Explore as estatísticas do conjunto de dados selecionando diferentes filtros para dividir os dados em diferentes dimensões (também conhecidas como coortes).
  • Compreenda a distribuição do seu conjunto de dados entre diferentes coortes e grupos de recursos.
  • Determine se suas descobertas relacionadas à justiça, análise de erros e causalidade (derivadas de outros componentes do painel) são resultado da distribuição do conjunto de dados.
  • Decida em quais áreas coletar mais dados para mitigar erros decorrentes de problemas de representação, ruído de rótulo, ruído de recurso, viés de rótulo e fatores semelhantes.

Próximos passos

  • Saiba como gerar o painel de IA Responsável por meio de CLI e SDK ou da interface do usuário do estúdio Azure Machine Learning.
  • Explore as visualizações de análise de dados suportadas do painel de IA responsável.
  • Saiba como gerar um scorecard de IA Responsável com base nos insights observados no painel de IA Responsável.