Reconhecer os conjuntos de dados

Os modelos de machine learning "aprendem" com decisões históricas e ações capturadas em dados de treinamento. Como resultado, seu desempenho em cenários reais é fortemente influenciado pelos dados em que eles são treinados. Quando a distribuição de recursos em um conjunto de dados está distorcida, isso pode fazer com que um modelo preveja incorretamente que pontos de dados pertencem a um grupo sub-representado ou a otimização deles ao longo de uma métrica inadequada.

Por exemplo, enquanto um modelo estava treinando um sistema de IA para prever os preços das casas, o conjunto de treinamento representava 75% das casas mais recentes que tinham preços menores que o valor mediano. Como resultado, ele foi muito menos preciso na identificação de casas históricas mais caras. Para consertar isso, foi necessário adicionar casas mais antigas e caras aos dados de treinamento e aumentar os recursos para incluir insights sobre o valor histórico. Esse aumento de dados melhorou os resultados.

O componente de análise de dados do dashboard de IA responsável ajuda a visualizar conjuntos de dados com base em resultados previstos e reais, grupos de erros e recursos específicos. Isso ajuda você a identificar problemas de excesso e falta de representação e ver como os dados são clusterizados no conjunto de dados. As visualizações de dados consistem em gráficos de agregação ou pontos de dados individuais.

Quando usar a análise de dados

Use a análise de dados quando precisar:

  • Explorar as estatísticas do conjunto de dados selecionando filtros diferentes para dividir seus dados em dimensões diferentes (também conhecidas como coortes).
  • Entender a distribuição do conjunto de dados em diferentes coortes e grupos de recursos.
  • Determinar se as suas descobertas relacionadas à imparcialidade, análise de erro e causalidade (derivadas de outros componentes do dashboard) são resultado da distribuição do conjunto de dados.
  • Decidir em quais áreas coletar mais dados para atenuar erros decorrentes de problemas de representação, ruído de rótulo, ruído de recurso, desvio de rótulo e fatores semelhantes.

Próximas etapas