Compreender os seus conjuntos de dados
Os modelos de aprendizado de máquina "aprendem" com decisões e ações históricas capturadas em dados de treinamento. Como resultado, seu desempenho em cenários do mundo real é fortemente influenciado pelos dados nos quais são treinados. Quando a distribuição de recursos em um conjunto de dados é distorcida, isso pode fazer com que um modelo preveja incorretamente pontos de dados que pertencem a um grupo sub-representado ou seja otimizado ao longo de uma métrica inadequada.
Por exemplo, enquanto um modelo estava treinando um sistema de IA para prever os preços das casas, o conjunto de treinamento estava representando 75% das casas mais novas que tinham preços abaixo da mediana. Como resultado, foi muito menos preciso na identificação bem-sucedida de casas históricas mais caras. A solução foi adicionar casas mais antigas e caras aos dados de treinamento e aumentar os recursos para incluir insights sobre o valor histórico. Esse aumento de dados melhorou os resultados.
O componente de análise de dados do painel de IA responsável ajuda a visualizar conjuntos de dados com base em resultados previstos e reais, grupos de erros e recursos específicos. Ele ajuda a identificar problemas de sobrerepresentação e sub-representação e a ver como os dados são agrupados no conjunto de dados. As visualizações de dados consistem em gráficos agregados ou pontos de dados individuais.
Quando usar a análise de dados
Use a análise de dados quando precisar:
- Explore as estatísticas do conjunto de dados selecionando diferentes filtros para dividir os dados em diferentes dimensões (também conhecidas como coortes).
- Compreenda a distribuição do seu conjunto de dados entre diferentes coortes e grupos de recursos.
- Determine se suas descobertas relacionadas à justiça, análise de erros e causalidade (derivadas de outros componentes do painel) são resultado da distribuição do conjunto de dados.
- Decida em quais áreas coletar mais dados para mitigar erros decorrentes de problemas de representação, ruído de rótulo, ruído de recurso, viés de rótulo e fatores semelhantes.
Próximos passos
- Saiba como gerar o painel de IA Responsável por meio de CLI e SDK ou da interface do usuário do estúdio Azure Machine Learning.
- Explore as visualizações de análise de dados suportadas do painel de IA responsável.
- Saiba como gerar um scorecard de IA Responsável com base nos insights observados no painel de IA Responsável.