Förstå dina datauppsättningar

Maskininlärningsmodeller "lär sig" av historiska beslut och åtgärder som samlas in i träningsdata. Därför påverkas deras prestanda i verkliga scenarier kraftigt av de data som de tränas på. När funktionsdistributionen i en datauppsättning är skev kan det leda till att en modell felaktigt förutsäger datapunkter som tillhör en underrepresenterad grupp eller optimeras längs ett olämpligt mått.

Medan en modell till exempel tränade ett AI-system för att förutsäga huspriser, motsvarade träningsuppsättningen 75 procent av nyare hus som hade mindre än medianpriserna. Som ett resultat var det mycket mindre korrekt att framgångsrikt identifiera dyrare historiska hus. Korrigeringen var att lägga till äldre och dyra hus i träningsdata och utöka funktionerna för att inkludera insikter om historiskt värde. Dataförstoringen förbättrade resultatet.

Dataanalyskomponenten i instrumentpanelen ansvarsfull AI hjälper till att visualisera datauppsättningar baserat på förutsagda och faktiska resultat, felgrupper och specifika funktioner. Det hjälper dig att identifiera problem med överrepresentation och underrepresentation och för att se hur data grupperas i datauppsättningen. Datavisualiseringar består av aggregerade diagram eller enskilda datapunkter.

När du ska använda dataanalys

Använd dataanalys när du behöver:

  • Utforska din datamängdsstatistik genom att välja olika filter för att dela upp dina data i olika dimensioner (kallas även kohorter).
  • Förstå fördelningen av din datamängd mellan olika kohorter och funktionsgrupper.
  • Ta reda på om dina resultat som rör rättvisa, felanalys och orsakssamband (härledda från andra instrumentpanelskomponenter) är ett resultat av datauppsättningens distribution.
  • Bestäm inom vilka områden du vill samla in mer data för att minimera fel som kommer från representationsproblem, märkningsbrus, funktionsbrus, etikettfördomar och liknande faktorer.

Nästa steg