Inzicht in uw gegevenssets

Machine learning-modellen 'leren' van historische beslissingen en acties die zijn vastgelegd in trainingsgegevens. Als gevolg hiervan worden hun prestaties in praktijkscenario's sterk beïnvloed door de gegevens waarop ze zijn getraind. Wanneer de functiedistributie in een gegevensset scheef is, kan dit ertoe leiden dat een model gegevenspunten die deel uitmaken van een ondervertegenwoordigde groep onjuist voorspelt of dat deze worden geoptimaliseerd op basis van een ongepaste metriek.

Terwijl een model bijvoorbeeld een AI-systeem trainde voor het voorspellen van huizenprijzen, vertegenwoordigde de trainingsset 75 procent van de nieuwere huizen met minder dan mediaanprijzen. Als gevolg hiervan was het veel minder nauwkeurig bij het identificeren van duurdere historische huizen. De oplossing was om oudere en dure huizen toe te voegen aan de trainingsgegevens en de functies uit te voeren met inzichten over historische waarde. Die gegevensverrijking verbeterde resultaten.

Het onderdeel gegevensanalyse van het dashboard Verantwoordelijke AI helpt bij het visualiseren van gegevenssets op basis van voorspelde en werkelijke resultaten, foutgroepen en specifieke functies. Hiermee kunt u problemen met over- en ondervertegenwoordiging identificeren en zien hoe gegevens worden geclusterd in de gegevensset. Gegevensvisualisaties bestaan uit aggregatieplots of afzonderlijke gegevenspunten.

Wanneer gebruikt u gegevensanalyse?

Gebruik gegevensanalyse wanneer u het volgende moet doen:

  • Verken de statistieken van uw gegevensset door verschillende filters te selecteren om uw gegevens in verschillende dimensies te segmenteren (ook wel cohorten genoemd).
  • Inzicht in de verdeling van uw gegevensset over verschillende cohorten en functiegroepen.
  • Bepaal of uw bevindingen met betrekking tot billijkheid, foutanalyse en causaliteit (afgeleid van andere dashboardonderdelen) het resultaat zijn van de distributie van uw gegevensset.
  • Bepaal op welke gebieden u meer gegevens wilt verzamelen om fouten te beperken die afkomstig zijn van weergaveproblemen, labelruis, functieruis, labelvooroordelen en vergelijkbare factoren.

Volgende stappen