Delen via


Inzicht in uw gegevenssets

Machine learning-modellen leren van historische beslissingen en acties die zijn vastgelegd in trainingsgegevens. Hierdoor worden hun prestaties in praktijkscenario's sterk beïnvloed door de gegevens waarop ze zijn getraind. Wanneer functiedistributie in een gegevensset scheef is, kan dit ertoe leiden dat een model onjuist gegevenspunten voorspelt die deel uitmaken van een ondervertegenwoordigde groep of dat deze wordt geoptimaliseerd volgens een ongepast metrisch gegeven.

Terwijl een model bijvoorbeeld een AI-systeem trainde voor het voorspellen van huizenprijzen, vertegenwoordigde de trainingsset 75 procent van de nieuwere huizen die minder dan mediaanprijzen hadden. Als gevolg hiervan was het veel minder nauwkeurig bij het identificeren van duurdere historische huizen. De oplossing was het toevoegen van oudere en dure huizen aan de trainingsgegevens en het uitbreiden van de functies om inzichten over historische waarde op te nemen. Die gegevens verbeteren de resultaten.

Het onderdeel voor gegevensanalyse van het verantwoordelijke AI-dashboard helpt gegevenssets te visualiseren op basis van voorspelde en werkelijke resultaten, foutgroepen en specifieke functies. Het helpt u bij het identificeren van problemen met oververtegenwoordigdheid en ondervertegenwoordigdheid en om te zien hoe gegevens worden geclusterd in de gegevensset. Gegevensvisualisaties bestaan uit aggregaties of afzonderlijke gegevenspunten.

Wanneer gebruikt u gegevensanalyse?

Gebruik gegevensanalyse wanneer u het volgende moet doen:

  • Verken uw gegevenssetstatistieken door verschillende filters te selecteren om uw gegevens te segmenteren in verschillende dimensies (ook wel cohorten genoemd).
  • Inzicht in de distributie van uw gegevensset in verschillende cohorten en functiegroepen.
  • Bepaal of uw bevindingen met betrekking tot billijkheid, foutanalyse en causaliteit (afgeleid van andere dashboardonderdelen) het resultaat zijn van de distributie van uw gegevensset.
  • Bepaal op welke gebieden meer gegevens moeten worden verzameld om fouten te beperken die afkomstig zijn van weergaveproblemen, labelruis, functieruis, labelvooroordelen en vergelijkbare factoren.

Volgende stappen