Inzicht in uw gegevenssets

Artikel
09/02/2024

Machine learning-modellen leren van historische beslissingen en acties die zijn vastgelegd in trainingsgegevens. Hierdoor worden hun prestaties in praktijkscenario's sterk beïnvloed door de gegevens waarop ze zijn getraind. Wanneer functiedistributie in een gegevensset scheef is, kan dit ertoe leiden dat een model onjuist gegevenspunten voorspelt die deel uitmaken van een ondervertegenwoordigde groep of dat deze wordt geoptimaliseerd volgens een ongepast metrisch gegeven.

Terwijl een model bijvoorbeeld een AI-systeem trainde voor het voorspellen van huizenprijzen, vertegenwoordigde de trainingsset 75 procent van de nieuwere huizen die minder dan mediaanprijzen hadden. Als gevolg hiervan was het veel minder nauwkeurig bij het identificeren van duurdere historische huizen. De oplossing was het toevoegen van oudere en dure huizen aan de trainingsgegevens en het uitbreiden van de functies om inzichten over historische waarde op te nemen. Die gegevens verbeteren de resultaten.

Het onderdeel voor gegevensanalyse van het verantwoordelijke AI-dashboard helpt gegevenssets te visualiseren op basis van voorspelde en werkelijke resultaten, foutgroepen en specifieke functies. Het helpt u bij het identificeren van problemen met oververtegenwoordigdheid en ondervertegenwoordigdheid en om te zien hoe gegevens worden geclusterd in de gegevensset. Gegevensvisualisaties bestaan uit aggregaties of afzonderlijke gegevenspunten.

Wanneer gebruikt u gegevensanalyse?

Gebruik gegevensanalyse wanneer u het volgende moet doen:

Verken uw gegevenssetstatistieken door verschillende filters te selecteren om uw gegevens te segmenteren in verschillende dimensies (ook wel cohorten genoemd).
Inzicht in de distributie van uw gegevensset in verschillende cohorten en functiegroepen.
Bepaal of uw bevindingen met betrekking tot billijkheid, foutanalyse en causaliteit (afgeleid van andere dashboardonderdelen) het resultaat zijn van de distributie van uw gegevensset.
Bepaal op welke gebieden meer gegevens moeten worden verzameld om fouten te beperken die afkomstig zijn van weergaveproblemen, labelruis, functieruis, labelvooroordelen en vergelijkbare factoren.

Volgende stappen

Meer informatie over het genereren van het verantwoordelijke AI-dashboard via CLI en SDK of Azure Machine Learning-studio ui.
Verken de ondersteunde visualisaties van gegevensanalyse van het verantwoordelijke AI-dashboard.
Meer informatie over het genereren van een verantwoordelijke AI-scorecard op basis van de inzichten die worden waargenomen in het dashboard voor verantwoorde AI.

Delen via

Inzicht in uw gegevenssets

Wanneer gebruikt u gegevensanalyse?

Volgende stappen

Feedback

Aanvullende resources