Grundlegendes zu Ihren Datasets

Machine Learning-Modelle „lernen“ aus vergangenen Entscheidungen und Handlungen, die in Trainingsdaten erfasst werden. Folglich wird ihre Leistung in realen Szenarien stark von den Daten beeinflusst, mit denen sie trainiert wurden. Wenn die Featureverteilung in einem Dataset verzerrt ist, kann dies dazu führen, dass ein Modell Datenpunkte, die zu einer unterrepräsentierten Gruppe gehören, falsch vorhersagt oder entlang einer ungeeigneten Metrik optimiert wird.

Als beispielsweise ein Modell ein KI-System für die Vorhersage von Hauspreisen trainierte, repräsentierte der Trainingssatz 75 % neuere Häuser, deren Preis unter dem Mittelwert lag. Infolgedessen war das System bei der Identifizierung teurerer historischer Häuser weit weniger genau. Die Lösung bestand darin, ältere und teure Häuser zu den Trainingsdaten hinzuzufügen und die Features um Erkenntnisse über den historischen Wert zu erweitern. Diese Datenerweiterung verbesserte die Ergebnisse.

Die Komponente „Datenanalyse“ des Dashboards für verantwortungsvolle KI hilft bei der Visualisierung von Datasets auf der Grundlage von vorhergesagten und tatsächlichen Ergebnissen, Fehlergruppen und spezifischen Features. Sie hilft dabei, Probleme der Über- und Unterrepräsentation zu erkennen und zu sehen, wie die Daten im Dataset gruppiert sind. Datenvisualisierungen bestehen aus aggregierten Plots oder einzelnen Datenpunkten.

Wann wird die Datenanalyse verwendet?

Verwenden Sie die Datenanalyse, wenn Sie Folgendes erreichen müssen:

  • Erkunden Ihrer Datasetstatistiken durch Auswahl verschiedener Filter, um Ihre Daten in verschiedene Dimensionen zu unterteilen (auch als Kohorten bezeichnet).
  • Verstehen der Verteilung Ihres Datasets auf verschiedene Kohorten und Featuregruppen.
  • Ermitteln, ob Ihre Ergebnisse in Bezug auf Fairness, Fehleranalyse und Kausalität (die von anderen Dashboardkomponenten abgeleitet wurden) ein Ergebnis der Verteilung Ihres Datasets sind
  • Entscheiden, in welchen Bereichen mehr Daten gesammelt werden sollen, um Fehler aufgrund von Repräsentationsproblemen, Bezeichnungsrauschen, Featurerauschen, Bezeichnungsverzerrungen und ähnlichen Faktoren zu minimieren

Nächste Schritte