Untersuchen von realen Daten

Abgeschlossen

Daten, die in Schulungsmaterialien präsentiert werden, sind oft bemerkenswert perfekt, entworfen, um Kursteilnehmern zu zeigen, wie sich klare Beziehungen zwischen Variablen finden lassen. Daten aus der "realen Welt" sind weniger einfach.

Aufgrund der Komplexität "realer" Daten müssen Sie Rohdaten auf Probleme untersuchen, bevor Sie sie verwenden.

Deshalb gibt es die bewährte Methode, die Rohdaten vor deren Verwendung zu untersuchen und zu verarbeiten. Dies reduziert Fehler oder Probleme in der Regel durch Entfernen fehlerhafter Datenpunkte oder Umwandeln der Daten in ein nützlicheres Format.

Probleme mit realen Daten

Daten aus der realen Welt können viele verschiedene Probleme aufweisen, die sich auf den Nutzen der Daten und Ihre Interpretation der Ergebnisse auswirken können.

Es ist wichtig, sich klar zu machen, dass die meisten realen Daten von Faktoren beeinflusst werden, die zu diesem Zeitpunkt nicht aufgezeichnet wurden. Stellen Sie sich vor, Sie verfügen über eine Tabelle mit Streckenzeiten von Rennwagen zusammen mit deren Motorengrößen, doch auch verschiedene andere Faktoren haben wahrscheinlich ebenfalls eine Rolle gespielt und wurden nicht erfasst, z. B. das Wetter. Wenn dies problematisch ist, kann der Einfluss dieser Faktoren häufig verringert werden, indem der Umfang des Datasets erhöht wird.

In anderen Situationen können Datenpunkte, die deutlich außerhalb des erwarteten Bereichs liegen – auch als Ausreißer bezeichnet –, manchmal problemlos aus Analysen entfernt werden. Es dürfen jedoch keine Datenpunkte entfernt werden, die echte Erkenntnisse liefern.

Ein weiteres häufiges Problem bei realen Daten sind „Verzerrungen“ (bias). „Verzerrung“ bezieht sich auf eine Neigung, bestimmte Arten von Werten häufiger als andere auszuwählen, und zwar auf eine Weise, die die zugrunde liegende Grundgesamtheit (Population) oder „reale Welt“ fehlerhaft darstellt. Verzerrung lässt sich manchmal identifizieren, indem man sich bei der Untersuchung von Daten vor Augen hält, woher die Daten stammen.

Daten aus der realen Welt werden immer mit Problemen behaftet sein, aber wissenschaftliche Fachkräfte für Daten können diese Probleme häufig mit folgenden Maßnahmen beheben:

  • Überprüfen auf fehlende Werte und schlecht aufgezeichnete Daten
  • Erwägen, offensichtliche Ausreißer zu entfernen
  • Untersuchen, welche Faktoren aus der realen Welt die Analyse beeinflussen könnten, und Ermitteln, ob der Umfang des Datasets groß genug ist, um die Auswirkungen dieser Faktoren zu verringern
  • Überprüfen auf verzerrte Rohdaten und ggf. Überdenken der Optionen zum Beheben der Verzerrung