Einführung

Abgeschlossen

Vorhersagen durch maschinelles Lernen basieren auf den zugrunde liegenden Daten. Um effektive Modelle zu erstellen, müssen Sie die Daten verstehen, die Sie verwenden.

Hier sehen wir uns an, wie sowohl Menschen als auch Computer Daten kategorisieren, speichern und interpretieren. Wir untersuchen, was ein gutes Dataset ausmacht und wie Probleme in unseren verfügbaren Daten behoben werden können. Wir üben auch die Erforschung neuer Daten, und wir sehen, wie tiefgehendes Denken über ein Dataset uns dabei helfen kann, bessere Prädiktivmodelle zu erstellen.

Szenario: Die letzte Reise der Titanic

Als interessierter Marinearchäologe haben Sie ein ungewöhnlich großes Interesse an Katastrophen im Meer. Spät eine Nacht, während Sie zwischen Bildern von Walknochen und alten Scrollen über Atlantis klicken, finden Sie ein öffentliches Dataset, das bekannte Passagiere und Crew der ersten (und letzten) Reise der Titanic auflistet. Sie sind fasziniert von dem schmalen Grat zwischen Schicksal und Zufall und fragen sich: Von welchen Faktoren hing das Überleben eines Titanic-Passagiers ab? Daten aus dieser Zeit sind lückenhaft. Informationen für bestimmte Passagiere sind unbekannt. Sie müssen Möglichkeiten finden, diese Daten zu ergänzen, bevor Sie sie vollständig analysieren können.

Voraussetzungen

  • Einige Kenntnisse mit Machine Learning-Konzepten (z. B. Modellen und Kosten) helfen, aber es ist nicht erforderlich.

Lernziele

In diesem Modul lernen Sie Folgendes:

  • Visualisieren großer Datasets mit explorativer Datenanalyse (EDA).
  • Bereinigen der Fehler in einem Dataset
  • Vorhersagen unbekannter Werte mit numerischen und kategorischen Daten