Zusammenfassung
Das war eine ganze Menge Stoff. Lassen Sie uns einige der wichtigsten Aspekte noch einmal rekapitulieren.
Was sind Datenkategorien?
Daten werden in mehrere konzeptionelle Kategorien unterteilt. Die häufigsten sind die folgenden:
- Kontinuierliche Daten (Zahlen).
- Unsortierte kategorische Daten.
- Ordinaldaten, die als Zahlen oder sortierte Kategorien behandelt werden können.
Computer speichern Daten als eindeutige Typen, und in aller Regel wird versucht, dass der Datentyp zu den jeweiligen Daten passt. Kontinuierliche Daten können beispielsweise am besten als Gleitkommazahlen gespeichert werden, da dies die Speicherung von Bruchteilen ermöglicht. Im Gegensatz dazu liegen kategorische Daten häufig als Zeichenfolgen (Text) vor und müssen in One-Hot-Vektoren konvertiert werden, damit der Computer sie richtig verstehen kann.
Was zeichnet ein gutes Dataset aus?
Wir haben gelernt, dass ein Dataset hilfreich ist, wenn es:
- relevante Informationen enthält.
- vollständig ist.
- eine gute Darstellung der Population (reale Welt) ist.
Wenn wir es mit unvollständigen Daten zu tun haben, können wir einige Maßnahmen ergreifen, um sicherzustellen, dass diese keine größeren Probleme verursachen. Dabei müssen wir darauf achten, dass keine neuen Probleme auftreten – etwa durch Änderungen, die dazu führen, dass die Daten nicht mehr repräsentativ sind.
Überlegungen zu Daten
Wir haben gezeigt, wie das Visualisieren von Daten dabei helfen kann, besser zu verstehen, was in einem Modell nützlich sein kann. Die Verwendung verschiedener Arten von Diagrammen, Farben usw. kann Spaß machen sorgt dafür, dass komplexe Informationen viel intuitiver verständlich sind.
Wir haben gelernt, dass wir durch das Verständnis unserer Daten bessere Entscheidungen über unsere Modelle treffen können. In der letzten Übung haben wir unser Modell verbessert, während wir die Anzahl der Kabinen auf der Titanic untersucht haben, und wir haben überlegt, auf welche Weise diese Informationen uns helfen. Insgesamt haben wir jedoch festgestellt, dass die Informationen sich durch Vereinfachung auf neun Decksbezeichnungen verbessern ließen.