Untersuchen verschiedener Datentypen
Daten sind nur ein weiteres Wort für gesammelte Informationen. Es gibt gewaltige Mengen an verfügbaren Informationen, und es gibt sehr viele unterschiedliche Arten von Informationen.
Daten lassen sich auf vielerlei Weise kategorisieren. Bei der Arbeit mit maschinellem Lernen müssen wir sowohl die Art als auch die digitalen Speichersysteme der Daten verstehen, die uns zur Verfügung stehen.
Kontinuierliche, Ordinal- und kategorische Daten
Bei Datenvorgängen müssen wir uns manchmal bewusst werden, was diese Daten genau repräsentieren. Dieses Bewusstsein kann uns dabei helfen, das richtige Machine Learning-Modell auszuwählen. Es kann auch dabei helfen, Daten auf bestimmte und hilfreiche Arten zu strukturieren.
Fortlaufende Daten beziehen sich auf numerische Informationen, die um jeden beliebigen Betrag zu-/abnehmen können. Sie können beispielsweise einen Millimeter zu einem Meter hinzufügen und die Summe als 1,001 Meter berechnen.
Kategorisierte Daten beziehen sich auf Daten, die nicht auf ein fortlaufendes Spektrum fallen. In unserem Szenario kategorisiert die Daten die Personen auf der Titanic als Besatzung oder Passagiere. Kategorische Daten können nicht einfach als Zahlen gespeichert werden.
Ordinaldaten beziehen sich auf kategorisierte Daten, die eine definierte Reihenfolge aufweisen, und können daher die Speicherung als numerische Werte unterstützen. Beispielsweise können wir Werte von großen, mittleren und kleinen als Ordinaldaten definieren, da wir sie numerisch als großes > mittleres > klein bewerten können. Im Gegensatz dazu sind die Werte Apfel, Orange und Kokos kategorisiert, da wir sie nicht bewerten können. Ordinaldaten können sich auch auf Zahlen beziehen, die erhöht oder verringert werden können, jedoch nur in festgelegten Mengen. Beispielsweise ist garantiert, dass die Anzahl von Personen, die an Bord eines Schiffs gehen, eine ganze Zahl ist: Niemand kann nur zur Hälfte an Bord eines Schiffs gehen.
IDs beziehen sich auf einen speziellen Typ von kategorisierten Daten, bei denen jedes Beispiel über eine eigene eindeutige ID verfügt. In unserem Dataset hat beispielsweise jede Person auf der Titanic einen eigenen ID-Wert, auch wenn sie den gleichen Namen wie eine andere Person trägt. Identitätswerte helfen uns bei der Suche in einem Dataset, aber bei unseren Datenanalysen sind diese Werte nicht direkt involviert.
Datentypen
Alle Daten, die wir für das maschinelle Lernen verwenden, müssen von einem Computer gespeichert und verarbeitet werden können. Wir als Menschen können nahezu alle Arten von Daten mit einem Stift auf ein Blatt Papier schreiben, Computer dagegen speichern Informationen als Folgen der Ziffern 0 und 1. Dies schränkt die Art und Weise ein, in der wir Informationen verwenden können.
Datentyp bezieht sich auf den Datentyp, den ein Computer speichert. Datentypen fallen in der Regel in folgende Kategorien:
- Ganze Zahlen: Zählen von Zahlen wie 2.
- Gleitkommazahlen: Zahlen mit Dezimalstellen wie 2,43.
- Zeichenfolgen: Buchstaben und Wörter.
- Boolesche Werte: „true“ und „false“.
- Keine, ungültig oder null: nicht Daten, sondern das Fehlen von Daten.
Die genauen Begriffe und die Implementierung für diese Konzepte variieren von Sprache zu Sprache, aber ihre grundlegende Funktionsweise ist in allen Computersprachen sehr ähnlich.
Manchmal bieten zwei verschiedene Datentypen eine gleichwertige Funktionalität. Beispielsweise können Computer true/false-Werte als boolesche Werte („true“ oder „false“), als Zeichenfolgen („j“ oder „n“), als ganze Zahlen (0 oder 1) oder als Gleitkommazahlen (0,0 oder 1,0) verarbeiten.
Abgeleitete Datentypen
Während wir Technologie verwenden, treffen wir viele weitere grundlegende und primitive Datentypen über die vorherige Liste hinaus. Computer können Datumsangaben, Bilder, 3D-Modelle und so weiter speichern. Wir bezeichnen diese als abgeleitete Datentypen. Wir beginnen mit einem oder mehreren primitiven Datentypen und erstellen daraus einen abgeleiteten Datentyp.
Beim maschinellen Lernen ist es oft hilfreich, abgeleitete Typen in einfachere Darstellungen zu konvertieren. Beispielsweise können wir einen definierten Datumswert wie den 1. Januar 2017 als ganze Zahl oder Gleitkommazahl wie 20170101 speichern. Ganze Zahlen oder Gleitkommazahlen vereinfachen die Berechnungen hinter unseren Modellen.
Zu viele Optionen?
Wenn Sie wissen, welche Art von Daten Ihnen zur Verfügung steht, können Sie den richtigen Datentyp auswählen.
Der richtige Datentyp kann von dem Paket abhängen, das Sie zum Ausführen Ihrer Modelle verwenden, wobei Pakete im Allgemeinen recht tolerant sind. Im Allgemeinen:
- Für die Arbeit mit kontinuierlichen Daten sind Gleitkommazahlen die beste Wahl.
- Ordinaldaten werden in der Regel mit Integerwerten codiert.
- Kategorische Daten, die nur zwei Kategorien umfassen, können meist als boolesche oder ganzzahlige Daten codiert werden. Das Arbeiten mit drei oder mehr Kategorien kann etwas komplizierter sein. Aber keine Sorge, dieses Thema wird in der nächsten Lektion behandelt.
In der nächsten Übung beschäftigen wir uns mit der Datenvisualisierung, um die eigentlichen Daten besser zu verstehen. Beachten Sie dabei die beteiligten Datentypen, und versuchen Sie, die kontinuierlichen, ordinalen oder kategorischen Datentypen herauszufinden.