Sammeln, Bereinigen und Bearbeiten von Daten
Schritt 2 im Data Science-Lebenszyklus besteht darin, Ihre Daten zu erfassen, zu bereinigen und zu bearbeiten. Nachdem Sie klar definiert haben, was Sie wissen möchten, können Sie die Daten auswerten, über die Sie verfügen und die die Sie möglicherweise erfassen müssen. Anschließend können Sie Ihre Daten so vorbereiten, dass Sie damit die gewünschten Erkenntnisse erhalten.
Abrufen von Daten
Mit den Einschränkungen, dem Umfang und der Priorisierung der Daten, die SMEs bereitstellen, können Sie beginnen, nützliche Daten zu erfassen. Dieser Schritt birgt seine eigenen Herausforderungen. Zurück zum Gartenbeispiel: Sie können 10 Salatköpfe unter geringfügig unterschiedlichen Bedingungen anpflanzen und dann herausfinden, welche Bedingungen zu den besten Ergebnisse führen.
Bei einem Raketenstart sind Vergleichsexperimente nicht so einfach. Sie können Simulationen durchführen, aber Simulationen basieren auf Datenanalysen und nicht auf buchstäblichem Ausprobieren unter präzisen Bedingungen. Es ist weder ethisch noch wirtschaftlich tragbar, unter jeder einzelnen Bedingung einen Teststart durchzuführen, um mit Sicherheit die sichersten Umstände für einen Start ermitteln zu können. Zudem lassen sich viele Bedingungen, etwa das Wetter, nicht kontrollieren. (Es trifft zwar zu, dass einige der Daten, die in einer Simulation verwendet werden, aus fehlgeschlagenen Raketenstarts stammen, die unter ungünstigen Umständen versucht wurden. Andererseits, wie könnten Sie sonst die Einschränkungen bestimmter Bedingungen kennenlernen?) Sie können auch andere Informationen verwenden, um Einschränkungen zu bestimmen, z. B. Informationen, die von Flugzeugen oder grundlegenden physikalischen oder mathematischen Berechnungen gesammelt wurden.
Bereinigen und Bearbeiten von Daten
Auf den ersten Blick ist für Sie vielleicht der Schritt des Machine Learning-Prozesses interessant, bei dem es um das Bearbeiten von Daten geht. Hier bedeutet „Bearbeiten“ nicht, dass die Daten geändert werden, um das gewünschte Ergebnis zu erhalten. Es bedeutet, dass Sie darauf achten, dass die Daten die genaueste Darstellung der Wahrheit sind.
Bei Ihrem Salatgarten können Sie beispielsweise eine Studie zur Bodenfeuchtigkeit durchführen. Sie erfassen stündlich Feuchtigkeitswerte, um festzustellen, wie sich die Bodenfeuchtigkeit auf das Wachstum auswirkt. Eines Tages funktioniert der Feuchtigkeitssensor um 14:55 Uhr nicht mehr. Sie bemerken den defekten Sensor und reparieren ihn vor der geplanten Sensormessung um 16:00 Uhr. Sie verlieren jedoch die Daten, die bei der geplanten Sensormessung um 15:00 Uhr erfasst worden wären. In diesem Fall ist es sinnvoll, die Daten zu bearbeiten, indem Sie den fehlenden Wert durch den Durchschnittswert der Messwerte von 14:00 Uhr und 16:00 Uhr ersetzen. Wenn Sie den defekten Sensor jedoch erst am nächsten Tag bemerken, kann es sinnvoller sein, Ihre Daten zu bereinigen, indem Sie die Messwerte dieses Tages ganz aus der Analyse entfernen, damit unvollständige Daten nicht zu einem ungenauen Ergebnis führen.
Um die idealen Bedingungen für einen Raketenstart vorherzusagen, ist eine große Menge an Daten erforderlich. Die NASA hat wahrscheinlich Zugang zu besseren Daten als öffentlich verfügbar sind. Die NASA hat Zugriff auf das Fachwissen von Personen, die sich mit den Nuancen von Raketenstarts und Wetter intensiv beschäftigen. Sie besitzt auch Zugriff auf alle vorherigen Experimente und Analysen.
Im Gegensatz dazu werden Sie sich bei dem Machine Learning-Modell, das Sie im nächsten Modul dieses Lernpfads trainieren werden, hauptsächlich auf zugängliche Wetterdaten wie Temperatur, Niederschlag und Bewölkung verlassen. Sie konzentrieren sich auf Tage in der Vergangenheit, an denen Starts tatsächlich stattgefunden haben. Das realistische Ergebnis ist, dass dieses Projekt weniger genau ist als die Prognosen der NASA. Da Sie nur Beispiele für erfolgreiche Starts haben, wird das Machine Learning-Modell, das Sie trainieren, in Richtung guter Bedingungen verzerrt sein.