Grundlegendes zum Data-Science-Prozess
Eine gängige Methode zum Extrahieren von Erkenntnissen aus Daten besteht im Visualisieren der Daten. Wenn Sie über komplexe Datasets verfügen, sollten Sie tiefer eintauchen und versuchen, komplizierte Muster in den Daten zu finden.
Als Data Scientist können Sie Machine Learning-Modelle trainieren, um Muster in Ihren Daten zu erkennen. Sie können diese Muster verwenden, um neue Erkenntnisse oder Vorhersagen zu generieren. So können Sie beispielsweise die voraussichtliche Anzahl der Produkte vorhersagen, die Sie in der kommenden Woche voraussichtlich verkaufen werden.
Das Trainieren des Modells ist zwar wichtig, doch es ist nicht die einzige Aufgabe in einem Data Science-Projekt. Bevor wir einen typischen Data Science-Prozess erkunden, untersuchen wir gängige Machine Learning-Modelle, die Sie trainieren können.
Untersuchen gängiger Machine Learning-Modelle
Der Zweck des maschinellen Lernens besteht darin, Modelle zu trainieren, die Muster in großen Datenmengen identifizieren können. Sie können die Muster dann verwenden, um Vorhersagen zu treffen, die Ihnen neue Erkenntnisse liefern, basierend auf denen Sie Maßnahmen ergreifen können.
Die Möglichkeiten des maschinellen Lernens scheinen endlos zu sein, daher beginnen Sie mit den Grundlagen der vier gängigen Typen von Machine Learning-Modellen:
- Klassifizierung: Prognostizieren eines kategorischen Werts, z. B. ob ein Kunde abwandert
- Regression: Vorhersagen eines numerischen Werts wie den Preis eines Produkts
- Clustering: Gruppieren ähnlicher Datenpunkte in Clustern oder Gruppen.
- Vorhersagen: Vorhersagen zukünftiger numerischer Werte basierend auf Zeitreihendaten wie dem erwarteten Umsatz für den kommenden Monat
Um zu entscheiden, welche Art von Machine Learning-Modell Sie trainieren müssen, müssen Sie zunächst das Geschäftsproblem und die Ihnen zur Verfügung stehenden Daten verstehen.
Grundlegendes zum Data Science-Prozess
Um ein Machine Learning-Modell zu trainieren, benötigt der Prozess in der Regel die folgenden Schritte:
- Definieren des Problems: Entscheiden Sie zusammen mit geschäftlichen Benutzer*innen und Analyst*innen, was das Modell vorhersagen soll und wann es erfolgreich ist.
- Abrufen der Daten: Suchen Sie nach Datenquellen, und erhalten Sie Zugriff durch Speichern Ihrer Daten in einem Lakehouse.
- Aufbereiten der Daten: Untersuchen Sie die Daten, indem Sie sie aus einem Lakehouse in ein Notebook lesen. Bereinigen und transformieren Sie die Daten basierend auf den Anforderungen des Modells.
- Trainieren des Modells: Wählen Sie einen Algorithmus und Hyperparameterwerte basierend auf Versuch und Irrtum aus, indem Sie Ihre Experimente mit MLflow nachverfolgen.
- Generieren von Erkenntnissen: Verwenden der Modellbatchbewertung, um die angeforderten Vorhersagen zu generieren.
Als Data Scientist verbringen Sie die meiste Zeit mit dem Aufbereiten der Daten und dem Trainieren des Modells. Wie Sie die Daten aufbereiten und welchen Algorithmus Sie zum Trainieren eines Modells auswählen, kann sich auf den Erfolg Ihres Modells auswirken.
Sie können ein Modell vorbereiten und trainieren, indem Sie Open-Source-Bibliotheken verwenden, die für die Sprache Ihrer Wahl verfügbar sind. Wenn Sie beispielsweise mit Python arbeiten, können Sie die Daten mit Pandas und Numpy aufbereiten und ein Modell mit Bibliotheken wie Scikit-Learn, PyTorch oder SynapseML trainieren.
Beim Experimentieren sollten Sie den Überblick über alle verschiedenen Modelle behalten, die Sie trainiert haben. Sie sollten verstehen, wie Ihre Entscheidungen den Erfolg des Modells beeinflussen. Indem Sie Ihre Experimente mit MLflow in Microsoft Fabric nachverfolgen, können Sie die von Ihnen trainierten Modelle problemlos verwalten und bereitstellen.