Modellierungsphase des Team Data Science-Prozesslebenszyklus

In diesem Artikel werden die Ziele, Aufgaben und Projektleistungen im Zusammenhang mit der Modellierungsphase des Team Data Science-Prozesses (TDSP) behandelt. Dieser Prozess bietet einen empfohlenen Lebenszyklus, mit dem Sie Ihre Data Science-Projekte strukturieren können. Der Lebenszyklus beschreibt die wichtigsten Phasen, die Projekte typischerweise, oft iterativ, durchlaufen:

  1. Geschäftliche Aspekte
  2. Datenerfassung und -auswertung
  3. Modellierung
  4. Bereitstellung
  5. Kundenakzeptanz

Dies ist eine visuelle Darstellung des TDSP-Lebenszyklus:

TDSP lifecycle

Ziele

  • Ermitteln der optimalen Datenfeatures für das Machine Learning-Modell
  • Erstellen eines informativen Machine Learning-Modells, mit dem das Ziel am genauesten vorhergesagt wird
  • Erstellen eines Machine Learning-Modells, das für die Produktion geeignet ist

Vorgehensweise

In dieser Phase werden drei Hauptaufgaben durchgeführt:

  • Featureentwicklung: Erstellen Sie Datenfeatures aus den Rohdaten, um das Trainieren des Modells zu ermöglichen.
  • Modelltraining: Ermitteln Sie das Modell, mit dem die Frage am genauesten beantwortet wird, indem Sie die Erfolgsmetriken vergleichen.
  • Bestimmen Sie, ob Ihr Modell für die Produktion geeignet ist.

Featureentwicklung

Die Featureentwicklung umfasst die Einbeziehung, Aggregation und Transformation von Rohvariablen zum Erstellen der Features, die in der Analyse verwendet werden. Wenn Sie einen Einblick in die Grundlagen eines Modells erhalten möchten, müssen Sie verstehen, wie Features miteinander in Beziehung stehen und wie die Algorithmen für maschinelles Lernen diese Features nutzen sollen.

Dieser Schritt erfordert eine kreative Kombination von Sachkenntnis mit den im Datenuntersuchungsschritt gewonnenen Erkenntnissen. Die Featureentwicklung ist ein Balanceakt, weil Variablen mit hohem Informationsgehalt gesucht und eingefügt werden, während gleichzeitig vermieden werden muss, zu viele irrelevante Variablen einzubeziehen. Mit informativen Variablen verbessern Sie Ihr Ergebnis, aber mit wenig relevanten Variablen überladen Sie das Modell unnötig. Sie müssen diese Features auch für alle neuen Daten generieren, die während der Bewertung ermittelt werden. Deshalb kann die Generierung dieser Features nur von Daten abhängen, die zum Zeitpunkt der Bewertung verfügbar sind.

Modelltraining

Je nach Art der Frage, die beantwortet werden soll, stehen gegebenenfalls relativ viele Algorithmen für die Modellierung zur Verfügung. Anleitungen zur Auswahl eines vorgefertigten Algorithmus mit dem Designer finden Sie unter Cheatsheet mit Machine Learning-Algorithmen für den Azure Machine Learning-Designer. Andere Algorithmen sind über Open-Source-Pakete in R oder Python verfügbar. Obwohl der Fokus dieses Artikels auf Azure Machine Learning liegt, sind die darin enthaltenen Informationen auf alle Machine Learning-Projekte anwendbar.

Der Prozess für das Modelltraining umfasst die folgenden Schritte:

  • Sie können die Eingabedaten beliebig für die Modellierung eines Trainingsdatasets und eines Testdatasets aufteilen.
  • Erstellen Sie die Modelle mit dem Trainingsdataset.
  • Führen Sie eine Auswertung von Trainings- und Testdataset durch. Sie können eine Reihe von konkurrierenden Algorithmen for maschinelles Lernen zusammen mit den verschiedenen zugehörigen Optimierungsparametern (als Parameter-Sweeping bezeichnet) verwenden, die auf die Beantwortung der jeweiligen Fragen mit den aktuellen Daten ausgerichtet sind.
  • Ermitteln Sie die „beste“ Lösung für die Beantwortung der Frage, indem Sie die Erfolgsmetrik für die alternativen Methoden vergleichen.

Optionen zum Trainieren von Modellen in Azure Machine Learning finden Sie unter Trainieren von Modellen mit Azure Machine Learning.

Hinweis

Vermeiden von Datenlecks: Datenlecks können dadurch verursacht werden, dass Daten von außerhalb des Trainingsdatasets einbezogen werden, sodass ein Modell oder ein Algorithmus für maschinelles Lernen unrealistisch gute Vorhersagen ergibt. Datenlecks sind häufig der Grund dafür, warum Data Scientists nervös werden, wenn die Vorhersageergebnisse zu schön sind, um wahr zu sein. Es kann schwierig sein, diese Abhängigkeiten zu erkennen. Um Datenlecks zu vermeiden, ist häufig das wiederholte Durchlaufen der Schritte zur Erstellung eines Analyse-DataSets, Erstellung eines Modells und Auswertung der Genauigkeit der Ergebnisse erforderlich.

Modellauswertung

Nach dem Training nimmt der*die Data Scientist als Nächstes die Modellauswertung vor.

  • Prüfpunktentscheidung: Analysieren Sie, ob das Modell für die Produktion geeignet ist. Einige wichtige Fragen lauten:
    • Kann die Frage mit dem Modell basierend auf den Testdaten ausreichend beantwortet werden?
    • Sollten Alternativen ausprobiert werden?
    • Sollten weitere Daten erfasst, weitere Features entwickelt oder Experimente mit anderen Algorithmen durchgeführt werden?
  • Interpretieren des Modells: Verwenden Sie das Python SDK für Azure Machine Learning, um die folgenden Aufgaben auszuführen:
    • Erläutern Sie das gesamte Modellverhalten oder einzelne Vorhersagen lokal auf Ihrem persönlichen Computer.
    • Aktivieren Sie Techniken zur Interpretierbarkeit von entwickelten Features.
    • Erläutern Sie das Verhalten für das gesamte Modell und einzelne Vorhersagen in Azure.
    • Laden Sie Erklärungen zum Azure Machine Learning-Ausführungsverlauf hoch.
    • Verwenden Sie ein Visualisierungsdashboard, um sowohl in einem Jupyter-Notebook als auch im Azure Machine Learning-Arbeitsbereich mit Ihren Modellerklärungen zu interagieren.
    • Stellen Sie einen Bewertungsexplainer mit Ihrem Modell bereit, um die Erklärungen während der Rückschlüsse zu beobachten.
  • Bewertung der Fairness: Das Open-Source-Paket „Fairlearn“ für Python führt mit Azure Machine Learning die folgenden Aufgaben aus:
    • Bewerten Sie die Fairness Ihrer Modellvorhersagen. Durch diesen Prozess lernen Sie mehr über Fairness beim maschinellen Lernen.
    • Laden Sie Erkenntnisse zur Fairnessbewertung hoch, listen Sie sie auf, und laden Sie sie aus dem Azure Machine Learning Studio herunter.
    • Sehen Sie sich das Dashboard zur Fairnessbewertung in Azure Machine Learning Studio an, um mit den Erkenntnissen zur Fairness Ihrer Modelle zu interagieren.

Nächste Schritte

Hier finden Sie Links zu jedem Schritt im Lebenszyklus des TDSP:

  1. Geschäftliche Aspekte
  2. Datenerfassung und -auswertung
  3. Modellierung
  4. Bereitstellung
  5. Kundenakzeptanz