Die Phase der geschäftlichen Aspekte des Lebenszyklus des Team Data Science-Prozesses.

In diesem Artikel werden die Ziele, Aufgaben und Projektleistungen im Zusammenhang mit der Phase der geschäftlichen Aspekte des Team Data Science-Prozesses (TDSP) behandelt. Dieser Prozess stellt einen empfohlenen Lebenszyklus bereit, mit dem Ihr Team Ihre Data Science-Projekte strukturieren kann. Der Lebenszyklus beschreibt die wesentlichen Projektphasen, an denen Ihr Team arbeitet, häufig auf iterative Weise:

  • Geschäftliche Aspekte
  • Datenerfassung und -auswertung
  • Modellierung
  • Bereitstellung
  • Kundenakzeptanz

Dies ist eine visuelle Darstellung des TDSP-Lebenszyklus:

Diagram that shows the stages of the TDSP lifecycle.

Ziele

Dies sind die Ziele der Phase der geschäftlichen Aspekte:

  • Angabe der Schlüsselvariablen, die als Ziele des Modells dienen. Angabe der Metriken für die Ziele, die den Erfolg des Projekts bestimmen.

  • Identifizieren der relevanten Datenquellen, auf die das Unternehmen Zugriff hat oder die benötigt werden

Ausführung der Aufgaben

Die Phase der geschäftlichen Aspekte umfasst zwei Standardaufgaben:

  • Definieren von Zielen: Ermitteln Sie zusammen mit Ihrem Kunden und anderen Projektbeteiligten die geschäftlichen Probleme, um sich damit vertraut zu machen. Formulieren Sie Fragen, mit denen die geschäftlichen Ziele definiert werden und die mit Data Science-Verfahren gelöst werden können.

  • Identifizieren von Datenquellen: Suchen Sie nach den relevanten Daten, mit denen Sie die Fragen beantworten können, die den Zielen des Projekts zugrunde liegen.

Definieren von Zielen

  1. Ein zentrales Ziel dieser Phase besteht in der Identifizierung der wichtigsten geschäftlichen Variablen, die von der Analyse vorhergesagt werden müssen. Diese Variablen werden als Modellziele bezeichnet. Die entsprechenden Metriken werden verwendet, um den Erfolg des Projekts zu bestimmen. Ziele können beispielsweise eine Umsatzprognose oder die Wahrscheinlichkeit sein, mit der eine Bestellung betrügerischer Art ist.

  2. Definieren Sie die Projektziele, indem Sie präzise Fragen stellen und optimieren, die relevant, spezifisch und eindeutig sind. Data Science ist ein Prozess, bei dem Namen und Zahlen verwendet werden, um Antworten auf solche Fragen zu finden. Data Science oder Machine Learning wird normalerweise verwendet, um fünf Arten von Fragen zu beantworten:

    • Wie viel bzw. wie viele? (Regression)
    • Welche Kategorie? (Klassifizierung)
    • Welche Gruppe? (Clustering)
    • Ist das ungewöhnlich? (Anomalieerkennung)
    • Welche Option sollte gewählt werden? (Empfehlung)

    Legen Sie fest, welche dieser Fragen gestellt werden soll und wie ihre Beantwortung Ihnen helfen kann, Ihre geschäftlichen Ziele zu erreichen.

  3. Definieren Sie das Projektteam, indem Sie die Rollen und Zuständigkeiten der Mitglieder angeben. Entwickeln Sie einen groben Plan mit Meilensteinen, den Sie abarbeiten, während weitere Informationen ermittelt werden.

  4. Sie müssen die Erfolgsmetriken definieren. Sie könnten beispielsweise definieren, dass eine Vorhersage für die Kundenabwanderung bis zum Ende eines dreimonatigen Projekts mit einer Genauigkeitsrate von x Prozent erfüllt werden muss. Mit diesen Daten können Sie Kunden Angebote unterbreiten, um die Abwanderungen zu reduzieren. Die Metriken sollten SMART sein:

    • Specific (Spezifisch)
    • Measurable (Messbar)
    • Achievable (Realistisch)
    • Relevant (Relevant)
    • Time-bound (Zeitbezogen)

Identifizieren von Datenquellen

Identifizieren Sie Datenquellen, die bekannte Beispiele für Antworten auf Ihre Fragen enthalten. Suchen Sie nach den folgenden Daten:

  • Daten, die für die Frage relevant sind. Verfügen Sie über Kennzahlen für das Ziel und über Features, die sich auf das Ziel beziehen?
  • Dies sind Daten, bei denen es sich um genaue Kennzahlen unseres Modellziels und die passenden Features handelt.

Ein vorhandenes System könnte beispielsweise nicht über die nötigen Daten verfügen, um ein Problem zu beheben und ein Projektziel zu erreichen. In dieser Situation müssen Sie vielleicht nach externen Datenquellen suchen oder Ihre Systeme aktualisieren, um neue Daten zu erfassen.

Integration in MLflow

In der Phase der geschäftlichen Aspekte verwendet Ihr Team zwar keine MLflow-Tools, kann jedoch indirekt von den Nachverfolgungsfunktionen von MLflow für Dokumentation und Experimente profitieren. Diese Funktionen können Erkenntnisse und historischen Kontext bereitstellen, um das Projekt an den geschäftlichen Zielen auszurichten.

Artifacts

In dieser Phase erzielt Ihr Team die folgenden Ergebnisse:

  • Ein Charta-Dokument. Das Charta-Dokument ist ein dynamisches Dokument. Sie aktualisieren das Dokument während des Projekts, wenn Sie neue Erkenntnisse gewinnen oder sich die geschäftlichen Anforderungen ändern. Der Schlüssel besteht darin, dieses Dokument wiederholt zu durchlaufen. Fügen Sie weitere während des Ermittlungsprozesses weitere Details hinzu. Informieren Sie den Kunden und andere Projektbeteiligte über die Änderungen und die Gründe für die Änderungen.

  • Datenquellen: Sie können Azure Machine Learning zur Verwaltung der Datenquellen verwenden. Wir empfehlen die Verwendung dieses Azure-Diensts für aktive und besonders große Projekte, da er in MLflow integriert werden kann.

  • Datenwörterbücher. Dieses Dokument enthält Beschreibungen der Daten, die der Client bereitstellt. Diese Beschreibungen enthalten Informationen zum Schema (Datentypen und Informationen zu Validierungsregeln, sofern vorhanden) und zu den Diagrammen zu den Entitätsbeziehungen, sofern vorhanden. Ihr Team sollte einige oder alle dieser Informationen dokumentieren.

Peer-geprüfte Literatur

Forscher*innen veröffentlichen Studien zum TDSP in Peer-geprüfter Literatur. Die Referenzen bieten eine Möglichkeit, andere Anwendungen oder dem TDSP vergleichbare Ansätze zu untersuchen, die ebenfalls eine Phase der geschäftlichen Projekte umfassen.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Diese Artikel beschreiben die übrigen Phasen des TDSP-Lebenszyklus: