Share via


Team Data Science-Prozess für Datenanalysten

Dieser Artikel enthält Informationen zu den Zielen, die Sie festlegen, wenn Sie umfassende Data Science-Lösungen mit Azure-Technologien implementieren. Folgende Themen werden behandelt:

  • Verstehen von Analyseworkloads.
  • Verwenden des Team Data Science-Prozesses.
  • Verwenden von Azure Machine Learning.
  • Verstehen der Grundlagen der Übertragung und Speicherung von Daten.
  • Erstellen von Dokumentationen zu Datenquellen.
  • Verwenden von Tools für die Analyseverarbeitung.

Diese Trainingsmaterialien beziehen sich auf den Team Data Science-Prozess (TDSP) und Open-Source-Software und -Toolkits von Microsoft, die nützlich für den Entwurf, die Ausführung und die Bereitstellung von Data Science-Lösungen sind.

Lektionspfad

Anhand der Einträge in der folgenden Tabelle können Sie Ihre Vorgehensweise beim Selbststudium planen. Lesen Sie die Informationen in der Spalte Beschreibung, um dem Pfad zu folgen, wählen Sie das Thema aus, um weitere Lerninformationen zu erhalten, und überprüfen Sie Ihre Kenntnisse in der Wissensbeurteilung.

Ziel Thema Beschreibung Wissensbeurteilung
Grundlegendes zur Entwicklung von Analyseprojekten Eine Einführung in den Team Data Science-Prozess Wir beginnen mit einer Übersicht über den TDSP. Dieser Prozess führt Sie durch die einzelnen Schritte eines Analyseprojekts. Arbeiten Sie alle Abschnitte durch, um etwas über den Prozess und Möglichkeiten zu dessen Implementierung zu erfahren. Lesen Sie die Informationen zu den TDSP-Projektstrukturartefakten, und laden Sie die TDSP-Projektstrukturartefakte für Ihr Projekt auf Ihren lokalen Computer herunter.
Agile Entwicklung Der TDSP funktioniert gut mit vielen verschiedenen Programmiermethoden. In diesem Lernpfad verwenden wir die agile Softwareentwicklung. Lesen Sie die Artikel „Was ist agile Entwicklung?“ und „Entwickeln einer agilen Kultur“, in denen die Grundlagen der agilen Arbeitsweise beschrieben werden. Die Website bietet noch viele weitere Verweise, über die Sie noch mehr erfahren können. Erklären Sie Continuous Integration und Continuous Delivery einem Kollegen.
DevOps für Data Science Developer Operations (DevOps) umfassen Personen, Prozesse und Plattformen, die Sie zur Arbeit mit einem Projekt und zur Integration Ihrer Lösung in die Standard-IT einer Organisation verwenden können. Diese Integration ist für die Umsetzung und die Sicherheit unerlässlich. In diesem Onlinekurs erfahren Sie mehr über DevOps-Methoden und einige der Ihnen zur Verfügung stehenden Toolkettenoptionen. Bereiten Sie eine 30-minütige Präsentation für eine technische Zielgruppe darüber vor, wie wichtig DevOps für Analyseprojekte sind.
Grundlagen der Technologien für die Speicherung und Verarbeitung von Daten Microsoft Business Analytics und KI Wir konzentrieren uns in diesem Lernpfad auf einige wenige Technologien, mit denen Sie eine Analyselösung erstellen können – Microsoft bietet aber noch viele mehr. Um die Ihnen zur Verfügung stehenden Möglichkeiten zu verstehen, sollten Sie sich die Plattformen und Features in Microsoft Azure sowie Azure Stack und lokale Optionen ansehen. Informieren Sie sich über die verschiedenen verfügbaren Tools für die Beantwortung von Analysefragen. Laden Sie die Präsentationen aus diesem Workshop herunter, und lesen Sie sie.
Einrichten und Konfigurieren Ihrer Trainings-, Entwicklungs- und Produktionsumgebungen Microsoft Azure Erstellen Sie jetzt ein Konto in Microsoft Azure zum Lernen, und erfahren Sie, wie Sie Entwicklungs- und Testumgebungen erstellen. Diese kostenlosen Schulungsressourcen stellen Ihren Einstieg dar. Folgen Sie den Pfaden für Anfänger und Fortgeschrittene. Wenn Sie kein Azure-Konto besitzen, erstellen Sie bitte ein Azure-Konto. Melden Sie sich beim Azure-Portal an, und erstellen Sie eine einzelne Ressourcengruppe für das Training.
Die Azure-Befehlszeilenschnittstelle (CLI) Es gibt mehrere Methoden für die Arbeit mit Azure, von grafischen Tools wie Visual Studio Code und Visual Studio über Webschnittstellen wie das Azure-Portal)bis zu Befehlszeilentools wie Azure PowerShell-Befehlen und -Funktionen. In diesem Artikel wird die Befehlszeilenschnittstelle (CLI) behandelt, die Sie lokal auf Ihrer Arbeitsstation unter Windows oder anderen Betriebssystemen sowie im Azure-Portal verwenden können. Richten Sie Ihr Standardabonnement mit der Azure-Befehlszeilenschnittstelle ein.
Azure Storage (in englischer Sprache) Sie benötigen einen Ort zum Speichern Ihrer Daten. In diesem Artikel erfahren Sie mehr über Azure-Speicheroptionen, das Erstellen von Speicherkonten und das Kopieren oder Verschieben von Daten zur Cloud. Lesen Sie diese Einführung, um mehr zu erfahren. Erstellen Sie ein Speicherkonto in Ihrer Trainingsressourcengruppe, erstellen Sie einen Container für ein Blobobjekt, und laden Sie Daten hoch und herunter.
Microsoft Entra ID Microsoft Entra ID bildet die Basis für den Schutz Ihrer Anwendung. In diesem Artikel erfahren Sie mehr über Konten, Rechte und Berechtigungen. Active Directory und Sicherheit sind komplexe Themen. Lesen Sie daher diesen Artikel, um die Grundlagen zu verstehen. Hinzufügen eines Benutzers bzw. einer Benutzerin in Microsoft Entra ID. HINWEIS: Möglicherweise besitzen Sie nicht die erforderlichen Berechtigungen für diese Aktion, wenn Sie nicht der/die Administrator*in des Abonnements sind. In diesem Fall erhalten Sie in diesem Tutorial weitere Informationen.
Azure Data Science Virtual Machine für PyTorch Sie können die Tools für Data Science-Arbeiten lokal unter verschiedenen Betriebssystemen installieren. Die Data Science Virtual Machine für PyTorch enthält jedoch bereits alle benötigten Tools sowie eine Vielzahl an Projektbeispielen zur Bearbeitung. In diesem Artikel erfahren Sie mehr über die Data Science Virtual Machine für PyTorch und die Bearbeitung der Beispiele. Dieser Artikel enthält eine Beschreibung der Data Science Virtual Machine für PyTorch und ihrer Erstellung sowie einige Optionen für die Entwicklung von Code mit ihr. Darüber hinaus finden Sie hier die gesamte Software, die Sie für den Abschluss dieses Lernpfads benötigen. Sie sollten daher den Wissenspfad für dieses Thema abschließen. Erstellen Sie eine Data Science Virtual Machine für PyTorch und bearbeiten Sie mindestens ein Lab.
Installieren und Verstehen der Tools und Technologien für die Arbeit mit Data Science-Lösungen Working with Git (Arbeiten mit Git) Um unseren DevOps-Prozess mit dem TDSP folgen zu können, benötigen wir ein Versionskontrollsystem. Machine Learning verwendet Git, ein verbreitetes verteiltes Open-Source-Repository. In diesem Artikel erfahren Sie mehr über das Installieren und Konfigurieren von Git und das Arbeiten mit Git sowie ein zentrales Repository, GitHub. Klonen Sie das GitHub-Projekt für die Projektstruktur Ihres Lernpfads.
Visual Studio Code Visual Studio Code ist eine plattformübergreifende integrierte Entwicklungsumgebung (IDE), die Sie mit mehreren Sprachen und Azure Tools verwenden können. Sie können in dieser einen Umgebung Ihre gesamte Lösung erstellen. Sehen Sie sich diese Einführungsvideos zum Einstieg an. Installieren Sie Visual Studio Code, und arbeiten Sie sich im interaktiven Editor durch die Funktionen von Visual Studio Code.
Programmieren mit Python Für diese Lösung verwenden wir Python, eine der am häufigsten verwendeten Programmiersprachen im Bereich Data Science. Dieser Artikel behandelt die Grundlagen des Schreibens von Analysecode mit Python und nennt Ressourcen, in denen Sie mehr erfahren können. Bearbeiten Sie die Abschnitte 1–9 unter dem Link, und überprüfen Sie anschließend Ihr Wissen. Fügen Sie einer Azure-Tabelle mithilfe von Python eine einzelne Entität hinzu.
Arbeiten mit Jupyter Notebook Notebooks stellen eine Möglichkeit dar, Text und Code in demselben Dokument einzufügen. Machine Learning arbeitet mit Notebooks. Daher ist es nützlich, zu wissen, wie diese verwendet werden. Lesen Sie dieses Tutorial, und testen Sie Ihre Kenntnisse in der Wissensbeurteilung. Öffnen Sie die Jupyter-Webseite, und wählen Sie Welcome to Python.ipynb (Willkommen bei Python.ipynb) aus. Bearbeiten Sie die Beispiele auf dieser Seite.
Maschinelles Lernen Das Erstellen erweiterter Analyselösungen umfasst die Bearbeitung von Daten mittels Machine Learning, das auch die Grundlage für die Arbeit mit KI und Deep Learning bildet. In diesem Kurs erfahren Sie mehr über Machine Learning. Einen umfassenden Data Science-Kurs finden Sie unter dieser Zertifizierung. Suchen Sie eine Ressource für Machine Learning-Algorithmen. (Hinweis: Suchen Sie nach „Azure Machine Learning – Cheat Sheet für Algorithmen“.)
scikit-learn Scikit-learn ist ein Toolset, mit dem Sie Data Science-Aufgaben in Python durchführen können. Wir verwenden dieses Framework in der Lösung. Dieser Artikel behandelt die Grundlagen und erläutert, wo Sie mehr erfahren können. Speichern Sie mit dem Iris-DataSet ein SVM-Modell mit Pickle dauerhaft.
Arbeiten mit Docker Docker ist eine verteilte Plattform zum Erstellen, Verteilen und Ausführen von Anwendungen, die im Machine Learning häufig verwendet wird. Dieser Artikel behandelt die Grundlagen dieser Technologie und erläutert, wo Sie mehr erfahren können. Öffnen Sie Visual Studio Code, und installieren Sie die Docker-Erweiterung. Erstellen Sie einen einfachen Docker-Container für einen Knoten.
Azure HDInsight HDInsight ist eine Hadoop-Open-Source-Infrastruktur, die in Azure als Dienst verfügbar ist. Ihre Machine Learning-Algorithmen könnten große Datenmengen enthalten. HDInsight kann große Datenmengen speichern, übertragen und verarbeiten. In diesem Artikel wird das Arbeiten mit HDInsight behandelt. Erstellen Sie einen kleinen HDInsight-Cluster. Verwenden Sie HiveQL-Anweisungen, um Spalten in die Datei „/example/data/sample.log“ zu übertragen. Alternativ können Sie diesen Wissenstest auch auf Ihrem lokalen System absolvieren.
Erstellen eines Datenverarbeitungsablaufs anhand geschäftlicher Anforderungen Ermitteln der Frage im Anschluss an den TDSP Wenn die Entwicklungsumgebung installiert und konfiguriert ist und Sie die Technologien und Prozesse verstanden haben, ist es Zeit, alles zusammenzuführen und den TDSP für eine Analyse zu verwenden. Sie müssen zunächst die Frage definieren, die Datenquellen auswählen und die restlichen Schritte im TDSP ausführen. Behalten Sie den DevOps-Prozess bei der Bearbeitung dieses Prozesses im Hinterkopf. In diesem Artikel erfahren Sie, wie Sie anhand der Anforderungen Ihrer Organisation eine Übersicht über den Datenfluss durch Ihre Anwendung erstellen, um Ihre Lösung mittels des TDSP zu definieren. Suchen Sie eine Ressource unter Die 5 Data Science-Fragen, und beschreiben Sie eine einzelne Frage, die Ihre Organisation in diesen Bereichen stellen könnte. Auf welche Algorithmen sollten Sie sich bei dieser Frage konzentrieren?
Verwenden von Machine Learning zum Erstellen einer Vorhersagelösung Machine Learning Machine Learning verwendet KI für Data Wrangling und Feature Engineering, verwaltet Experimente und verfolgt Modellausführungen nach. Der Dienst nutzt eine einzelne Umgebung und die meisten Funktionen können lokal oder in Azure ausgeführt werden. Sie können das PyTorch-Framework, das TensorFlow-Framework oder andere Frameworks verwenden, um Ihre Experimente zu erstellen. In diesem Artikel liegt der Schwerpunkt auf einem vollständigen Beispiel für diesen Prozess, wobei Sie das bisher erworbene Wissen anwenden.
Verwenden von Power BI zum Visualisieren von Ergebnissen Power BI Power BI ist ein Datenvisualisierungstool. Es ist für verschiedene Plattformen verfügbar, z. B. Webgeräte, mobile Geräte und Desktopcomputer. In diesem Artikel erfahren Sie, wie Sie mit der Ausgabe der von Ihnen erstellten Lösung arbeiten, indem Sie die Ergebnisse aus Azure Storage verwenden und Power BI-Visualisierungen erstellen. Schließen Sie dieses Tutorial zu Power BI ab. Anschließend verbinden Sie Power BI mit dem Blob-CSV, das in einer Experimentausführung erstellt wurde.
Überwachen der Lösung Application Insights Es gibt verschiedene Tools, die Sie zum Überwachen Ihrer fertigen Lösung verwenden können. Application Insights vereinfacht die Integration von Überwachungsfunktionen in Ihre Lösung. Richten Sie Application Insights zur Überwachung einer Anwendung ein.
Azure Monitor-Protokolle Eine weitere Methode zur Überwachung Ihre Anwendung stellt das Integrieren in Ihren DevOps-Prozess dar. Azure Monitor Logs stellt einen umfangreichen Satz von Funktionen bereit, mit denen Sie Ihre Analyselösungen nach der Bereitstellung überwachen können. Schließen Sie dieses Tutorial zur Verwendung von Azure Monitor Logs ab.
Abschluss dieses Lernpfads Herzlichen Glückwunsch! Sie haben diesen Lernpfad abgeschlossen.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Nächste Schritte

Setzen Sie Ihre KI-Journey im KI-Lernhub fort.