Arbeitsaufwand für Data Science und analytische Anwendungen in Visual Studio

Der Workload für Data Science und analytische Anwendungen in Visual Studio vereint mehrere Sprachen und ihre jeweiligen Laufzeitverteilungen:

Python ist eine der Hauptskriptsprachen, die für Data Science verwendet werden. Python ist einfach zu erlernen und wird von einer großen Vielfalt an Paketen unterstützt. Solche Pakete existieren für eine Vielzahl an Verwendungsszenarios, z.B. Datenerfassung, Bereinigung, Modelltraining, Bereitstellung und Zeichnen. F# ist außerdem eine leistungsstarke funktionale .NET-Sprache, die für eine Vielzahl von Datenverarbeitungsaufgaben geeignet ist.

Screenshot, der Visual Studio mit R-, Python- und F#-Codeprojekten zeigt.

Workload-Installation

Workload für Data Science und analytische Anwendungen ist im Visual Studio-Installer unter Workloads>Weitere Toolsets verfügbar:

Screenshot, der zeigt, wie Sie die Workload für Data Science und analytische Anwendungen im Visual Studio-Installer 2022 auswählen.

Screenshot, der zeigt, wie Sie die Workload für Data Science und analytische Anwendungen im Visual Studio-Installer 2019 auswählen.

Durch die Workload werden standardmäßig folgende Optionen installiert, die Sie im Visual Studio-Installer unter dem Abschnitt für die Workload „Zusammenfassung“ ändern können:

  • F#-Desktopsprachunterstützung
  • Python:
    • Unterstützung der Sprache Python
    • Webunterstützung für Python
    • Native Python-Entwicklungstools

Integration von SQL Server

SQL Server unterstützt die unmittelbare Verwendung von Python in SQL Server zum Durchführen erweiterter Analysen. Unterstützung für Python ist in SQL Server 2017 CTP 2.0 oder neueren Versionen verfügbar.

Wenn Sie Ihren Code dort ausführen, wo sich Ihre Daten bereits befinden, hat das die folgenden Vorteile:

  • Wegfall der Datenverschiebung: Anstatt Daten aus der Datenbank in Ihre Anwendung oder Ihr Modell zu verschieben, können Sie Anwendungen direkt in der Datenbank erstellen. Dank dieser Funktion stellen Themen wie Sicherheit, Einhaltung, Governance, Integrität und eine Reihe ähnlicher Themen, mit denen man sich beim Verschieben großer Datenmengen auseinandersetzen muss, kein Problem mehr dar. Darüber hinaus können Sie damit Datasets nutzen, die die Arbeitsspeicherkapazität eines Clientcomputers übersteigen.

  • Einfache Bereitstellung: Nachdem Sie ein Modell fertiggestellt haben, können Sie es für die Produktion mühelos bereitstellen, indem Sie das Modell in ein T-SQL-Skript einbetten. Sämtliche, in beliebigen Sprachen geschriebene SQL-Clientanwendungen können dann die Modelle und Informationen durch Aufruf einer gespeicherten Prozedur nutzen. Es sind keine bestimmten Sprachintegrationen erforderlich.

  • Leistung und Skalierung auf Unternehmensniveau: Sie können die erweiterten Funktionen von SQL Server mit den leistungsstarken, skalierbaren APIs der RevoScale-Pakete nutzen, z. B. Indizes zur In-Memory-Speicherung von Tabellen und Spalten. Das Wegfallen der Datenverschiebung bedeutet auch, dass Sie Einschränkungen des Clientspeichers umgehen können, z.B. wenn sich Ihre Datenmenge vergrößert oder Sie die Leistung der Anwendung erhöhen möchten.

  • Umfangreiche Erweiterungsmöglichkeiten: In SQL Server können Sie die neuesten Open Source-Pakete installieren und ausführen, und damit in SQL Server Deep Learning- und KI-Anwendungen auf Basis sehr großer Datenmengen erstellen. Das Installieren eines Pakets in SQL Server ist so einfach, wie ein Paket auf Ihrem lokalen Computer zu installieren.

  • Breite Verfügbarkeit ohne zusätzliche Kosten: SprachiIntegrationen stehen in allen Editionen von SQL Server 2017 sowie neueren Editionen zur Verfügung, einschließlich der Express-Edition.

SQL Server-Integrationsinstallation

Um die Vorteile der SQL Server-Integration voll auszuschöpfen, verwenden Sie den Visual Studio Installer, um Workload>Weitere Toolsets>Datenspeicherung und -verarbeitung zu installieren. Wählen Sie die Option SQL Server Data Tools, um SQL IntelliSense, Syntaxhervorhebung und Bereitstellung zu aktivieren:

Screenshot, der zeigt, wie Sie die Datenspeicherung und -verarbeitungslast im Visual Studio-Installer 2022 auswählen.

Screenshot, der zeigt, wie Sie die Datenspeicherung und -verarbeitungslast im Visual Studio-Installer 2019 auswählen.

Weitere Informationen finden Sie unter Python in SQL Server 2017: Verbessertes datenbankinternes maschinelles Lernen (Blog).

Andere Dienste und SDKs

Zusätzlich zu dem, was im Workload für Datenwissenschaft und Analyseanwendungen direkt enthalten ist, sind Notebooks in Visual Studio Code und das Azure SDK für Python ebenfalls hilfreich für die Datenwissenschaft.

Das Azure SDK für Python vereinfacht die Nutzung und Verwaltung von Microsoft Azure-Diensten in Anwendungen unter Windows, Mac und Linux. Weitere Informationen finden Sie unter Azure für Python-Entwickler.

Sie können die Jupyter-Erweiterung mit Notebooks in Visual Studio Code kombinieren, um die Jupyter-Entwicklung zu unterstützen und Ihr Projekt mit zusätzlichen Spracherweiterungen zu erweitern. Der Dienst enthält Beispiel-Notebooks in den Sprachen Python, R und F#, um Ihnen den Einstieg zu erleichtern. Weitere Informationen finden Sie unter Notebooks-Erfahrungen von Microsoft und GitHub.

Screenshot der Verwendung von Notebooks mit Jupyter in einer Einführung in das R-Beispiel.