Tutorial: Use RevoScaleR R functions with SQL Server data (Tutorial: Verwenden von RevoScaleR-R-Funktionen mit SQL Server-Daten)
Gilt für: SQL Server 2016 (13.x) und höhere Versionen
In diesem mehrteiligen Tutorialreihe lernen Sie einige RevoScaleR-Funktionen für Data Science-Aufgaben kennen. Dabei erfahren Sie, wie Sie einen Remotecomputekontext erstellen, Daten zwischen einem lokalen und einem Remotecomputekontext verschieben und R-Code auf einer Remoteinstanz von SQL Server ausführen. Außerdem lernen Sie, wie Sie Daten lokal und auf einem Remoteserver analysieren und zeichnen sowie wie Sie Modelle erstellen und bereitstellen.
RevoScaleR ist ein R-Paket von Microsoft, das die verteilte und parallele Verarbeitung für Data Science- und Machine Learning-Workloads bereitstellt. Für die R-Entwicklung in SQL Server stellt RevoScaleR eines der wichtigsten integrierten Pakete dar. Es enthält Funktionen zum Erstellen von Datenquellenobjekten, zum Einrichten eines Computekontexts, zum Verwalten von Paketen und vor allem zur End-to-End-Verarbeitung von Daten, vom Import über die Visualisierung bis hin zur Analyse. Machine Learning-Algorithmen in SQL Server weisen eine Abhängigkeit von RevoScaleR-Datenquellen auf. Angesichts dieses Stellenwerts ist es also wichtig zu wissen, wann und wie RevoScaleR-Funktionen aufgerufen werden.
Voraussetzungen
SQL Server Machine Learning Services mit der R-Funktion oder SQL Server R Services (datenbankintern)
Datenbankberechtigungen und eine Benutzeranmeldung für SQL Server-Datenbank
Eine IDE wie z. B. RStudio oder das in R enthaltene integrierte RGUI-Tool
Sie benötigen zwei Systeme, damit Sie zwischen dem lokalen und dem Remotecomputekontext hin- und herwechseln können. Das lokale System ist in der Regel eine Entwicklungsarbeitsstation mit ausreichender Leistung für Data Science-Workloads. Den Remotekontext stellt in diesem Fall SQL Server mit aktivierter R-Funktion dar.
Das Wechseln zwischen den Computekontexten ist nur möglich, wenn auf dem lokalen und dem Remotesystem dieselbe Version von RevoScaleR ausgeführt wird. Auf einer lokalen Arbeitsstation erhalten Sie die RevoScaleR-Pakete und zugehörigen Anbieter, indem Sie Microsoft R Client installieren.
Befinden sich Client und Server notwendigerweise auf demselben Computer, müssen Sie einen zweiten Satz Microsoft R-Bibliotheken installieren, um R-Skripts von einem Remoteclient senden zu können. Verwenden Sie nicht die R-Bibliotheken, die in der SQL Server-Instanz unter „Programme“ installiert sind. Insbesondere, wenn Sie nur einen Computer verwenden, benötigen Sie die RevoScaleR-Bibliothek an beiden der folgenden Speicherorten, um Client- und Servervorgänge zu unterstützen:
- C:\Programme\Microsoft\R Client\R_SERVER\library\RevoScaleR
- C:\Programme\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR
Anweisungen zur Clientkonfiguration finden Sie unter Einrichten eines Data Science-Clients für die Entwicklung in R.
R-Entwicklungstools
R-Entwickler verwenden zum Schreiben und Debuggen von R-Code in der Regel IDEs. Hier sehen Sie einige Vorschläge:
R-Tools für Visual Studio (RTVS) ist ein kostenloses Plug-In, das IntelliSense, Debugging sowie Unterstützung für Microsoft R bietet. Sie können es mit SQL Server Machine Learning Services verwenden. Gehen Sie unter R Tools for Visual Studio(R-Tools für Visual Studio), um es herunterzuladen.
RStudio ist eine der beliebtesten Umgebungen für die Entwicklung von R. Weitere Informationen finden Sie unter https://www.rstudio.com/products/RStudio/.
Grundlegende R-Tools (R.exe, RTerm.exe, RScripts.exe) werden auch standardmäßig bei der Installation von R in SQL Server oder R Client installiert. Wenn Sie keine IDE installieren möchten, können Sie mit integrierten R-Tools den Code in diesem Tutorial ausführen.
Denken Sie daran, dass Sie RevoScaleR auf dem lokalen und dem Remotecomputer ausführen müssen. Sie können dieses Tutorial nicht mit einer generischen Installation von RStudio oder einer anderen Umgebung ohne Microsoft R-Bibliotheken durchführen. Weitere Informationen finden Sie unter Einrichten eines Data Science-Clients.
Zusammenfassung der Aufgaben
- Zuerst werden die Daten aus CSV-Dateien oder XDF-Dateien abgerufen. Die Daten werden mithilfe der Funktionen im RevoScaleR-Paket in SQL Server importiert.
- Das Trainieren und Bewerten des Modells erfolgt mithilfe des SQL Server-Computekontexts.
- Sie erstellen neue SQL Server-Tabellen mithilfe der RevoScaleR-Funktionen, um die Bewertungsergebnisse zu speichern.
- Sie erstellen Zeichnungen auf dem Server und im lokalen Computekontext.
- Sie trainieren ein Modell mit Daten der SQL Server-Datenbank, und führen R in der SQL Server-Instanz aus.
- Sie extrahieren eine Teilmenge der Daten und speichern sie als XDF-Datei für die erneute Verwendung bei der Analyse auf Ihrer lokalen Arbeitsstation.
- Sie erhalten neue Daten für die Bewertung, indem Sie eine ODBC-Verbindung mit der SQL Server-Datenbank herstellen. Die Bewertung wird auf der lokalen Arbeitsstation ausgeführt.
- Sie erstellen eine benutzerdefinierte R-Funktion und führen sie im Computekontext des Servers aus, um eine Simulation durchzuführen.