R-Tutorial: Vorhersagen von Taxi-Fahrpreisen in New York City mit binärer Klassifizierung
Gilt für: SQL Server 2016 (13.x) und höher Azure SQL Managed Instance
In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die R-Integration in SQL Server Machine Learning Services oder auf Big Data-Clustern.
In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die R-Integration in SQL Server Machine Learning Services.
In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die R-Integration in SQL Server 2016 R Services.
In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die R-Integration in Machine Learning Services in Azure SQL Managed Instance.
In diesem Tutorial erstellen Sie eine R-basierte Machine Learning-Lösung mithilfe einer Beispieldatenbank auf SQL Server und stellen sie bereit. Sie verwenden dazu T-SQL, Azure Data Studio oder SQL Server Management Studio und eine Instanz der Datenbankengine mit maschinellem Lernen mit SQL und R-Sprachunterstützung.
Diese Tutorialreihe bietet eine Einführung in R-Funktionen, die in einem Workflow für Datenmodellierung verwendet werden. Dies beinhaltet unter anderem das Durchsuchen von Daten, das Entwickeln und Trainieren eines binären Klassifizierungsmodells sowie die Modellimplementierung. Sie verwenden dazu Beispieldaten der New York City Taxi and Limousine Commission. Mit dem Modell, das Sie erstellen, soll vorhergesagt werden, ob eine Fahrt (ausgehend von der Tageszeit, der zurückgelegten Strecke und der Abholadresse) mit der Gabe von Trinkgeld endet.
Im ersten Teil dieser Reihe installieren Sie die erforderlichen Komponenten und stellen die Beispieldatenbank wieder her. Im zweiten und dritten Teil entwickeln Sie einige R-Skripts zur Vorbereitung Ihrer Daten und zum Trainieren eines Machine Learning-Modells. In Teil vier und fünf führen Sie diese R-Skripts dann in der Datenbank mithilfe von gespeicherten T-SQL-Prozeduren aus.
In diesem Artikel führen Sie Folgendes durch:
- Installieren der erforderlichen Komponenten
- Wiederherstellen der Beispieldatenbank
In Teil zwei untersuchen Sie die Beispieldaten und generieren einige Plots.
In Teil drei erfahren Sie, wie Sie mithilfe einer Transact-SQL-Funktion aus Rohdaten Features erstellen. Sie rufen anschließend die Funktion aus einer gespeicherten Prozedur auf, um eine Tabelle zu erstellen, die die Funktionswerte enthält.
In Teil vier laden Sie die Module und rufen die erforderlichen Funktionen auf, um das Modell mithilfe einer gespeicherten SQL Server-Prozedur zu erstellen und zu trainieren.
In Teil fünf erfahren Sie, wie Sie die Modelle operationalisieren können, die Sie in Teil vier trainiert und gespeichert haben.
Hinweis
Dieses Tutorial ist sowohl in R als auch in Python verfügbar. Die Python-Version finden Sie unter Python-Tutorial: Vorhersagen von Taxi-Fahrpreisen in New York City mit binärer Klassifizierung.
Voraussetzungen
- Installieren Sie SQL Server 2016 R Services
- Installieren Sie SQL Server Machine Learning Services mit aktiviertem R
Installieren Sie R-Bibliotheken
- Ab SQL Server 2019 erfordert der Isolationsmechanismus, dass Sie für das Verzeichnis, in dem die Plotdatei gespeichert ist, entsprechende Berechtigungen erteilen. Informationen zum Festlegen dieser Berechtigungen finden Sie im Abschnitt zu Dateiberechtigungen unter „SQL Server 2019 unter Windows: Isolationsänderungen für Machine Learning Services“.
- Stellen Sie die Demodatenbank für Taxifahrten in New York City wieder her.
Alle Aufgaben können mithilfe von gespeicherten Transact-SQL-Prozeduren in Azure Data Studio oder Management Studio ausgeführt werden.
Für dieses Tutorial sollten Sie sich mit grundlegenden Datenbankvorgängen auskennen, wie z. B. dem Erstellen von Datenbanken und Tabellen, dem Importieren von Daten und dem Schreiben von SQL-Abfragen. Kenntnisse im Umgang mit R sind nicht erforderlich, und jeglicher R-Code wird bereitgestellt.
Hintergrund für SQL-Entwickler
Der Erstellungsprozess einer Machine Learning-Lösung ist komplex und kann den Einsatz mehrerer Tools sowie die phasenübergreifende Koordinierung von Experten bei folgenden Schritten erfordern:
- Abrufen und Bereinigen von Daten
- Untersuchen der Daten und Entwickeln von Modellierungsfunktionen
- Trainieren und Optimieren des Modells
- Bereitstellen in der Produktion
Die Entwicklung und das Testen des eigentlichen Codes werden am besten in einer dedizierten R-Entwicklungsumgebung durchgeführt. Nachdem das Skript vollständig getestet wurde, können Sie es jedoch problemlos in SQL Server mithilfe von gespeicherten Transact-SQL-Prozeduren in der vertrauten Umgebung von Azure Data Studio oder Management Studio bereitstellen. Das Umbrechen von externem Code in gespeicherten Prozeduren ist der primäre Mechanismus zum Operationalisieren von Code in SQL Server.
Nach dem Speichern des Modells in der Datenbank für Vorhersagen können Sie es aus Transact-SQL mithilfe von gespeicherten Prozeduren aufrufen.
Egal, ob Sie ein SQL-Programmierer sind, der noch nicht mit R vertraut ist, oder ein R-Entwickler, für den SQL neu ist: In dieser fünfteiligen Tutorialreihe wird ein typischer Workflow für die Durchführung von datenbankinternen Analysen mit R und SQL Server vorgestellt.
Nächste Schritte
In diesem Artikel führen Sie folgende Schritte aus:
- Installieren der Voraussetzungen
- Wiederherstellen der Beispieldatenbank