R-Tutorial: Vorhersagen von Taxi-Fahrpreisen in New York City mit binärer Klassifizierung

Gilt für: SQL Server 2016 (13.x) und höher Azure SQL Managed Instance

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die R-Integration in SQL Server Machine Learning Services oder auf Big Data-Clustern.

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die R-Integration in SQL Server Machine Learning Services.

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die R-Integration in SQL Server 2016 R Services.

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die R-Integration in Machine Learning Services in Azure SQL Managed Instance.

In diesem Tutorial erstellen Sie eine R-basierte Machine Learning-Lösung mithilfe einer Beispieldatenbank auf SQL Server und stellen sie bereit. Sie verwenden dazu T-SQL, Azure Data Studio oder SQL Server Management Studio und eine Instanz der Datenbankengine mit maschinellem Lernen mit SQL und R-Sprachunterstützung.

Diese Tutorialreihe bietet eine Einführung in R-Funktionen, die in einem Workflow für Datenmodellierung verwendet werden. Dies beinhaltet unter anderem das Durchsuchen von Daten, das Entwickeln und Trainieren eines binären Klassifizierungsmodells sowie die Modellimplementierung. Sie verwenden dazu Beispieldaten der New York City Taxi and Limousine Commission. Mit dem Modell, das Sie erstellen, soll vorhergesagt werden, ob eine Fahrt (ausgehend von der Tageszeit, der zurückgelegten Strecke und der Abholadresse) mit der Gabe von Trinkgeld endet.

Im ersten Teil dieser Reihe installieren Sie die erforderlichen Komponenten und stellen die Beispieldatenbank wieder her. Im zweiten und dritten Teil entwickeln Sie einige R-Skripts zur Vorbereitung Ihrer Daten und zum Trainieren eines Machine Learning-Modells. In Teil vier und fünf führen Sie diese R-Skripts dann in der Datenbank mithilfe von gespeicherten T-SQL-Prozeduren aus.

In diesem Artikel führen Sie Folgendes durch:

  • Installieren der erforderlichen Komponenten
  • Wiederherstellen der Beispieldatenbank

In Teil zwei untersuchen Sie die Beispieldaten und generieren einige Plots.

In Teil drei erfahren Sie, wie Sie mithilfe einer Transact-SQL-Funktion aus Rohdaten Features erstellen. Sie rufen anschließend die Funktion aus einer gespeicherten Prozedur auf, um eine Tabelle zu erstellen, die die Funktionswerte enthält.

In Teil vier laden Sie die Module und rufen die erforderlichen Funktionen auf, um das Modell mithilfe einer gespeicherten SQL Server-Prozedur zu erstellen und zu trainieren.

In Teil fünf erfahren Sie, wie Sie die Modelle operationalisieren können, die Sie in Teil vier trainiert und gespeichert haben.

Hinweis

Dieses Tutorial ist sowohl in R als auch in Python verfügbar. Die Python-Version finden Sie unter Python-Tutorial: Vorhersagen von Taxi-Fahrpreisen in New York City mit binärer Klassifizierung.

Voraussetzungen

Alle Aufgaben können mithilfe von gespeicherten Transact-SQL-Prozeduren in Azure Data Studio oder Management Studio ausgeführt werden.

Für dieses Tutorial sollten Sie sich mit grundlegenden Datenbankvorgängen auskennen, wie z. B. dem Erstellen von Datenbanken und Tabellen, dem Importieren von Daten und dem Schreiben von SQL-Abfragen. Kenntnisse im Umgang mit R sind nicht erforderlich, und jeglicher R-Code wird bereitgestellt.

Hintergrund für SQL-Entwickler

Der Erstellungsprozess einer Machine Learning-Lösung ist komplex und kann den Einsatz mehrerer Tools sowie die phasenübergreifende Koordinierung von Experten bei folgenden Schritten erfordern:

  • Abrufen und Bereinigen von Daten
  • Untersuchen der Daten und Entwickeln von Modellierungsfunktionen
  • Trainieren und Optimieren des Modells
  • Bereitstellen in der Produktion

Die Entwicklung und das Testen des eigentlichen Codes werden am besten in einer dedizierten R-Entwicklungsumgebung durchgeführt. Nachdem das Skript vollständig getestet wurde, können Sie es jedoch problemlos in SQL Server mithilfe von gespeicherten Transact-SQL-Prozeduren in der vertrauten Umgebung von Azure Data Studio oder Management Studio bereitstellen. Das Umbrechen von externem Code in gespeicherten Prozeduren ist der primäre Mechanismus zum Operationalisieren von Code in SQL Server.

Nach dem Speichern des Modells in der Datenbank für Vorhersagen können Sie es aus Transact-SQL mithilfe von gespeicherten Prozeduren aufrufen.

Egal, ob Sie ein SQL-Programmierer sind, der noch nicht mit R vertraut ist, oder ein R-Entwickler, für den SQL neu ist: In dieser fünfteiligen Tutorialreihe wird ein typischer Workflow für die Durchführung von datenbankinternen Analysen mit R und SQL Server vorgestellt.

Nächste Schritte

In diesem Artikel führen Sie folgende Schritte aus:

  • Installieren der Voraussetzungen
  • Wiederherstellen der Beispieldatenbank