Teilen über


Python-Tutorial: Vorhersagen von Taxi-Fahrpreisen in New York City mit binärer Klassifizierung

Gilt für: SQL Server 2017 (14.x) und höhere Versionen von Azure SQL Managed Instance

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die Python-Integration in SQL Server Machine Learning Services oder auf Big Data-Clustern.

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die Python-Integration in SQL Server Machine Learning Services.

In dieser fünfteiligen Tutorialreihe für SQL-Programmierer erfahren Sie mehr über die Python-Integration in Machine Learning Services in Azure SQL Managed Instance .

In diesem Tutorial erstellen Sie eine Python-basierte Machine Learning-Lösung mithilfe einer Beispieldatenbank auf SQL Server und stellen sie bereit. Sie verwenden T-SQL, Visual Studio Code oder SQL Server Management Studio und eine Datenbankinstanz mit SQL Machine Learning- und Python-Sprachunterstützung.

Diese Tutorialreihe bietet eine Einführung in Python-Funktionen, die in einem Workflow für Datenmodellierung verwendet werden. Dies beinhaltet unter anderem das Durchsuchen von Daten, das Entwickeln und Trainieren eines binären Klassifizierungsmodells sowie die Modellimplementierung. Sie verwenden dazu Beispieldaten der New York City Taxi and Limousine Commission. Mit dem Modell, das Sie erstellen, soll vorhergesagt werden, ob eine Fahrt (ausgehend von der Tageszeit, der zurückgelegten Strecke und der Abholadresse) mit der Gabe von Trinkgeld endet.

Im ersten Teil dieser Reihe installieren Sie die erforderlichen Komponenten und stellen die Beispieldatenbank wieder her. Im zweiten und dritten Teil entwickeln Sie einige Python-Skripts zur Vorbereitung Ihrer Daten und zum Trainieren eines Machine Learning-Modells. In Teil vier und fünf führen Sie diese Python-Skripts dann in der Datenbank mithilfe von gespeicherten T-SQL-Prozeduren aus.

In diesem Artikel führen Sie Folgendes durch:

  • Installieren der erforderlichen Komponenten
  • Wiederherstellen der Beispieldatenbank

In Teil zwei untersuchen Sie die Beispieldaten und generieren einige Plots.

In Teil drei erfahren Sie, wie Sie mithilfe einer Transact-SQL-Funktion aus Rohdaten Features erstellen. Sie rufen anschließend die Funktion aus einer gespeicherten Prozedur auf, um eine Tabelle zu erstellen, die die Funktionswerte enthält.

In Teil vier laden Sie die Module und rufen die erforderlichen Funktionen auf, um das Modell mithilfe einer gespeicherten SQL Server-Prozedur zu erstellen und zu trainieren.

In Teil fünf erfahren Sie, wie Sie die Modelle operationalisieren können, die Sie in Teil vier trainiert und gespeichert haben.

Hinweis

Dieses Tutorial ist sowohl in R als auch in Python verfügbar. Informationen zur R-Version finden Sie unter R-Tutorial: Vorhersagen von Taxi-Fahrpreisen in New York City mit binärer Klassifizierung.

Voraussetzungen

Alle Aufgaben können mit Transact-SQL gespeicherten Prozeduren in Visual Studio Code oder Management Studio ausgeführt werden.

Für diese Tutorialreihe sollten Sie sich mit grundlegenden Datenbankvorgängen auskennen, wie z. B. dem Erstellen von Datenbanken und Tabellen, dem Importieren von Daten und dem Schreiben von SQL-Abfragen. Kenntnisse im Umgang mit Python werden nicht vorausgesetzt, und der gesamte Python-Code wird bereitgestellt.

Hintergrund für SQL-Entwickler

Der Erstellungsprozess einer Machine Learning-Lösung ist komplex und kann den Einsatz mehrerer Tools sowie die phasenübergreifende Koordinierung von Experten bei folgenden Schritten erfordern:

  • Abrufen und Bereinigen von Daten
  • Untersuchen der Daten und Entwickeln von Modellierungsfunktionen
  • Trainieren und Optimieren des Modells
  • Bereitstellung in die Produktionsumgebung

Die Entwicklung und das Testen des eigentlichen Codes werden am besten in einer dedizierten Entwicklungsumgebung durchgeführt. Nachdem das Skript jedoch vollständig getestet wurde, können Sie es ganz einfach in SQL Server bereitstellen, indem Sie Transact-SQL gespeicherten Prozeduren in der vertrauten Umgebung von Visual Studio Code oder Management Studio verwenden. Das Einbetten von externem Code in gespeicherten Prozeduren ist der primäre Mechanismus zur Integration von Code in den Betriebsablauf in SQL Server.

Nach dem Speichern des Modells in der Datenbank für Vorhersagen können Sie es aus Transact-SQL mithilfe von gespeicherten Prozeduren aufrufen.

Egal, ob Sie ein SQL-Programmierer sind, der noch nicht mit Python vertraut ist, oder ein Python-Entwickler, für den SQL neu ist: In dieser fünfteiligen Tutorialreihe wird ein typischer Workflow für die Durchführung von datenbankinternen Analysen mit Python und SQL Server vorgestellt.

Nächste Schritte

In diesem Artikel führen Sie folgende Schritte aus:

  • Installierte Voraussetzungen
  • Wiederherstellen der Beispieldatenbank