Python 教程:使用二元分类来预测纽约市出租车费用

适用于: SQL Server 2017 (14.x) 及更高版本 Azure SQL 托管实例

在本面向 SQL 程序员的由五部分组成的系列教程中,你将学习如何在 SQL Server 机器学习服务大数据群集中集成 Python。

在本面向 SQL 程序员的由五部分组成的系列教程中,你将学习如何在 SQL Server 机器学习服务中集成 Python。

在本面向 SQL 程序员的由五部分组成的系列教程中,你将学习如何在 Azure SQL 托管实例中的机器学习服务上集成 Python。

你将使用 SQL Server 上的示例数据库来生成和部署基于 Python 的机器学习解决方案。 你将使用 T-SQL、Azure Data Studio 或 SQL Server Management Studio,以及支持 SQL 机器学习和 Python 语言的数据库实例。

本系列教程介绍了在数据建模工作流中使用的 Python 函数。 其中的部分包括数据浏览、生成和训练二元分类模型,以及模型部署等。 你将使用来自纽约市出租车和豪华轿车委员会的示例数据。 要生成的模型会根据一天中的时间、行程距离和上车位置来预测行程是否可能会产生小费。

在本系列的第一部分中,你将安装必备组件,并还原示例数据库。 在第二和第三部分中,你将开发一些 Python 脚本,以准备数据并训练机器学习模型。 然后,在第四和第五部分中,你将使用 T-SQL 存储过程在数据库中运行这些 Python 脚本。

在本文中,你将:

  • 安装必备组件
  • 还原示例数据库

第二部分中,你将探索示例数据,并生成一些绘图。

第三部分中,你将学习如何使用 Transact-SQL 函数根据原始数据创建特征。 然后从存储过程调用该函数,创建包含该功能值的表。

第四部分中,你将加载模块,并调用必要的函数,以使用 SQL Server 存储过程来创建和训练模型。

第五部分中,你将了解如何操作在第四部分中训练和保存的模型。

注意

R 和 Python 均提供此教程。 有关 R 版本,请参阅 R 教程:使用二元分类来预测纽约市出租车费用

必备知识

所有任务都可以使用 Azure Data Studio 或 Management Studio 中的 Transact-SQL 存储过程来完成。

若要更好地学习本系列教程,你需要熟悉基本数据库操作,如创建数据库和表、导入数据以及编写 SQL 查询。 但无需了解 Python,因为所有 Python 代码都已提供。

SQL 开发者背景

构建机器学习解决方案是一种复杂的过程,它可能涉及多种工具,并且需要主题专家跨多个阶段进行协调:

  • 获取和清除数据
  • 探索数据并构建有助于建模的功能
  • 定型和优化模型
  • 部署到生产环境

使用专用的开发环境,可以以最佳方式执行实际代码的开发和测试。 不过,在完全测试脚本后,可以在熟悉的 Azure Data Studio 或 Management Studio 环境中使用 Transact-SQL 存储过程将脚本轻松部署到 SQL Server。 在存储过程中包装外部代码是在 SQL Server 中操作代码的主要机制。

将模型保存到数据库后,可以使用存储过程从 Transact-SQL 调用该模型以用于预测。

无论你是初次接触 Python 的 SQL 程序员,还是初次接触 SQL 的 Python 开发人员,都可以学习由五部分组成的本系列教程,其中介绍了使用 Python 和 SQL Server 进行数据库内分析的典型工作流。

后续步骤

本文内容:

  • 安装必备组件
  • 还原示例数据库