R 教程:使用二元分类来预测纽约市出租车费用

适用于: SQL Server 2016 (13.x) 及更高版本 Azure SQL 托管实例

在本面向 SQL 程序员的由五部分组成的系列教程中,你将学习如何在 SQL Server 机器学习服务大数据群集中集成 R。

在本面向 SQL 程序员的由五部分组成的系列教程中,你将学习如何在 SQL Server 机器学习服务中集成 R。

在本面向 SQL 程序员的由五部分组成的系列教程中,你将学习如何在 SQL Server 2016 R Services 中集成 R。

在本面向 SQL 程序员的由五部分组成的系列教程中,你将学习如何在 Azure SQL 托管实例中的机器学习服务上集成 R。

你将使用 SQL Server 上的示例数据库来生成和部署基于 R 的机器学习解决方案。 你将使用 T-SQL、Azure Data Studio 或 SQL Server Management Studio,以及支持 SQL 机器学习和 R 语言的数据库引擎实例

本系列教程介绍在数据建模工作流中使用的 R 函数。 其中的部分包括数据浏览、生成和训练二元分类模型,以及模型部署等。 你将使用来自纽约市出租车和豪华轿车委员会的示例数据。 要生成的模型会根据一天中的时间、行程距离和上车位置来预测行程是否可能会产生小费。

在本系列的第一部分中,你将安装必备组件,并还原示例数据库。 在第二和第三部分中,你将开发一些 R 脚本,以准备数据并训练机器学习模型。 然后,在第四和第五部分中,你将使用 T-SQL 存储过程在数据库中运行这些 R 脚本。

在本文中,你将:

  • 安装必备组件
  • 还原示例数据库

第二部分中,你将探索示例数据,并生成一些绘图。

第三部分中,你将学习如何使用 Transact-SQL 函数根据原始数据创建特征。 然后从存储过程调用该函数,创建包含该功能值的表。

第四部分中,你将加载模块,并调用必要的函数,以使用 SQL Server 存储过程来创建和训练模型。

第五部分中,你将了解如何操作在第四部分中训练和保存的模型。

注意

R 和 Python 均提供此教程。 有关 Python 版本,请参阅 Python 教程:使用二元分类来预测纽约市出租车费用

必备知识

所有任务都可以使用 Azure Data Studio 或 Management Studio 中的 Transact-SQL 存储过程来完成。

本教程假定你熟悉基本数据库操作,例如创建数据库和表、导入数据以及编写 SQL 查询。 但无需了解 R,因为所有 R 代码都已提供。

SQL 开发者背景

构建机器学习解决方案是一种复杂的过程,它可能涉及多种工具,并且需要主题专家跨多个阶段进行协调:

  • 获取和清除数据
  • 探索数据并构建有助于建模的功能
  • 定型和优化模型
  • 部署到生产环境

实际代码的开发和测试最好使用专用的 R 开发环境进行。 不过,在完全测试脚本后,可以在熟悉的 Azure Data Studio 或 Management Studio 环境中使用 Transact-SQL 存储过程将脚本轻松部署到 SQL Server。 在存储过程中包装外部代码是在 SQL Server 中操作代码的主要机制。

将模型保存到数据库后,可以使用存储过程从 Transact-SQL 调用该模型以用于预测。

无论你是初次接触 R 的 SQL 程序员,还是初次接触 SQL 的 R 开发人员,都可以学习由五部分组成的本系列教程,其中介绍了使用 R 和 SQL Server 进行数据库内分析的典型工作流。

后续步骤

本文内容:

  • 安装必备组件
  • 还原示例数据库