Python 教程:通过 SQL 机器学习使用线性回归来预测雪橇租赁

适用于: SQL Server 2017 (14.x) 及更高版本 Azure SQL 托管实例

在这个由四个部分组成的教程系列中,你将在 SQL Server 机器学习服务中或 SQL Server 2019 大数据群集上使用 Python 和线性回归来预测雪橇租赁次数。 本教程使用 Azure Data Studio 中的 Python 笔记本

在这个由四个部分组成的教程系列中,你将在 SQL Server 机器学习服务中使用 Python 和线性回归来预测雪橇租赁次数。 本教程使用 Azure Data Studio 中的 Python 笔记本

在这个由四个部分组成的教程系列中,你将在 Azure SQL Server 托管实例机器学习服务中使用 Python 和线性回归来预测雪橇租赁次数。 本教程使用 Azure Data Studio 中的 Python 笔记本

假设你有一家雪橇租赁公司,你希望预测未来某个日期的雪橇租赁次数。 此信息可帮助你准备好库存、人员和设施。

在本系列的第一部分,你将设置必备组件。 在第二和第三部分,你将在某个笔记本中开发一些 Python 脚本,以准备数据并训练机器学习模型。 然后,在第三部分,你将使用 T-SQL 存储过程在数据库中运行这些 Python 脚本。

本文将指导如何进行以下操作:

  • 导入示例数据库

第二部分中,你将了解如何将数据从数据库加载到 Python 数据帧中,并在 Python 中准备数据。

第三部分介绍如何在 Python 中定型线性回归模型。

第四部分中,你将了解如何将模型存储到数据库中,然后根据你在第二和第三部分中开发的 Python 脚本来创建存储过程。 存储过程将在服务器上运行,以便基于新数据进行预测。

先决条件

  • SQL Server 机器学习服务 - 如需安装机器学习服务,请参阅 Windows 安装指南
  • Python IDE - 本教程在 Azure Data Studio 中使用 Python 笔记本。 有关详细信息,请参阅如何使用 Azure Data Studio 中的笔记本

  • SQL 查询工具 - 本教程假定使用的是 Azure Data Studio

  • 附加 Python 包 - 在本教程系列中的示例所使用的以下 Python 包中,有些可能是默认未安装的:

    • pandas
    • pyodbc
    • sklearn

    若要安装这些包:

    1. 在 Azure Data Studio 笔记本中,选择“管理包”。
    2. 在“管理包”窗格中,选择“添加新包”选项卡。
    3. 对于以下每个包,输入包名称,选择“搜索”,然后选择“安装”。

    作为替代方法,你可以打开“命令提示符”,更改为在 Azure Data Studio 中使用的 Python 版本的安装路径(例如 cd %LocalAppData%\Programs\Python\Python37-32),然后针对每个包运行 pip install

还原示例数据库

本教程中使用的示例数据库已保存到 .bak 数据库备份文件,以供下载和使用。

注意

如果在 SQL Server 2019 大数据群集上使用机器学习服务,请了解如何将数据库还原到大数据群集主实例

  1. 下载文件 TutorialDB.bak

  2. 使用以下详细信息,按 Azure Data Studio 中从备份文件还原数据库中的说明操作:

    • 从下载的 TutorialDB.bak 文件导入。
    • 将目标数据库命名为 TutorialDB
  3. 可以通过查询 dbo.rental_data 表来验证是否存在还原的数据集:

    USE TutorialDB;
    SELECT * FROM [dbo].[rental_data];
    
  1. 下载文件 TutorialDB.bak

  2. 使用以下详细信息,按 SQL Server Management Studio 中将数据库还原到 Azure SQL 托管实例的说明操作:

    • 从下载的 TutorialDB.bak 文件导入。
    • 将目标数据库命名为 TutorialDB
  3. 可以通过查询 dbo.rental_data 表来验证是否存在还原的数据集:

    USE TutorialDB;
    SELECT * FROM [dbo].[rental_data];
    

清理资源

如果不打算继续学习本教程,请删除 TutorialDB 数据库。

后续步骤

在本系列教程的第一部分中,你已完成以下步骤:

  • 安装必备组件
  • 导入示例数据库

若要从 TutorialDB 数据库中准备数据,请按照本教程系列的第二部分进行操作: