在机器学习工作室(经典)中使用 SQL Server 数据库执行分析
适用于:机器学习 Studio(经典版)Azure 机器学习
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
通常,使用本地数据的企业希望利用云的规模和灵活性来平衡其机器学习工作负荷。 但他们并不希望在将企业的本地数据移动到云时中断其当前业务处理和工作流。 机器学习工作室(经典)现在支持从 SQL Server 数据库读取数据,并使用该数据对模型进行训练和评分。 再也不必在云和本地服务器之间手动复制并同步数据。 相反,机器学习工作室(经典)中的导入数据模块现在可以为训练和评分作业直接从 SQL Server 数据库中读取。
本文概述了如何将 SQL Server 数据引入到机器学习工作室(经典)中。 它假定你熟悉工作室(经典)概念,如工作区、模块、数据集、试验 等。
注意
此功能不适用于免费工作区。 有关机器学习定价和层级的详细信息,请参阅机器学习工作室(经典)定价。
安装数据工厂自承载集成运行时
若要在机器学习工作室(经典)中访问 SQL Server 数据库,需要下载并安装数据工厂自承载集成运行时(之前称为数据管理网关)。 在 机器学习 Studio(经典版)中配置连接时,可以使用下面所述的“下载和注册数据网关”对话框下载并安装 Integration Runtime (IR)。
还可以通过从 Microsoft 下载中心下载并运行 MSI 安装包来提前安装 IR。MSI 也可用于将现有 IR 升级至最新版本,并会保留所有设置。
下面是数据工厂自承载运行时的先决条件:
- 数据工厂自承载运行时需要带有 .NET Framework 4.6.1 或更高版本的 64 位操作系统。
- 支持的 Windows 操作系统版本有 Windows 10、Windows Server 2012、Windows Server 2012 R2 和 Windows Server 2016。
- IR 计算机的推荐配置至少为:2 GHz、4 核 CPU、8 GB RAM 和 80 GB 磁盘。
- 如果主机处于休眠状态,IR 不会响应数据请求。 因此,安装 IR 之前,请在计算机上配置相应的电源计划。 如果计算机配置为休眠,则 IR 安装会显示一条消息。
- 由于复制活动按特定频率发生,因此计算机上的资源使用率(CPU、内存)也遵循相同的高峰期和空闲期模式。 资源利用率还很大程度上取决于正在移动的数据量。 进行多个复制作业时,将观察到资源使用率在高峰期上升。 尽管以上所列最低配置从技术上讲足够,但你可能希望具有更多资源的配置(相对于最低配置),具体取决于数据移动的特定负载。
在设置并使用数据工厂自承载集成运行时的时候,请注意以下几点:
一台计算机上只能安装一个 IR 实例。
可以将单个 IR 用于多个本地数据源。
可以将不同计算机上的多个 IR 连接到同一个本地数据源。
一次只为一个工作区配置 IR。 目前,不能跨工作区共享 IR。
可以为单个工作区配置多个 IR。 例如,在开发和生产 IR 准备好操作时,你可能想要使用连接到测试数据源的 IR。
IR 不需要位于数据源所在的计算机上。 但是,如果离数据源较近,可以减少网关连接到数据源的时间。 建议不要在托管本地数据源的计算机上安装 IR,从而避免 IR 和数据源之间的资源争用。
如果已在计算机中安装了服务于 Power BI 或 Azure 数据工厂方案的 IR,请在其他计算机上安装用于机器学习工作室(经典)的独立 IR。
注意
数据工厂自承载集成运行时和 Power BI Gateway 不能在同一台计算机上运行。
即使对其他数据使用 Azure ExpressRoute,也需要将数据工厂自承载集成运行时用于机器学习工作室(经典)。 即使使用 ExpressRoute,也应将数据源视为本地数据源(位于防火墙之后)。 使用数据工厂自承载集成运行时建立机器学习和数据源之间的连接性。
若要详细了解安装先决条件、安装步骤和故障排除提示,请参阅数据工厂中的集成运行时一文。
将 SQL Server 数据库中的数据引入机器学习
在本演练中,将在Azure 机器学习工作区中设置 Azure 数据工厂 Integration Runtime,对其进行配置,然后从 SQL Server 数据库读取数据。
提示
在开始之前,请禁用 studio.azureml.net
浏览器的弹出阻止程序。 如果使用的是 Google Chrome 浏览器,请下载并安装 Google Chrome WebStore ClickOnce 应用扩展中提供的几个插件中的一个。
注意
Azure 数据工厂自承载集成运行时之前名为“数据管理网关”。 此分步教程将继续称其为网关。
步骤 1:创建网关
第一步是创建和设置网关以访问 SQL 数据库。
登录到机器学习工作室(经典),并选择要在其中工作的工作区。
单击左侧的“设置”边栏选项卡,并单击顶部的“数据网关”选项卡。
单击屏幕底部的“新建数据网关”按钮。
在“新建数据网关”对话框中,输入“网关名称”,还可添加“说明”。 单击右下角的箭头可转到配置的下一步。
在“下载并注册数据网关”对话框中,将网关注册密钥复制到剪贴板。
如果尚未下载并安装 Microsoft 数据管理网关,则请单击“下载数据管理网关”。 这会你将转到 Microsoft 下载中心,可以在其中选择所需网关版本、下载并安装它。 有关安装先决条件、安装步骤和故障排除提示的详细信息,请参阅使用数据管理网关在本地资源和云之间移动数据一文的开头部分。
网关安装完成后,数据管理网关配置管理器将打开,还会显示“注册网关”对话框。 粘贴已复制到剪贴板的“网关注册密钥”,并单击“注册”。
如果已安装网关,请运行数据管理网关配置管理器。 单击 更改密钥 、粘贴在上一步中已复制到剪贴板的 网关注册密钥 ,并单击 确定 。
安装完成后,会显示 Microsoft 数据管理网关配置管理器的“注册网关”对话框。 粘贴在上一步中已复制到剪贴板的“网关注册密钥”,并单击 注册。
在 Microsoft 数据管理网关配置管理器的“主页”选项卡上设置了以下值后,网关配置即完成:
“网关名称”和“实例名称”设置为网关的名称。
“注册”设置为“已注册”。
“状态”设置为“已启动”。
底部状态栏会显示“已连接到数据管理网关云服务”以及绿色复选标记。
机器学习工作室(经典)也会在注册完成时进行更新。
在“下载并注册数据网关”对话框中,单击核选标记以完成设置。 “设置”页将网关状态显示为“联机”。 在右侧窗格中,可查看状态和其他有用信息。
在Microsoft 数据管理网关配置管理器切换到“证书”选项卡。在此选项卡上指定的证书用于加密/解密门户中指定的本地数据存储的凭据。 此证书是默认证书。 Microsoft 建议将此证书更改为在证书管理系统中备份的自己的证书。 单击“更改”以改为使用自己的证书。
(可选)如果想要启用用于排查网关问题的详细日志记录,请在 Microsoft 数据管理网关配置管理中,切换到“诊断”选项卡,并选中“启用详细日志记录以进行疑难解答”选项。 可在“应用程序和服务日志”->“数据管理网关”节点下的“Windows 事件查看器”中找到日志记录信息。 还可以使用“诊断”选项卡对使用网关连接本地数据源进行测试。
这完成了机器学习工作室(经典)中的网关设置过程。 现在,已可以使用本地数据。
可以在工作室(经典)中为每个工作区创建和设置多个网关。 例如,可能希望开发期间某个网关与测试数据源连接,而其他网关用于生产数据源。 机器学习工作室(经典)使你可以灵活地设置多个网关,具体取决于企业环境。 目前,不能在工作区之间共享网关,只能在一台计算机上安装一个网关。 有关详细信息,请参阅使用数据管理网关在本地源与云之间移动数据。
步骤 2:使用网关从本地数据源读取数据
设置网关后,可以将导入数据模块添加到从 SQL Server 数据库输入数据的试验中。
在机器学习工作室(经典版)中,选择“试验”选项卡,单击左下角的“+新建”,然后选择“空白实验”(或选择多个可用的示例实验之一)。
找到“导入数据”模块并将其拖动到试验画布上。
单击画布下方的“另存为”。 输入“机器学习工作室(经典)本地 SQL Server 教程”作为试验名称,选择工作区,并单击“确定”复选标记。
单击要选取的“导入数据”模块,并在画布右侧的“属性”窗格中,选择“数据源”下拉列表中的“本地 SQL 数据库”。
选择已安装并注册的“数据网关”。 可以通过选择“(添加新的数据网关…)”来设置其他网关。
输入 SQL“数据库服务器名称”和“数据库名称”以及要执行的 SQL“数据库查询”。
单击“用户名和密码”下的“输入值”,并输入你的数据库凭据。 可以根据 SQL Server 的配置方式使用 Windows 集成身份验证或 SQL Server 身份验证。
消息“必填值”将更改为带有绿色复选标记的“值已设置”。 只需输入凭据一次,除非数据库信息或密码发生更改。 机器学习工作室(经典)使用在安装网关时提供的证书来加密云中的凭据。 Azure 从不存储未加密的本地凭据。
若要运行实验,请单击“运行”。
实验运行结束后,可以可视化从数据库中导入的数据,方法是单击“导入数据”模块的输出端口并选择“可视化”。
完成实验开发后,即可部署并操作模型。 使用批处理执行服务时,将从导入数据模块中配置的 SQL Server 数据库中的数据读取并用于评分。 尽管可以将请求响应服务用于评分本地数据,但 Microsoft 还是建议使用 Excel 加载项。 目前,试验或已发布的 Web 服务不支持通过 导出数据 写入 SQL Server 数据库。