microsoftml(SQL Server 机器学习服务中的 Python 包)

适用于: SQL Server 2017 (14.x) 及更高版本

microsoftml 是 Microsoft 推出的 Python 包,可提供高性能的机器学习算法。 它包括用于定型和转换、评分、文本和图像分析的功能,以及用于从现有数据中派生值的特征提取功能。 该包在 SQL Server 机器学习服务中提供,支持高性能的大数据、多核处理及快速数据流式处理。

包详细信息 信息
当前版本: 9.4
内置于: Python 3.7.1Anaconda 4.2 分发版
包分发: SQL Server 机器学习服务 2017 或 2019 版。

如何使用 microsoftml

将 Python 添加到安装时,microsoftml 模块将作为 SQL Server 机器学习服务的一部分进行安装。 你可以获取专用包的完整集合,以及带有模块和解释器的 Python 发行版。 可以使用任何 python IDE 编写 Python 脚本来调用 microsoftml 中的函数,但该脚本必须在同时安装有 SQL Server 机器学习服务和 Python 的计算机上运行。

Microsoftml 和 revoscalepy 紧密耦合;microsoftml 中使用的数据源定义为 revoscalepy 对象 。 Revoscalepy 中的计算上下文限制传递到 microsoftml 。 即,所有功能都可用于本地操作,但切换到远程计算上下文需要 RxSparkRxInSQLServer

版本和平台

microsoftml 模块仅在安装以下 Microsoft 产品或下载之一时才可用:

注意

完整产品发布版本为 SQL Server 2017(仅限 Windows)。 SQL Server 2019 中的 microsoftml 同时支持 Windows 和 Linux 。

包依赖项

microsoftml 中的算法依赖于以下内容的 revoscalepy

  • 数据源对象 - microsoftml 函数使用的数据是使用 revoscalepy 函数创建的 。
  • 远程计算(将函数执行转移到远程 SQL Sever 实例)- revoscalepy 包提供用于创建和激活 SQL Server 远程计算上下文的函数。

在大多数情况下,在使用 microsoftml 时,需要一起加载包 。

按类别列出函数

本部分按类别列出函数,以帮助了解每个函数的使用方式。 此外,还可以使用目录按字母顺序查找函数。

1 训练函数

函数 说明
microsoftml.rx_ensemble 定型模型的系综。
microsoftml.rx_fast_forest 随机林。
microsoftml.rx_fast_linear 线性模型。 以及随机双坐标上升。
microsoftml.rx_fast_trees 提升树。
microsoftml.rx_logistic_regression 逻辑回归。
microsoftml.rx_neural_network 神经网络。
microsoftml.rx_oneclass_svm 异常检测。

2 转换函数

分类变量处理

函数 说明
microsoftml.categorical 将文本列转换为类别。
microsoftml.categorical_hash 将文本列进行哈希处理并转换为类别。

架构操作

函数 说明
microsoftml.concat 将多个列串联为一个矢量。
microsoftml.drop_columns 从数据集中删除列。
microsoftml.select_columns 保留数据集的列。

变量选择

函数 说明
microsoftml.count_select 基于计数的功能选择。
microsoftml.mutualinformation_select 基于互信息的功能选择。

文本分析

函数 说明
microsoftml.featurize_text 将文本列转换为数字特征。
microsoftml.get_sentiment 情绪分析。

图像分析

函数 说明
microsoftml.load_image 加载图像。
microsoftml.resize_image 调整图像大小。
microsoftml.extract_pixels 从图像中提取像素。
microsoftml.featurize_image 将图像转换为特征。

特征化函数

函数 说明
microsoftml.rx_featurize 数据源的数据转换

评分函数

功能 说明
microsoftml.rx_predict 使用 Microsoft 机器学习模型评分

如何调用 microsoftml

可在存储过程中封装的 Python 代码中调用 microsoftml 中的函数 。 大多数开发者会在本地构建 microsoftml 解决方案,然后将已完成的 Python 代码迁移到存储过程作为部署练习 。

默认情况下,将安装 Python 的 microsoftml 包,但与 revoscalepy 不同,使用随 SQL Server 安装的 Python 可执行文件启动 Python 会话时,默认不加载该包 。

首先,导入 microsoftml 包,然后在需要使用远程计算上下文或相关连接或数据源对象时导入 revoscalepy 。 然后,引用所需的各个函数。

from microsoftml.modules.logistic_regression.rx_logistic_regression import rx_logistic_regression
from revoscalepy.functions.RxSummary import rx_summary
from revoscalepy.etl.RxImport import rx_import_datasource

另请参阅