在机器学习 Studio 中解释模型结果（经典）

2017-11-29

适用于： 这是一个复选标记，表示本文适用于机器学习工作室（经典版）。机器学习工作室（经典版）这是一个 X，意味着本文不适用于 Azure 机器学习。 Azure 机器学习

重要

对机器学习工作室（经典）的支持将于 2024 年 8 月 31 日结束。建议在该日期之前转换到 Azure 机器学习。

从 2021 年 12 月 1 日开始，你将无法创建新的机器学习工作室（经典）资源。在 2024 年 8 月 31 日之前，可继续使用现有的机器学习工作室（经典）资源。

请参阅有关将机器学习项目从 ML 工作室（经典）移到 Azure 机器学习的信息。
详细了解 Azure 机器学习

ML 工作室（经典）文档即将停用，将来可能不会更新。

本主题介绍如何在机器学习 Studio（经典）中可视化和解释预测结果。训练模型并根据它进行预测（“为模型评分”）后，需要了解并解释预测结果。

机器学习 Studio 中有四种主要的机器学习模型（经典）：

分类
群集
回归分析
推荐系统

用于基于这些模型进行预测的模块包括：

用于分类和回归的评分模型模块
用于聚类分析的群集分配模块
推荐系统中的Matchbox 推荐器评分

了解如何选择参数以优化 ML Studio（经典）中的算法。

若要了解如何评估模型，请参阅如何评估模型性能。

如果你不熟悉 ML Studio（经典），请了解如何创建简单的试验。

分类

分类问题有两个子类别：

只有两个类别的问题（二分类或二元分类）
多于两个类的问题（多类分类）

机器学习工作室（经典）使用不同的模块来处理其中的每一种分类，但用于解释其预测结果的方法都相似。

双类分类

示例实验

双类分类问题的一个示例是鸢尾花的分类。任务是根据鸢尾花的特征进行分类。机器学习工作室（经典）中提供的鸢尾花数据集是流行的鸢尾花数据集的子集，仅包含两种花卉种类（类 0 和类 1）的实例。每个花卉有四个特征（花萼长度、花萼宽度、花瓣长度和花瓣宽度）。

鸢尾花实验的截图

图 1. 鸢尾花二类分类问题实验

已执行实验来解决此问题，如图 1 所示。已训练并评分双类提升决策树模型。现在，可以可视化评分模型模块的预测结果，方法是单击评分模型模块的输出端口，并单击“可视化”。

评分模型模块

这会显示评分结果，如图 2 所示。

鸢尾花二类分类实验的结果

图 2. 在双类分类中可视化评分模型结果

结果解释

结果表中有六列。左边的四列是这四个特征。右边的两列“评分标签”和“评分概率”是预测结果。 “评分概率”列显示花卉属于正类（类 1）的概率。例如，列中的第一个数字 (0.028571) 表示第一个花卉属于类 1 的概率为 0.028571。 “分数标签”列显示每个花卉的预测的类别。这基于“评分概率”列。如果花卉的评分概率大于 0.5，则它预测为类别 1。否则，它预测为类 0。

Web 服务发布

在理解预测结果并确认其合理之后，可以将实验发布为 Web 服务，从而可以在各种应用程序中进行部署，并调用此服务以对任何新的鸢尾花进行分类预测。若要了解如何将训练实验更改为评分实验并将其发布为 Web 服务，请参阅教程 3：部署信用风险模型。此过程给您提供评分实验，如图 3 所示。

评分实验的屏幕截图

图 3. 对鸢尾花双类分类问题的实验进行评分

现在需要设置 Web 服务的输入和输出。输入是评分模型的右输入端口，即鸢尾花特征输入。输出的选择依据于是否对预测的类（评分标签）、评分概率或者两者都感兴趣。在本示例中，假设用户对两者都感兴趣。若要选择所需的输出列，请使用选择数据集中的列模块。单击选择数据集中的列，单击“启动列选择器”，并选择“评分标签”和“评分概率”。设置选择数据集中的列的输出端口并再次运行它之后，应准备好通过单击“发布 Web 服务”将评分实验发布为 Web 服务。最终实验类似于图 4。

鸢尾花双类分类实验

图 4. 鸢尾花双类分类问题的最后评分实验

运行 Web 服务并输入测试实例的某些特征值后，结果返回两个数字。第一个数字是评分标签，第二个数字是评分概率。此花卉预测为类 1，概率为 0.9655。

测试口译评分模型

评分测试结果

图 5. 鸢尾花双类分类的 Web 服务结果

多类分类

示例实验

在此实验中，执行字母识别任务作为多类分类的示例。分类器尝试根据从手写图像中提取的一些手写属性值来预测特定字母 %28class%29。

字母识别示例

在训练数据中，有 16 个从手写字母图像中提取的特征。 26 个字母组成了 26 个班级。图 6 显示一个实验，该实验将训练多类分类模型进行字母识别，并对测试数据集上的相同特征集进行预测。

字母识别多类分类实验

图 6. 字母识别多类分类实验问题

可视化评分模型模块的结果，方法是单击评分模型模块的输出端口，并单击“可视化”，应看到如图 7 所示的内容。

评分模型结果

图 7. 可视化多类分类中的评分模型结果

结果解释

左边的 16 个列表示测试集的特征值。列名为“类‘XX’评分概率”的列与双类情况中的“评分概率”列类似。它们显示对应的项归入特定类的概率。例如，对于第一个条目，有 0.003571 概率，即它是“A”，0.000451 概率，它是“B”，依此类推。最后一列（评分标签）与二分类情况下的评分标签相同。它选择具有最大评分概率的类作为对应项的预测类。例如，对于第一个条目，评分标签为“F”，因为它的最大概率为“F”（0.916995）。

Web 服务的发布

还可获取每个项的评分标签和评分标签的概率。基本逻辑是查找所有评分概率中最大的概率。若要执行此操作，需要使用执行 R 脚本模块。 R 代码显示在图 8 中，实验结果显示在图 9 中。

R 代码示例

图 8. 用于提取评分标签及标签的关联概率的 R 代码

实验结果

图 9. 字母识别多类分类问题的最终评分实验

发布和运行 Web 服务并输入某些输入特征值后，返回的结果类似于图 10。这封手写信通过提取的16个特征预测为字母“T”，预测概率为0.9715。

测试口译评分模块

测试结果

图 10. 多类分类的 Web 服务结果

回归

回归问题不同于分类问题。在分类问题中，将尝试预测离散类，如鸢尾花所属的类。但是，正如以下回归问题示例所示，将尝试预测连续变量，如一辆汽车的价格。

示例实验

使用汽车价格预测作为回归的示例。将尝试根据特征预测汽车的价格，包括型号、燃料类型、车身类型和驱动轮。实验显示在图 11 中。

汽车价格回归实验

图 11. 汽车价格回归问题实验

可视化评分模型模块，结果类似于图 12。

汽车价格预测问题的评分结果

图 12. 汽车价格预测问题的评分结果

结果解释

评分标签是此评分结果中的结果列。数字是每辆车的预测价格。

Web 服务发布

可将回归实验发布到 Web 服务中，并调用它进行汽车价格预测，与双类分类用例方法相同。

汽车价格回归问题的评分实验

图 13. 汽车价格回归问题的评分实验

运行 Web 服务，返回的结果类似于图 14。此汽车的预测价格为 15085.52 美元。

测试口译评分模块

评分模块结果

图 14. 汽车价格回归问题的 Web 服务结果

群集

示例实验

让我们再次使用鸢尾花数据集来开展聚类实验。可在此处筛选出数据集中的类标签，以便它仅具有特征，并且可用于聚类。在此鸢尾花用例中，在训练过程中将群集的数量指定为二，这意味着将花卉聚类为两个类。实验显示在图 15 中。

鸢尾花聚类问题实验

图 15. 鸢尾花聚类问题实验

聚类分析不同于分类，即训练数据集本身没有实数标签。聚类将训练数据集实例分组为离散群集。在训练过程中，模型通过学习项特征之间的差异来标记这些项。在那之后，训练的模型可以用于进一步分类将来的数据。在聚类问题中，我们对结果的两个部分感兴趣。第一个部分是标记训练数据集，第二个部分是使用训练的模型对新数据集进行分类。

要可视化结果的第一部分，需要单击训练聚类模型的左输出端口，然后点击可视化。可视化显示在图 16 中。

聚类结果