Fabric 中的低代码 AutoML 界面可让用户通过指定 ML 任务和一些基本配置,轻松开始机器学习。 根据这些选择,AutoML UI 会生成一个预先配置好的笔记本,以适应用户的输入。 执行后,所有模型指标和迭代都会在现有 ML 试验和模型项中自动记录和跟踪,为管理和评估模型性能提供了一种有序、高效的方法。
重要
此功能目前为预览版。
先决条件
获取 Microsoft Fabric 订阅。 或者注册免费的 Microsoft Fabric 试用版。
登录 Microsoft Fabric。
使用主页左下侧的体验切换器切换到 Fabric。
设置自动化 ML 试用
Fabric 中的 AutoML 向导可直接从现有试验、模型或笔记本项中方便地启动。
选择数据源
Fabric 中的 AutoML 用户可以选择从其可用的湖屋中进行选择,以便轻松访问和分析存储在平台中的数据。 选择湖屋后,用户可以选择特定的表格或文件来完成 AutoML 任务。
提示
选择湖屋时,用户可以选取要用于 AutoML 的表或文件。 支持的文件类型包括 CSV、XLS、XLSX 和 JSON。
定义 ML 模型用途
在此步骤中,用户通过选择最适合其数据和目标的 ML 任务来定义其模型的用途。
Fabric 的 AutoML 向导提供以下 ML 任务:
- 回归:用于预测连续数值。
- 二元分类:用于将数据分类为两个类之一。
- 多类分类:用于将数据分类为多个类之一。
- 预测:用于对时序数据进行预测。
选择 ML 任务后,可以选择 AutoML 模式。 每个模式都会为 AutoML 试用版设置默认配置,例如要浏览的模型以及为查找最佳模型所分配的时间。 可用模式如下所示:
- 快速原型:提供快速结果,非常适合快速测试和迭代。
- 可解释模式:运行时间稍长一些,重点介绍本质上更易于解释的模型。
- 最佳拟合:使用扩展运行时进行更全面的搜索,旨在查找最佳模型。
- 自定义:允许你在 AutoML 试用版中手动调整某些设置,以便进行定制配置。
选择正确的 ML 任务和 AutoML 模式可确保 AutoML 向导符合目标,并根据所选配置平衡速度、可解释性和性能。
设置训练数据
在此步骤中,你将配置 AutoML 用于生成模型的训练数据。 首先选择预测列,这是模型要训练预测的目标列。
选择预测列后,可以进一步自定义输入数据的处理方式:
- 数据类型:查看和调整每个输入列的数据类型,以确保兼容性并优化模型的性能。
- 插补方法:选择如何通过选择一种插补方法来处理数据集中的缺失值,该方法将基于你的首选项填补数据中的空白。
还可以启用或禁用自动特征化设置。 启用后,自动特征化会生成用于训练的其他功能,通过从数据中提取额外的见解来尝试增强模型性能。 定义这些数据设置有助于 AutoML 向导准确解释和处理数据集,从而提高试用结果的质量。
提供最终详细信息
现在,你将决定希望如何执行 AutoML 试用版,以及试验和输出的命名约定。 有两个选项可用于执行 AutoML 试用版:
同时训练多个模型:如果数据可以加载到 pandas 数据帧中,该选项就非常适合,这样就可以利用 Spark 集群并行运行多个模型。 此方法通过同时训练多个模型来加速试用过程。
使用 Spark 按顺序训练模型:该选项适用于较大的数据集或需要分布式训练的数据集。 它使用 Spark 和 SynapseML 探索分布式模型,使用 Spark 提供的可伸缩性一次训练一个模型。
注意
目前,Spark 模式不支持记录基于 Spark 的模型的输入和输出架构。 此架构是 SynapseML PREDICT 函数的必需字段。 解决方法是,可以使用 MLFlow 直接加载模型并在笔记本中执行推理,从而绕过预测的架构要求。
选择执行模式后,通过指定笔记本、试验和模型的名称来完成设置。 这些命名约定有助于在 Fabric 中组织 AutoML 资产,并便于跟踪和管理试用。 完成后,将基于所选内容生成笔记本,以便根据需要执行和自定义。
查看和创建笔记本
在最后一步中,你将有机会查看所有 AutoML 设置,并预览根据你的选择生成的代码。 这是确保所选的 ML 任务、模式、数据设置和其他配置满足目标的机会。
满意后,可以完成此步骤以生成包含 AutoML 试用版所有组件的笔记本。 此笔记本允许你跟踪过程的每个阶段,从数据准备到模型评估,并用作工作的综合记录。 还可以根据需要进一步自定义此笔记本,调整代码和设置以优化 AutoML 试用结果。
跟踪 AutoML 运行
执行笔记本后,AutoML 代码将使用 MLFlow 日志记录自动跟踪在试用期间测试的每个模型的关键指标和参数。 这种无缝集成允许你监视和查看 AutoML 运行的每个迭代,而无需进行其他设置。
若要浏览 AutoML 试用版的结果,请执行以下操作:
导航到 ML 试验项:在 ML 试验中,可以跟踪 AutoML 进程创建的所有不同运行。 每个运行都会记录有价值的详细信息,例如模型性能指标、参数和配置,以便于分析和比较结果。
查看 AutoML 配置:对于每个 AutoML 试用,你将找到使用的 AutoML 配置,从而深入了解每个模型的设置方式,以及哪些设置导致了最佳结果。
找到最佳模型:打开 ML 模型,从 AutoML 试用中访问最终性能最佳的模型。
此跟踪工作流可帮助你组织、评估和管理模型,确保完全了解 AutoML 试用中测试的每个模型的性能和设置。 在此处,可以利用 SynapseML PREDICT 接口或直接从笔记本生成预测。