应用筛选器

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

将滤波器应用于数据集的指定类

类别: 数据转换/筛选器

注意

适用于:仅限机器学习 Studio (经典)

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文 descries 了如何使用机器学习 Studio 中的 "应用筛选器" 模块 (经典) ,通过应用以前定义的筛选器来转换值列。 使用筛选器可以减少干扰或突出显示模式。 因此,转换的值始终为数值,通常表示某种类型的音频或视觉信号。

提示

是否要查找不同类型的筛选器? Studio (经典) 提供这些用于采样数据的模块、获取数据的子集、删除错误值、创建测试和定型集:拆分数据清理缺失数据分区和示例应用 SQL 转换剪辑值。 如果需要在从源中读取数据时对数据进行筛选,请参阅 导入数据。 选项取决于源类型。

确定最适合您的数据源的筛选器类型后,您可以指定参数,并使用 Apply filter 来转换数据集。 由于过滤器的设计独立于过滤器的应用过程,过滤器可以重复使用。 例如,如果你经常处理用于进行预测的数据,你可以设计几种移动平均线过滤器来训练和比较多个模型。 还可以保存筛选器,使其应用于其他试验或不同的数据集。

如何配置应用筛选器

  1. 将 " 应用筛选器 " 模块添加到试验中。 可以在 "筛选器" 类别中的 "数据转换" 下找到 IIR 筛选器模块。

  2. 向右输入,将包含数字值的数据集连接到一个输入。

  3. 将现有筛选器连接到左侧输入。 您可以重复使用已保存的筛选器,也可以使用以下筛选器模块之一配置筛选器: 阈值筛选器移动平均线筛选器中间筛选器、 IIR 筛选器、 杉树筛选器、 用户定义的筛选器

  4. 在 "应用筛选器" 的 "属性" 窗格中,单击 "启动列选择器",然后选择要应用筛选器的列。

  5. 运行试验,或右键单击 " 应用筛选器 ",然后单击 " 运行所选项"。

结果

输出只包含所选列中的数据,通过应用指定的预定义数学转换来转换。

如果要查看数据集中的其他列,可以使用 " 添加列 " 模块来合并原始数据集和筛选的数据集。

注意

尚未删除或覆盖原始列中的值,这些值在试验中仍可用。 不过,筛选器的输出通常更适用于建模。

示例

有关如何在机器学习中使用筛选器的示例,请参阅 Azure AI 库

  • 筛选器:使用工程波形数据集演示所有筛选器类型。

技术说明

本部分包含实现详情、使用技巧和常见问题解答。

  • " 应用筛选器 " 模块将指定类型的筛选器绑定到所选列。 如果需要将不同类型的筛选器应用于不同的列,应使用 " 在数据集中选择列 " 来隔离列并在单独的工作流中应用不同的筛选器类型。 有关详细信息,请参阅 选择数据集中的列

  • 过滤器只过滤受其影响的数据列。 即,“应用过滤器”的输出仅包含转换后的数字值。 但是,您可以使用 " 添加列 " 模块来联接转换后的值和源数据集。

筛选期间

筛选器期间按筛选器类型在部分确定,如下所示:

  • 对于有限脉冲响应 (FIR)、简单移动平均线和三角移动平均线过滤器,过滤周期为有限

  • 对于无限脉冲响应 (IIR)、指数移动平均线和累积移动平均线过滤器,过滤周期为无限

  • 对于阈值过滤器,过滤周期始终为 1

  • 对于中间值过滤器,不管过滤周期如何,输入信号中的 NaN 和缺失值都不会在输出中生成新的 NaN。

缺少值

本部分介绍在遇到缺失值时按筛选器类型的行为。 通常,当某个筛选器在输入数据集中遇到 NaN 或缺失值时,将根据筛选器时间段,输出数据集将为下一个示例数宠坏,并使用 Nan。 这会产生以下影响:

  • 杉树、简单移动平均线或三角移动平均线筛选器都有一个有限的时间段。 因此,任何缺失值将后跟等于筛选器顺序减一的 Nan。

  • IIR、指数移动平均线或累积移动平均线筛选器有一个无限期限。 因此,在遇到第一个缺失值后,Nan 将继续无限期地传播。

  • 在阈值筛选器中,阈值筛选器的周期为1。 因此,缺少值和 Nan 不会传播。

  • 对于中间值过滤器,不管过滤周期如何,在输入数据集中遇到 NaN 和缺失值不会在输出中生成新的 NaN。

预期输入

名称 类型 说明
“筛选器” IFilter 接口 过滤器实现
数据集 数据表 输入数据集

有关特定于 Studio (经典) 模块的错误列表,请参阅机器学习错误代码

有关 API 异常的列表,请参阅机器学习 REST API 错误代码

模块参数

名称 范围 类型 默认 说明
列集 任意 ColumnSelection NumericAll 选择要过滤的列

输出

名称 类型 说明
结果数据集 数据表 输出数据集

另请参阅

Filter
A-Z 模块列表