应用筛选器
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
将滤波器应用于数据集的指定类
类别: 数据转换/筛选器
模块概述
本文 descries 了如何使用机器学习 Studio 中的 "应用筛选器" 模块 (经典) ,通过应用以前定义的筛选器来转换值列。 使用筛选器可以减少干扰或突出显示模式。 因此,转换的值始终为数值,通常表示某种类型的音频或视觉信号。
提示
是否要查找不同类型的筛选器? Studio (经典) 提供这些用于采样数据的模块、获取数据的子集、删除错误值、创建测试和定型集:拆分数据、清理缺失数据、分区和示例、应用 SQL 转换、剪辑值。 如果需要在从源中读取数据时对数据进行筛选,请参阅 导入数据。 选项取决于源类型。
确定最适合您的数据源的筛选器类型后,您可以指定参数,并使用 Apply filter 来转换数据集。 由于过滤器的设计独立于过滤器的应用过程,过滤器可以重复使用。 例如,如果你经常处理用于进行预测的数据,你可以设计几种移动平均线过滤器来训练和比较多个模型。 还可以保存筛选器,使其应用于其他试验或不同的数据集。
如何配置应用筛选器
将 " 应用筛选器 " 模块添加到试验中。 可以在 "筛选器" 类别中的 "数据转换" 下找到 IIR 筛选器模块。
向右输入,将包含数字值的数据集连接到一个输入。
将现有筛选器连接到左侧输入。 您可以重复使用已保存的筛选器,也可以使用以下筛选器模块之一配置筛选器: 阈值筛选器、 移动平均线筛选器、 中间筛选器、 IIR 筛选器、 杉树筛选器、 用户定义的筛选器。
在 "应用筛选器" 的 "属性" 窗格中,单击 "启动列选择器",然后选择要应用筛选器的列。
运行试验,或右键单击 " 应用筛选器 ",然后单击 " 运行所选项"。
结果
输出只包含所选列中的数据,通过应用指定的预定义数学转换来转换。
如果要查看数据集中的其他列,可以使用 " 添加列 " 模块来合并原始数据集和筛选的数据集。
注意
尚未删除或覆盖原始列中的值,这些值在试验中仍可用。 不过,筛选器的输出通常更适用于建模。
示例
有关如何在机器学习中使用筛选器的示例,请参阅 Azure AI 库:
- 筛选器:使用工程波形数据集演示所有筛选器类型。
技术说明
本部分包含实现详情、使用技巧和常见问题解答。
" 应用筛选器 " 模块将指定类型的筛选器绑定到所选列。 如果需要将不同类型的筛选器应用于不同的列,应使用 " 在数据集中选择列 " 来隔离列并在单独的工作流中应用不同的筛选器类型。 有关详细信息,请参阅 选择数据集中的列。
过滤器只过滤受其影响的数据列。 即,“应用过滤器”的输出仅包含转换后的数字值。 但是,您可以使用 " 添加列 " 模块来联接转换后的值和源数据集。
筛选期间
筛选器期间按筛选器类型在部分确定,如下所示:
对于有限脉冲响应 (FIR)、简单移动平均线和三角移动平均线过滤器,过滤周期为有限。
对于无限脉冲响应 (IIR)、指数移动平均线和累积移动平均线过滤器,过滤周期为无限。
对于阈值过滤器,过滤周期始终为 1。
对于中间值过滤器,不管过滤周期如何,输入信号中的 NaN 和缺失值都不会在输出中生成新的 NaN。
缺少值
本部分介绍在遇到缺失值时按筛选器类型的行为。 通常,当某个筛选器在输入数据集中遇到 NaN 或缺失值时,将根据筛选器时间段,输出数据集将为下一个示例数宠坏,并使用 Nan。 这会产生以下影响:
杉树、简单移动平均线或三角移动平均线筛选器都有一个有限的时间段。 因此,任何缺失值将后跟等于筛选器顺序减一的 Nan。
IIR、指数移动平均线或累积移动平均线筛选器有一个无限期限。 因此,在遇到第一个缺失值后,Nan 将继续无限期地传播。
在阈值筛选器中,阈值筛选器的周期为1。 因此,缺少值和 Nan 不会传播。
对于中间值过滤器,不管过滤周期如何,在输入数据集中遇到 NaN 和缺失值不会在输出中生成新的 NaN。
预期输入
名称 | 类型 | 说明 |
---|---|---|
“筛选器” | IFilter 接口 | 过滤器实现 |
数据集 | 数据表 | 输入数据集 |
有关特定于 Studio (经典) 模块的错误列表,请参阅机器学习错误代码。
有关 API 异常的列表,请参阅机器学习 REST API 错误代码。
模块参数
名称 | 范围 | 类型 | 默认 | 说明 |
---|---|---|---|---|
列集 | 任意 | ColumnSelection | NumericAll | 选择要过滤的列 |
输出
名称 | 类型 | 说明 |
---|---|---|
结果数据集 | 数据表 | 输出数据集 |