剧集

使用 Microsoft R 服务器 的大数据、多变量、基于窗口的特征工程

IoT 数据的特点是同时从多个传感器记录的长时间信号。 此类传感器用于监视复杂的系统,机器学习可用于了解复杂的传感器数据模式(称为特征),以及它们与相关事件(如故障或异常系统行为(预测标签)的关联。

由于记录较长的时间和 IoT 信息的丰富和复杂性质,需要捕获预测的重要方面是不同传感器之间的多变量关系,而不是隔离的传感器统计信息。 基于多变量窗口的特征工程是构建 IoT 系统高级预测建模解决方案的基本步骤,但很难通过使用标准行重点地图/化简工具(如 Hive)在大数据案例中实现。

我们在这里讨论 Microsoft R 服务器(MRS)如何通过采用可重用的软件工程模式来为大数据执行多个如此复杂的多变量特征工程方法,该模式公开当前窗口的内容以供自定义处理,并允许根据需要在不同数据区块之间进行通信。

例如,然后,此灵活的框架用于通过应用基于窗口的运算符来预处理信号,以提取一个信号统计信息,如本地最小值、最大量子点和量子点,由第二个二进制信号的振幅条件。 与使用标准 Hive 查询计算的全局单变量统计信息相比,这种基于多变量时间窗口的功能提供更复杂的数据视图。 IoT 数据的这种泛型处理模式可以直接扩展到多个与单个特定问题相关的连续振幅信号。

用于创建此试验的代码将在 Github 存储库中很快 提供