Episódio
Engenharia de recursos baseada em Big Data, multivariada e baseada em janelas usando o Microsoft R Server
Os dados de IoT são caracterizados por sinais de longo tempo gravados de vários sensores ao mesmo tempo. Tais sensores são utilizados para monitorar sistemas intrincados e o aprendizado de máquina pode ser usado para entender padrões complexos de dados de sensores (chamados de características) e sua associação com eventos de interesse, como falhas ou comportamentos anormais do sistema (rótulos de previsão).
Devido aos longos períodos de tempo dos registros e à natureza rica e complexa das informações de IoT, o aspecto importante que precisa ser capturado para previsão é a relação multivariada entre diferentes sensores, em vez de estatísticas isoladas de sensores. A engenharia de recursos baseada em janelas de tempo multivariadas é uma etapa fundamental para a criação de soluções avançadas de modelagem preditiva para sistemas IoT, mas é difícil de implementar em casos de Big Data usando ferramentas padrão de Map/Reduce focadas em linha, como o Hive.
Discutimos aqui como o servidor Microsoft R (MRS) pode ser usado para executar vários métodos complexos de engenharia de recursos multivariados para big data empregando um padrão de engenharia de software reutilizável que expõe o conteúdo da janela atual para processamento personalizado e também permite a comunicação entre diferentes blocos de dados, conforme necessário.
Como exemplo, esta estrutura flexível é então usada para pré-processar sinais aplicando operadores baseados em janelas para extrair uma estatística de sinal como mínimos locais, máximos e quantis, condicionados pela amplitude de um segundo sinal binário. Esses recursos baseados em janelas de tempo multivariadas fornecem uma visão mais complexa dos dados do que as estatísticas univariadas globais calculadas com consultas padrão do Hive. Esse padrão de processamento genérico para dados de IoT pode ser estendido diretamente para vários sinais de amplitude contínua que são relevantes para problemas específicos individuais.
O código usado para criar esse experimento estará disponível em breve no repositório do Github.
Os dados de IoT são caracterizados por sinais de longo tempo gravados de vários sensores ao mesmo tempo. Tais sensores são utilizados para monitorar sistemas intrincados e o aprendizado de máquina pode ser usado para entender padrões complexos de dados de sensores (chamados de características) e sua associação com eventos de interesse, como falhas ou comportamentos anormais do sistema (rótulos de previsão).
Devido aos longos períodos de tempo dos registros e à natureza rica e complexa das informações de IoT, o aspecto importante que precisa ser capturado para previsão é a relação multivariada entre diferentes sensores, em vez de estatísticas isoladas de sensores. A engenharia de recursos baseada em janelas de tempo multivariadas é uma etapa fundamental para a criação de soluções avançadas de modelagem preditiva para sistemas IoT, mas é difícil de implementar em casos de Big Data usando ferramentas padrão de Map/Reduce focadas em linha, como o Hive.
Discutimos aqui como o servidor Microsoft R (MRS) pode ser usado para executar vários métodos complexos de engenharia de recursos multivariados para big data empregando um padrão de engenharia de software reutilizável que expõe o conteúdo da janela atual para processamento personalizado e também permite a comunicação entre diferentes blocos de dados, conforme necessário.
Como exemplo, esta estrutura flexível é então usada para pré-processar sinais aplicando operadores baseados em janelas para extrair uma estatística de sinal como mínimos locais, máximos e quantis, condicionados pela amplitude de um segundo sinal binário. Esses recursos baseados em janelas de tempo multivariadas fornecem uma visão mais complexa dos dados do que as estatísticas univariadas globais calculadas com consultas padrão do Hive. Esse padrão de processamento genérico para dados de IoT pode ser estendido diretamente para vários sinais de amplitude contínua que são relevantes para problemas específicos individuais.
O código usado para criar esse experimento estará disponível em breve no repositório do Github.
Tem comentários? Envie um problema aqui.