Aflevering

Big Data, Multivariate, Functie-engineering op basis van vensters met Microsoft R Server

IoT-gegevens worden gekenmerkt door lange tijdsignalen die zijn vastgelegd door meerdere sensoren tegelijk. Dergelijke sensoren worden gebruikt om complexe systemen te bewaken en machine learning kan worden gebruikt om complexe patronen van sensorgegevens (functies genoemd) te begrijpen en hun koppeling met interessante gebeurtenissen, zoals fouten of abnormaal systeemgedrag (voorspellingslabels).

Vanwege opnamen lang en de rijke en complexe aard van IoT-gegevens is het belangrijke aspect dat moet worden vastgelegd voor voorspelling de multivariate relatie tussen verschillende sensoren in plaats van geïsoleerde sensorenstatistieken. Multivariate time windows-functie-engineering is een fundamentele stap voor het bouwen van geavanceerde voorspellende modelleringsoplossingen voor IoT-systemen, maar is moeilijk te implementeren in big data-cases met behulp van standaard hulpprogramma's voor kaart/reductie met prioriteit voor rijen, zoals Hive.

We bespreken hier hoe Microsoft R Server (MRS) kan worden gebruikt om verschillende complexe multivariate functie-engineeringmethoden voor big data uit te voeren door een herbruikbaar software-engineeringpatroon te gebruiken dat de inhoud van het huidige venster beschikbaar maakt voor aangepaste verwerking, en maakt communicatie mogelijk tussen verschillende gegevenssegmenten indien nodig.

Dit flexibele framework wordt vervolgens gebruikt om signalen vooraf te verwerken door vensteroperators toe te passen om één signaalstatistieken zoals lokale minima, maximum- en kwantielen te extraheren, geconditioneerd door de amplitude van een tweede binair signaal. Dergelijke multivariate tijdvensters bieden een complexere weergave van de gegevens dan globale univariate statistieken die worden berekend met standaard Hive-query's. Dit algemene verwerkingspatroon voor IoT-gegevens kan eenvoudig worden uitgebreid tot meerdere continue amplitudesignalen die relevant zijn voor afzonderlijke specifieke problemen.

De code die wordt gebruikt om dit experiment te maken, is binnenkort beschikbaar in de GitHub-opslagplaats.