AoT: Analytics of Things

Met de groei van het Internet of Things groeit ook de behoefte om slimmere en uitgebreidere analyse van de data die al die devices: analytics of things. Gelukkig is de bron van de data in dit geval geen probleem: een sensor geeft op een gedefinieerde manier telkens data die meestal iets aangeeft over een fysieke situatie. Een temperatuursensor zegt: de temperatuur is momenteel 56 graden Celsius. Of een snelheidssensor geeft elke seconde de actuele snelheid in meters per seconde.

Sensoren hebben geen ander doel dan ‘iets’ adequaat te kunnen meten en die meetwaarde op een bruikbare wijze te representeren. De ontwikkeling in de sensorwereld gaat heel snel momenteel, waarbij digitalisering en miniaturisatie de twee belangrijkste zijn. Hierbij wordt dankbaar gebruik gemaakt van het feit dat zowel processor- als opslagtechniek door de wet van Moore nog steeds elk jaar kleiner en goedkoper wordt.

Te veel data
De uitdaging die IoT ons stelt, is dat de stroom beschikbare data elke dag groeit. Een sensor die eenmaal is geïnstalleerd en aangezet, zal zijn leven lang data gaan leveren. En hoewel met veel sensordata direct processen kunnen worden aangestuurd, zoals de temperatuursensor onze CV regelt, is de behoefte ‘meer’ met die data te doen dan slechts eenmalig direct gebruik. Maar het ongebreideld opslaan van al die streaming data is ook geen optie omdat we in de wereld gewoon niet genoeg digitale opslagcapaciteit hebben om dat te realiseren. Waarbij ik nog niet eens de beperkte bandbreedte noem om die data naar de gewenste plek te brengen.

We moeten van data eigenlijk direct informatie maken. Elke seconde weten dat het 21 graden is, levert een enorme stoom redundante data op. Weten dat het 21 graden is en vervolgens de verandering in de tijd, is voldoende voor een regelend systeem. Daarnaast ook weten dat de sensor goed functioneert. Een eveneens belangrijke vraag is welke intervaltijd voldoende is om de sensordata te gebruiken. Hoe kleiner de tijdinterval, hoe meer data en dus ook processingcapaciteit nodig is om er informatie van te maken. Eigenlijk willen we elke sensor zélf slim maken opdat deze zelf bepaalt wanneer welke informatie aan een hoger liggend systeem moet worden gemeld.

Complexiteit
Het is dus een uitdaging zo dicht mogelijk bij de bron data-reductie te realiseren. Hoe beter en slimmer dat kan, des te efficiënter het totale data- en informatiemanagement van een IoT-systeem kan worden. In klassieke datastromen zoeken we in data meestal trends om die te kunnen extrapoleren. Bij IoT-data willen we in eerste instantie weten of er afwijkingen zijn van de normale situatie. Dat betekent dat eerst de normale situatie moet worden gedefinieerd of worden ‘geleerd’. Immers abnormaliteiten zijn pas herkenbaar als alle normaliteiten bekend zijn.

Het vraagt nogal wat analysecapaciteit om in complexe I0T-omgevingen de abnormaliteiten te herkennen en Analytics of Things toe te passen. Een snelle temperatuurstijging of daling trekt vanzelfsprekend snel de aandacht, maar wat geldt er bij een minimale stijging die echter lange tijd duurt? Of een minimale verandering die een correlatie heeft met een andere sensor? Maar er kan ook een tijdverschil zitten tussen met elkaar gerelateerde data. Bijvoorbeeld eerst neemt de druk een beetje toe, en enige tijd later stijgt de temperatuur ook. Hebben die twee parameters in het proces met elkaar te maken of niet?

Foutmetingen
Een ander belangrijk punt binnen Analytics of Thigns is het herkennen van foutmetingen. Als we constant 30 graden meten met af en toe korte pieken van 80 of zelfs 800 graden, weten we dat er een fout in de meting is opgetreden en moeten we die meting dus negeren. Maar wat als de gemeten data opeens heel anders is en blijft; is dan de sensor defect of losgeraakt? Wanneer moeten we concluderen dat de meetwaarden niet meer betrouwbaar zijn? De eindpuntanalyse moet dus logica bevatten om deze mogelijke verstoringen te kunnen herkennen en vervolgens te melden. Een storing in een enkele sensor moet geen tsunami van alarmbellen en systeemwaarschuwingen opleveren die nog meer onzekerheid over de situatie oplevert.

Maar ook moet men er op bedacht zijn dat in sommige situaties opzettelijk een foute meetwaarde wordt uitgelezen. Het door derden infecteren van het technische systeem is een realistisch gevaar. Denk aan hoe het Stuxnet-virus in Iran lange tijd heeft kunnen zorgen dat het systeem verkeerde data gebruikte voor de aansturing van de centrifuges voor het uraniumverrijkingsproces. Het was een worm die zich in het besturingssysteem had genesteld en opzettelijk waarde van de snelheidsensor van de centrifuges veranderde opdat het regelsysteem in de war raakte en schade zou ontstaan. Veel IoT-devices blijken helaas nog steeds weinig of geen bescherming te hebben tegen virussen.

Gedistribueerde analyse
Soms weten we vooraf niet of en hoe we een sensor-node later nader zouden willen analyseren. Op dát moment is gedistribueerde analyse een handige oplossing. We sturen microservices naar de node, voorzien van de nodige analyse-algoritmes om ter plekke datasets te onderzoeken. We laten de microservices die resultaten vervolgens weer mee terugnemen naar een centrale plaats. Zeker als de datastructuur past binnen het Hadoop-file-formaat zijn er intussen werkende oplossingen om op duizenden nodes dit soort gedistribueerde analyses uit te voeren.

Hadoop

Het grote voordeel hiervan is dat de datasets lokaal kunnen blijven en van tevoren ook niet alle mogelijke analysebehoeftes bekend hoeven te zijn. De Dell Technologies-oplossing WWH (World Wide Herd) wordt bijvoorbeeld op die wijze ingezet op geïsoleerde nodes waar patiëntendata is opgeslagen en om compliance-redenen deze privacy-data niet mag worden verplaatst.

Maar ook voor vele IoT-toepassingen is deze gedistribueerde analyse methode efficiënt, zoals bijvoorbeeld bij boorkopmetingen van booreilanden. Op dit moment worden nog grote hoeveelheden data via satellieten verzonden voor analyse naar research-centra. WWH kan op die manier het datatransport drastisch verminderen.

De wereld van cloudcomputing wordt steeds meer gedistribueerd en aan de randen wordt steeds meer beperkte lokale processing- en opslagcapaciteit geplaatst. Denk aan slimme energienetwerken, logistieke knooppunten en communicerende auto’s en slimme huizen en steden. De decentrale cloud kan wel eens honderden zo niet duizenden malen groter worden dan de huidige centrale clouds. Dat is enerzijds veelbelovend, maar stelt ook heel veel extra eisen aan de inrichting, een veilig ontwerp en beveiliging van die slimmer wordende netwerken. Omdat er mede op dit gebied nog weinig opleidingen zijn, is de snel groeiende behoefte aan deskundig IoT-personeel best zorgelijk. Op een tsunami van kwetsbare decentrale cloud-netwerken zit immers niemand te wachten.

About the Author: Hans Timmerman

Hans Timmerman (1953) is als CTO binnen Dell EMC Nederland verantwoordelijk voor de ontwikkeling en verdieping van zowel Dell EMC's lokale business en technology development als voor de bestaande strategische allianties en partnerships. Een groot deel van zijn carrière was Hans werkzaam in de Nederlandse vliegtuigindustrie. Daarna bekleedde hij bij verschillende IT-bedrijven management- en directiefuncties.