Science nieuws! Om klimaatgegevens goed te begrijpen moet je ze "zippen". Steven Weijs toonde aan dat je de hoeveelheid informatie in een meetserie prima kan bepalen door het bestand van die meetserie "in te pakken". Steven1 realiseerde zich dat als winZip in staat is om een serie van 1000 meetgegeven in een bestand van slechts 200 bytes op te slaan, er blijkbaar maar 200 stuks informatie in de meetgegevens zit.
Maar wat is informatie dan? Even een voorbeeld: Stel je hebt een linaal met alleen centimeters en je meet de lengte van je kind elk uur2. De meetserie ziet er dan waarschijnlijk uit als een flink aantal keer "55cm", gevolgd door een aantal keer "56cm", etc. Dat kan je opslaan als 55 55 55 55 55 55 55 55 55 56 56 56 56 56 56 56 etc, maar ook als 9x55 7x56. In het eerste geval heb je voor 16 meetpunten 16 bytes computer geheugen nodig, in het tweede geval slechts 4. Die 4 bytes zijn de informatie die in de 16 bytes aan gegevens (data) verstopt zit.
Weten hoeveel informatie er in meetgegevens zit is belangrijk om de toekomst te voorspellen. Het 17de getal in de voorbeeld-set van kinderlengtes is makkellijker te voorspellen dan bij deze set van 16 willekeurige meetgegevens: 53 51 51 59 57 54 60 51 55 54 58 58 52 55 55 57.
Het efficienter opslaan van gegevens is precies wat compressie-technieken zoals winZip doen. Steven heeft aangetoond dat de gezipte bestandsgrote een hele goede maat blijkt te zijn voor de hoeveelheid informatie in een verzameling meetgegevens3. Kijken naar de bestandgrote van geZipte klimaatgegevens helpt dus beter het klimaar voorspellen!
Ik krijg vaak het label MacGyver-wetenschapper, een titel die wat mij betreft minstens net zo goed voor Steven geldt. Niet alleen omdat hij t-shirts met NE555 schakelingen draagt, maar omdat hij winZip, bedoeld als kantoor-software, gebruikt om de wereld beter te begrijpen!
1Met wie ik ooit aan een Wii sleutelde
2Vrij recent toepasselijk geworden voor Steven, en sinds 3 maanden voor mij.
3De wiskundige Shannon, grondlegger van "de informatie-theory" heeft afgeleid hoe je wiskundig kan bepalen hoeveel informatie er in een verzameling gegevens zit.