Geo-Info | 1 augustus 2018 | pagina 25 - Digitale Tijdschriftenarchief Stichting De Hollandse Cirkel en Geo Informatie Nederland

THEMA Veel data over een beperkt gebied Attributes Crop Parcels Space 2018-4 I Geo-Info 23 Remote Sensing (NDVI| Soil (1:50.000) Agricultural Area [AAN) Crops (BflP) 2017 en of de data geschikt zijn voor het gebruik dat jij voor ogen hebt. Tijdrovend en complex dus. Dankzij de beweging naar meer open (overheids) data zijn meer data beschikbaar. Maar geo-data heeft zijn eigen specifieke jargon, standaarden, uitwisselingsformaten en kwaliteitsproblematiek. Enerzijds zijn dus steeds meer data beschikbaar, en is er de mogelijkheid om meer informatie te onttrekken uit bestaande data, bijvoorbeeld door data te combineren of op nieuwe manieren te gebruiken. Anderzijds is er een drempel, die in het geval van geo-data nog een stapje hoger is (meer hierover is te lezen in de W3C notitie 'Spatial Data on the Web Best Practices', (www.w3.org/TR/ sdw-bp/#why-are-traditional-sdi-not-enough). Big Data Mijn eigenlijke achtergrond is technische informa tica. Het zal niemand ondertussen zijn ontgaan dat wij (als beroepsgroep, of in elk geval een deel ervan) enthousiast zijn over Big Data. Daar kunnen heel interessante dingen mee worden gedaan, veelal om software slimmer te maken en om com puters dingen te laten leren uit veel voorbeeld data. Dan hoeven we geen kennisregels meer te programmeren, wat heel tijdrovend is. Goede en slechte voorbeelden van dergelijke vormen van machine learning (en deep learning, neural networks) staan volop in de aandacht. En nog vaker wordt het in de achtergrond al ruimschoots toegepast zonder dat we er erg in hebben. Maar er zijn ook andere vormen en toepassingen van Big Data. Feitelijk gaat het pas over Big Data als traditionele IT (Informatie Technologie) niet meer toereikend is om het te verwerken. Dat kan komen door de omvang van de data, of omdat het geen gedeelde nette structuur heeft, of omdat de data te snel worden geproduceerd om op traditionele manier te verwerken. Omgang met Big Data vergt anders denken over de te gebruiken program meertalen, de software architectuur, de hardware architectuur en de regels voor het verwerken van de data. Bij dat laatste gaat het om vragen als: hoe snel moet een wijziging overal beschikbaar zijn, hoeveel hardware defecten moet het systeem tegelijkertijd aankunnen, hoe lang is een gebruiker bereid te wachten op een antwoord, en hoe goed en volledig moet dat antwoord minimaal zijn. Dat alles bij elkaar heet 'Computing at scale'. Uiteraard is Big Data een glijdende definitie. Wat vroeger Big Data was, past tegenwoordig op een USB-stick. En de Big Data van nu, daar lachen we om als iedereen straks een quantum computer in zijn of haar smartphone heeft zitten. Machine Learning Maar terug naar machine learning. Data voor dat soort toepassingen heeft vaak de vorm van Figuur 1 - Schematische inhoud van de AgroDataCube. multidimensionale arrays van waarden (matrixen). Dat is prima geschikt om tijdreeksen van rasterdata op te slaan, dus bijvoorbeeld satellietopnames. Het geheel wordt vaak een 'datacube' genoemd. Iedere cel in de datacube representeert een eigen schap. En ook al heet het een kubus, er kunnen (veel) meer dan 3 dimensies zijn. Google Earth Engine en Sentinel-Hub zijn goede voorbeelden van wat er mogelijk is met een dergelijke datacube benadering. Een ander goed voorbeeld is het opendatacube.org initiatief. Daar kun je, als open source, alle benodigde tools downloaden om je eigen datacube te maken. Waarschijnlijk maar een kleintje, want voor een serieuze toepassing is aardig wat opslag- en rekencapaciteit nodig. Bijvoorbeeld door een rekencluster in te schakelen, al dan niet via de bekende 'Cloud'. AgroDataCube Voor het ontwikkelen van software voor de landbouw, met name de precisielandbouw, is het vaak nodig om een soort datacube met rele vante gegevens op te bouwen. 'Datacube' in de breedste zin van het woord. Soms zal het gaan om een paar eenvoudige invoerbestandjes, soms om een omvangrijke relationele database. Of om een complexe architectuur voor real-time verwerking van alle sensordata uit bijvoorbeeld een oogst- machine. Specifiek gericht op de problematiek zoals beschreven in de introductie werken we bij Wageningen Environmental Research (WENR), met financiering van het Ministerie van Economische Zaken en Klimaat, aan de zogenaamde 'AgroDa taCube'. Een grote dataverzameling op basis van open data van de overheid en data van de WUR (Wageningen University Research). Omdat we niet beschikken over omvangrijke datacentra zoals Google, beperken we de cube in eerste instantie tot gegevens over gewaspercelen. Dat is nog te doen met vectordata en per perceel berekende attributen, zoals gemiddelde hoogte en standaard afwijking ervan. In een volgende versie is onge twijfeld data op sub-perceel niveau nodig, en dan ligt een aanpak met rasterdata voor de hand. Maar daar hangt dan een iets groter prijskaartje aan. Voor nu vormt de teeltregistratie over de periode 2012-2017 de basis van de AgroDataCube, met circa 800.000 percelen per jaar. Naast de geregistreerde gewassen zijn nog data toegevoegd van 50 KNMI meteostations (1950 - 2018), diverse bodemken- merken, hoogte (uit AHN2), en de vegetatie index (2013 - 2017) per perceel uit de GroenMonitor.nl. Deze data worden regelmatig aangevuld met de nieuwste gegevens, zie figuur 1. Alle data passen momenteel nog in een traditio nele relationele database (data van enige omvang, zeker niet 'Big'). Hiervoor maken we gebruik van Postgresql, samen met PostGIS, voor de onder steuning van de ruimtelijke data. Daarnaast is er een webservice gebouwd die het opvragen

Vorige Volgende