THEMA
Veel data over een
beperkt gebied
Attributes
Crop Parcels
Space
2018-4 I Geo-Info
23
Remote Sensing (NDVI|
Soil (1:50.000)
Agricultural Area [AAN)
Crops (BflP)
2017
en of de data geschikt zijn voor het gebruik dat
jij voor ogen hebt. Tijdrovend en complex dus.
Dankzij de beweging naar meer open (overheids)
data zijn meer data beschikbaar. Maar geo-data
heeft zijn eigen specifieke jargon, standaarden,
uitwisselingsformaten en kwaliteitsproblematiek.
Enerzijds zijn dus steeds meer data beschikbaar,
en is er de mogelijkheid om meer informatie te
onttrekken uit bestaande data, bijvoorbeeld door
data te combineren of op nieuwe manieren te
gebruiken. Anderzijds is er een drempel, die in het
geval van geo-data nog een stapje hoger is (meer
hierover is te lezen in de W3C notitie 'Spatial Data
on the Web Best Practices', (www.w3.org/TR/
sdw-bp/#why-are-traditional-sdi-not-enough).
Big Data
Mijn eigenlijke achtergrond is technische informa
tica. Het zal niemand ondertussen zijn ontgaan
dat wij (als beroepsgroep, of in elk geval een deel
ervan) enthousiast zijn over Big Data. Daar kunnen
heel interessante dingen mee worden gedaan,
veelal om software slimmer te maken en om com
puters dingen te laten leren uit veel voorbeeld
data. Dan hoeven we geen kennisregels meer
te programmeren, wat heel tijdrovend is. Goede
en slechte voorbeelden van dergelijke vormen
van machine learning (en deep learning, neural
networks) staan volop in de aandacht. En nog
vaker wordt het in de achtergrond al ruimschoots
toegepast zonder dat we er erg in hebben. Maar
er zijn ook andere vormen en toepassingen van
Big Data. Feitelijk gaat het pas over Big Data als
traditionele IT (Informatie Technologie) niet meer
toereikend is om het te verwerken. Dat kan komen
door de omvang van de data, of omdat het geen
gedeelde nette structuur heeft, of omdat de data
te snel worden geproduceerd om op traditionele
manier te verwerken. Omgang met Big Data vergt
anders denken over de te gebruiken program
meertalen, de software architectuur, de hardware
architectuur en de regels voor het verwerken van
de data. Bij dat laatste gaat het om vragen als: hoe
snel moet een wijziging overal beschikbaar zijn,
hoeveel hardware defecten moet het systeem
tegelijkertijd aankunnen, hoe lang is een gebruiker
bereid te wachten op een antwoord, en hoe goed
en volledig moet dat antwoord minimaal zijn. Dat
alles bij elkaar heet 'Computing at scale'. Uiteraard
is Big Data een glijdende definitie. Wat vroeger Big
Data was, past tegenwoordig op een USB-stick.
En de Big Data van nu, daar lachen we om als
iedereen straks een quantum computer in zijn of
haar smartphone heeft zitten.
Machine Learning
Maar terug naar machine learning. Data voor
dat soort toepassingen heeft vaak de vorm van
Figuur 1 - Schematische inhoud van de AgroDataCube.
multidimensionale arrays van waarden (matrixen).
Dat is prima geschikt om tijdreeksen van rasterdata
op te slaan, dus bijvoorbeeld satellietopnames.
Het geheel wordt vaak een 'datacube' genoemd.
Iedere cel in de datacube representeert een eigen
schap. En ook al heet het een kubus, er kunnen
(veel) meer dan 3 dimensies zijn. Google Earth
Engine en Sentinel-Hub zijn goede voorbeelden
van wat er mogelijk is met een dergelijke datacube
benadering. Een ander goed voorbeeld is het
opendatacube.org initiatief. Daar kun je, als open
source, alle benodigde tools downloaden om je
eigen datacube te maken. Waarschijnlijk maar
een kleintje, want voor een serieuze toepassing
is aardig wat opslag- en rekencapaciteit nodig.
Bijvoorbeeld door een rekencluster in te schakelen,
al dan niet via de bekende 'Cloud'.
AgroDataCube
Voor het ontwikkelen van software voor de
landbouw, met name de precisielandbouw, is het
vaak nodig om een soort datacube met rele
vante gegevens op te bouwen. 'Datacube' in de
breedste zin van het woord. Soms zal het gaan om
een paar eenvoudige invoerbestandjes, soms om
een omvangrijke relationele database. Of om een
complexe architectuur voor real-time verwerking
van alle sensordata uit bijvoorbeeld een oogst-
machine. Specifiek gericht op de problematiek
zoals beschreven in de introductie werken we bij
Wageningen Environmental Research (WENR), met
financiering van het Ministerie van Economische
Zaken en Klimaat, aan de zogenaamde 'AgroDa
taCube'. Een grote dataverzameling op basis van
open data van de overheid en data van de WUR
(Wageningen University Research). Omdat we
niet beschikken over omvangrijke datacentra zoals
Google, beperken we de cube in eerste instantie
tot gegevens over gewaspercelen. Dat is nog te
doen met vectordata en per perceel berekende
attributen, zoals gemiddelde hoogte en standaard
afwijking ervan. In een volgende versie is onge
twijfeld data op sub-perceel niveau nodig, en dan
ligt een aanpak met rasterdata voor de hand. Maar
daar hangt dan een iets groter prijskaartje aan.
Voor nu vormt de teeltregistratie over de periode
2012-2017 de basis van de AgroDataCube, met circa
800.000 percelen per jaar. Naast de geregistreerde
gewassen zijn nog data toegevoegd van 50 KNMI
meteostations (1950 - 2018), diverse bodemken-
merken, hoogte (uit AHN2), en de vegetatie index
(2013 - 2017) per perceel uit de GroenMonitor.nl.
Deze data worden regelmatig aangevuld met de
nieuwste gegevens, zie figuur 1.
Alle data passen momenteel nog in een traditio
nele relationele database (data van enige omvang,
zeker niet 'Big'). Hiervoor maken we gebruik van
Postgresql, samen met PostGIS, voor de onder
steuning van de ruimtelijke data. Daarnaast is
er een webservice gebouwd die het opvragen