Protodata
Metadata gaat over iets dat begerenswaardig is, maar is dat
zelf niet. Zonder bijbehorende dataset is metadata als de parti
tuur van een symfonie zonder deze te kunnen uitvoeren of
beluisteren en als de menukaart op de deur van het gesloten
restaurant. Het water loopt in de mond en de maag knort.
Paul Brous toont in zijn recente MSc. thesis w aan dat er wel
15 soorten problemen zijn bij de productie van metadata en
dat die problemen via meer dan 50 relaties verbonden zijn aan
zo'n beetje alle kwaliteitsaspecten die Brous hanteert. Zijn con
clusie luidt dan ook dat de productie van zinvolle metadata
voor geodata een moeilijk, gecompliceerd proces is dat veel
planning en expertise vergt. Dit blijkt ook in de praktijk. Er zijn
organisaties die volgens eigen onderzoek al meer dan 30 man
jaren achterlopen bij de productie van metadata voor hun
eigen geodatasets.
Mijn eigen knorrende maag stelt nadrukkelijk de vragen:
"Kan het effectiever?""En leuker?" Er wordt in het algemeen
verondersteld dat metadata nodig is voor drie zaken: vind
baarheid van de data discoveryj; informatie krijgen over de
data (exploration); en hulp bij het gebruiken van de data
exploitationAls er voor een of meer van deze drie zaken
een alternatief voorhanden is, kunnen we misschien de groei
versnellen van het gebruik van onze datasets en daarmee de
waarde beter benutten.
Bij het probleem van vindbaarheid is een populair alternatief
voorhanden: zoeken. Deze methode wordt in de Van Dale
vermeld als goo ge len [goegel e (n)]. Ed Parsons van Google
UK verwoordt het als volgt: "Zoeken is het huidige paradigma
voor vindbaarheid". Er valt dus veel te winnen door er voor te
zorgen dat bij het zoeken op internet de juiste dataset gemak
kelijk gevonden kan worden. Voorbeeld: als ik op internet
zoek naar de door Balkenende gepopulariseerde 'Natura 2000
gebieden', krijg ik onmiddellijk een uitstekende webpagina
met alle informatie over deze dataset zonder dat daar enige
formele ISO19115 metadata voor nodig was. Natuurlijk moetje
wel ongeveer weten wat je zoekt, maar dat is bij het browsen
door metadata niet anders. Ander probleem: wat nu als je data
zoekt in de omgeving van Amerongen? Kom ik later op terug.
Metadata wordt ook gebruikt om informatie te krijgen over
een dataset. Maar in het voornoemde voorbeeld wordt er
hoogwaardige informatie over een dataset gegeven zonder
dat er sprake is van metadata. Je kunt gebruikers dus blijk
baar ook informeren zonder ISO19115 bestanden. Tenslotte
wordt metadata gebruikt bij het gebruik van de dataset zelf.
Veel meta-informatie die nodig is bij het gebruik van een
dataset, zoals het gehanteerde ruimtelijk referentiesysteem,
zou echter ook wel kunnen worden vastgelegd in de dataset
zelf, wat in veel gevallen ook al gebeurt. Meteen te gebruiken
door het ontvangende systeem en archiefwaardig.
In het voornoemde voorbeeld heb ik uiteindelijk geen dataset
kunnen vinden. Ook niet door naar deze datasets te zoeken
in het Nationaal Georegister. Die verwijst via een metadata-
element weer terug naar de door mij al eerder gevonden
webpagina. De oplossing bleek: direct contact met LNV en een
tijdelijk FTP-account. Maar dat is dus onzichtbaar voor welke
zoekmachine dan ook. De knorrende maag is dus niet te wijten
aan de vindbaarheid en bruikbaarheid van de data, maar de
ontbrekende beschikbaarheid. Kortom, metadata zonder data.
Laten we onmiddellijk beginnen met het maken van wat ik
-als tegenstelling van metadata- maar even noem'protodata':
het publiceren van beschikbare data op internet. Het werkt
eenvoudig. Iedere dataset die geleverd kan worden, wordt
beschikbaar gesteld op een vaste URL op internet. Vervolgens
wordt de data beschreven op een mooie webpagina die
indexeerbaar is door zoekmachines. Als het publiceren van de
protodata niet mogelijk lijkt, denk dan eerst na waarom eigen
lijk niet. Vaak is daar geen goede reden voor. Tim Berners-Lee
noemt dit in een aanbevelenswaardige lezing'21 database
hugging. We omhelzen de data en willen deze niet loslaten.
Vele excuses worden aangedragen om de data niet beschik
baar te hoeven stellen.
Terugkomend op de zoekopdracht voor data rond Ameron
gen: met de protodata in handen kan deze vraag toch veel
nauwkeuriger worden beantwoord dan met de rechthoekige
bounding box in de metadata? Bij Natura 2000 gaat het om
het gebied Uiterwaarden Neder-Rijn: rivieren met slikoevers
en laaggelegen schraal hooiland. Dit zoekresultaat met één
muisklik? Kwestie van implementeren.
Op 22 januari was het Nationaal Georegister gevuld met
698 metadatasets maar met slechts 66 verwijzingen naar
beschikbare protodata. Noblesse oblige. De keuken is
geopend, muziek graag!
1 www.msc-gima.nl/uploads/theses/sdi/MSc_GIMA_2009_Paul_Brous.pdf
2 www.ted.com/talks/tim_berners_lee_on_the_next_web.html
Geo-lnfo 2010-3 37