Protodata Metadata gaat over iets dat begerenswaardig is, maar is dat zelf niet. Zonder bijbehorende dataset is metadata als de parti tuur van een symfonie zonder deze te kunnen uitvoeren of beluisteren en als de menukaart op de deur van het gesloten restaurant. Het water loopt in de mond en de maag knort. Paul Brous toont in zijn recente MSc. thesis w aan dat er wel 15 soorten problemen zijn bij de productie van metadata en dat die problemen via meer dan 50 relaties verbonden zijn aan zo'n beetje alle kwaliteitsaspecten die Brous hanteert. Zijn con clusie luidt dan ook dat de productie van zinvolle metadata voor geodata een moeilijk, gecompliceerd proces is dat veel planning en expertise vergt. Dit blijkt ook in de praktijk. Er zijn organisaties die volgens eigen onderzoek al meer dan 30 man jaren achterlopen bij de productie van metadata voor hun eigen geodatasets. Mijn eigen knorrende maag stelt nadrukkelijk de vragen: "Kan het effectiever?""En leuker?" Er wordt in het algemeen verondersteld dat metadata nodig is voor drie zaken: vind baarheid van de data discoveryj; informatie krijgen over de data (exploration); en hulp bij het gebruiken van de data exploitationAls er voor een of meer van deze drie zaken een alternatief voorhanden is, kunnen we misschien de groei versnellen van het gebruik van onze datasets en daarmee de waarde beter benutten. Bij het probleem van vindbaarheid is een populair alternatief voorhanden: zoeken. Deze methode wordt in de Van Dale vermeld als goo ge len [goegel e (n)]. Ed Parsons van Google UK verwoordt het als volgt: "Zoeken is het huidige paradigma voor vindbaarheid". Er valt dus veel te winnen door er voor te zorgen dat bij het zoeken op internet de juiste dataset gemak kelijk gevonden kan worden. Voorbeeld: als ik op internet zoek naar de door Balkenende gepopulariseerde 'Natura 2000 gebieden', krijg ik onmiddellijk een uitstekende webpagina met alle informatie over deze dataset zonder dat daar enige formele ISO19115 metadata voor nodig was. Natuurlijk moetje wel ongeveer weten wat je zoekt, maar dat is bij het browsen door metadata niet anders. Ander probleem: wat nu als je data zoekt in de omgeving van Amerongen? Kom ik later op terug. Metadata wordt ook gebruikt om informatie te krijgen over een dataset. Maar in het voornoemde voorbeeld wordt er hoogwaardige informatie over een dataset gegeven zonder dat er sprake is van metadata. Je kunt gebruikers dus blijk baar ook informeren zonder ISO19115 bestanden. Tenslotte wordt metadata gebruikt bij het gebruik van de dataset zelf. Veel meta-informatie die nodig is bij het gebruik van een dataset, zoals het gehanteerde ruimtelijk referentiesysteem, zou echter ook wel kunnen worden vastgelegd in de dataset zelf, wat in veel gevallen ook al gebeurt. Meteen te gebruiken door het ontvangende systeem en archiefwaardig. In het voornoemde voorbeeld heb ik uiteindelijk geen dataset kunnen vinden. Ook niet door naar deze datasets te zoeken in het Nationaal Georegister. Die verwijst via een metadata- element weer terug naar de door mij al eerder gevonden webpagina. De oplossing bleek: direct contact met LNV en een tijdelijk FTP-account. Maar dat is dus onzichtbaar voor welke zoekmachine dan ook. De knorrende maag is dus niet te wijten aan de vindbaarheid en bruikbaarheid van de data, maar de ontbrekende beschikbaarheid. Kortom, metadata zonder data. Laten we onmiddellijk beginnen met het maken van wat ik -als tegenstelling van metadata- maar even noem'protodata': het publiceren van beschikbare data op internet. Het werkt eenvoudig. Iedere dataset die geleverd kan worden, wordt beschikbaar gesteld op een vaste URL op internet. Vervolgens wordt de data beschreven op een mooie webpagina die indexeerbaar is door zoekmachines. Als het publiceren van de protodata niet mogelijk lijkt, denk dan eerst na waarom eigen lijk niet. Vaak is daar geen goede reden voor. Tim Berners-Lee noemt dit in een aanbevelenswaardige lezing'21 database hugging. We omhelzen de data en willen deze niet loslaten. Vele excuses worden aangedragen om de data niet beschik baar te hoeven stellen. Terugkomend op de zoekopdracht voor data rond Ameron gen: met de protodata in handen kan deze vraag toch veel nauwkeuriger worden beantwoord dan met de rechthoekige bounding box in de metadata? Bij Natura 2000 gaat het om het gebied Uiterwaarden Neder-Rijn: rivieren met slikoevers en laaggelegen schraal hooiland. Dit zoekresultaat met één muisklik? Kwestie van implementeren. Op 22 januari was het Nationaal Georegister gevuld met 698 metadatasets maar met slechts 66 verwijzingen naar beschikbare protodata. Noblesse oblige. De keuken is geopend, muziek graag! 1 www.msc-gima.nl/uploads/theses/sdi/MSc_GIMA_2009_Paul_Brous.pdf 2 www.ted.com/talks/tim_berners_lee_on_the_next_web.html Geo-lnfo 2010-3 37

Digitale Tijdschriftenarchief Stichting De Hollandse Cirkel en Geo Informatie Nederland

Geo-Info | 2010 | | pagina 39