Opbouw toponiemendatabase Toponiemen bronnen ging moet deze handeling worden geau tomatiseerd, bijvoorbeeld door aanvullend te zoeken naar toponiemen in de tekst die uitsluitsel kunnen geven (Limburg). Homogenisering Het probleem van verschillende schrijf wijzen heeft meerdere dimensies. Sommige plaatsen hebben meerdere volstrekt verschillende namen (Den Haag, 's-Gravenhage), anderen bevatten alge mene woorden die op verschillende wijzen worden afgekort: Burgemeester Burg. B. of helemaal weggelaten. Daarnaast bestaat nog het probleem van de verschil lende schrijfwijzen van bepaalde letter combinaties (IJsbaanpad /Ysbaanpad). Een veelgebruikte oplossing is tweezijdig homogeniseren. Zowel de toponiemenlijst Fig. 6. Gegeotagde documenten op kaart. als de invoer wordt volgens bepaalde regels gehomogeniseerd en dan pas met elkaar vergeleken. Gebruik van externe diensten Externe diensten als Google en Yahoo placemaker kunnen worden ingezet om het zoeken van toponiemen verder te ver beteren. Wanneer een woord in een tekst niet in de toponiemendatabase voorkomt, kan de hulp van de externe dienst worden ingeroepen. In sommige gevallen biedt dit alsnog resultaat. 3. Geocoding Na het vinden van toponiemen in een tekst moeten deze toponiemen vervol gens worden gekoppeld aan de door zochte teksten. Het resultaat is dat per doorzochte tekst bekend is welke toponie men bij die tekst horen. Hierbij kan even tueel nog een rangorde worden aange bracht in de gevonden toponiemen. Deze rangorde geeft aan hoe representatief of betrouwbaar een bepaald toponiem (en de daaraan gekoppelde locatie) is voor de betreffende tekst. Voor deze rangor dening kunnen verschillende technieken worden gebruikt, zoals clustermethoden en geostatistiek. De rangordening van toponiemen is een complex proces, zeker wanneer er meerdere toponiemen in een stuk tekst worden gevonden. 4. Presenteren van resultaten Nadat het geotaggen van een stuk tekst is voltooid wordt het mogelijk documenten of (RSS-)berichten te vinden op basis van een locatie (regio, wijk, enz.). Omdat van de toponiemen in de tekst tevens de locatie bekend is, kunnen de gevonden documenten en berichten ook worden gevisualiseerd in een digitale kaart (fig. 6). Om RSS-berichten te kunnen tonen op kaart moeten deze na het geotaggen worden omgezet naar Simple GeoRSS (fig. 7), naar GeoRSS op basis van GML of naar GeoJSON-objecten. De toponiemendatabase vormt het hart van het geotaggingproces. Deze data base bevat de toponiemen, synoniemen en andere trefwoorden. Woorden in de ongestructureerde tekst worden steeds vergeleken met de woorden in de toponie mendatabase. Het is dus van belang dat deze database zo compleet mogelijk is. Er zijn diverse bronnen waarmee een toponiemendatabase kan worden opgebouwd.Te denken valt aan de Basisregistratie Adressen en Gebouwen (BAG), bekende Points of Interest (POIs), informatie uit Open Street Maps (OSM) en uit archieven (fig. 8). Om de database verder te verbeteren zul len naast toponiemen ook de bijbehorende synoniemen moeten worden opgeslagen. Een mooi voorbeeld is de Muzentoren in Den Haag, die ook wel De Citruspers wordt genoemd. Het opbouwen van een goede <?xmi version-*""! 0™ encodi ng="utf-8"?> <feed xmlns="bttp//ww.wS org/2öQ5/Atomn xmlns:gecrss="bttpS//www.georssorg/georss <t i tle>Earrhquafces</ti tle» <subti ties-International earthquake observation lab3</snbtitle> <lim href=™http/exampleorg/ <aptdated>2005-12-13T18300 2 Z</updafced> •Sanflior» <name>Dr. Tfoaddetis Remo r nanie> <email>tremor@qaakelabeda</email> authors- <id>arn:raiid: 60a76c80-d399-lld'9-b93C-0003939eQaf id> centry> <title>M 3.2, Mona Passage</fitie> Clink Jiref=™http /exaisple org/2005/09/09/atoia.01"/> <id>urn: uuid:1225c695-cfb8—4ebb-aaaa-80da344efa6a</id> <npdated>2005-03-17T070232Z</updated> summary>We jast had a big one.</snnma.ry> Cgeorss:point>45.256 -7192georss:point> </entry>- </feed> Fig. 7. Simple GeoRSS feed bericht. f,'«un ftntjfn vt.mii f- ,i 7 -wt&w 1 I .sr-3 (7*# MsXrf.» .i «V i Geo-lnfo 2010-1 7

Digitale Tijdschriftenarchief Stichting De Hollandse Cirkel en Geo Informatie Nederland

Geo-Info | 2010 | | pagina 9