Opbouw toponiemendatabase
Toponiemen bronnen
ging moet deze handeling worden geau
tomatiseerd, bijvoorbeeld door aanvullend
te zoeken naar toponiemen in de tekst die
uitsluitsel kunnen geven (Limburg).
Homogenisering
Het probleem van verschillende schrijf
wijzen heeft meerdere dimensies.
Sommige plaatsen hebben meerdere
volstrekt verschillende namen (Den Haag,
's-Gravenhage), anderen bevatten alge
mene woorden die op verschillende wijzen
worden afgekort: Burgemeester Burg.
B. of helemaal weggelaten. Daarnaast
bestaat nog het probleem van de verschil
lende schrijfwijzen van bepaalde letter
combinaties (IJsbaanpad /Ysbaanpad).
Een veelgebruikte oplossing is tweezijdig
homogeniseren. Zowel de toponiemenlijst
Fig. 6. Gegeotagde documenten op kaart.
als de invoer wordt volgens bepaalde
regels gehomogeniseerd en dan pas met
elkaar vergeleken.
Gebruik van externe diensten
Externe diensten als Google en Yahoo
placemaker kunnen worden ingezet om
het zoeken van toponiemen verder te ver
beteren. Wanneer een woord in een tekst
niet in de toponiemendatabase voorkomt,
kan de hulp van de externe dienst worden
ingeroepen. In sommige gevallen biedt dit
alsnog resultaat.
3. Geocoding
Na het vinden van toponiemen in een
tekst moeten deze toponiemen vervol
gens worden gekoppeld aan de door
zochte teksten. Het resultaat is dat per
doorzochte tekst bekend is welke toponie
men bij die tekst horen. Hierbij kan even
tueel nog een rangorde worden aange
bracht in de gevonden toponiemen. Deze
rangorde geeft aan hoe representatief of
betrouwbaar een bepaald toponiem (en
de daaraan gekoppelde locatie) is voor
de betreffende tekst. Voor deze rangor
dening kunnen verschillende technieken
worden gebruikt, zoals clustermethoden
en geostatistiek. De rangordening van
toponiemen is een complex proces, zeker
wanneer er meerdere toponiemen in een
stuk tekst worden gevonden.
4. Presenteren van resultaten
Nadat het geotaggen van een stuk tekst is
voltooid wordt het mogelijk documenten
of (RSS-)berichten te vinden op basis van
een locatie (regio, wijk, enz.). Omdat van
de toponiemen in de tekst tevens de
locatie bekend is, kunnen de gevonden
documenten en berichten ook worden
gevisualiseerd in een digitale kaart (fig. 6).
Om RSS-berichten te kunnen tonen op
kaart moeten deze na het geotaggen
worden omgezet naar Simple GeoRSS
(fig. 7), naar GeoRSS op basis van GML of
naar GeoJSON-objecten.
De toponiemendatabase vormt het hart
van het geotaggingproces. Deze data
base bevat de toponiemen, synoniemen
en andere trefwoorden. Woorden in de
ongestructureerde tekst worden steeds
vergeleken met de woorden in de toponie
mendatabase. Het is dus van belang dat
deze database zo compleet mogelijk is.
Er zijn diverse bronnen waarmee een
toponiemendatabase kan worden
opgebouwd.Te denken valt aan de
Basisregistratie Adressen en Gebouwen
(BAG), bekende Points of Interest (POIs),
informatie uit Open Street Maps (OSM) en
uit archieven (fig. 8).
Om de database verder te verbeteren zul
len naast toponiemen ook de bijbehorende
synoniemen moeten worden opgeslagen.
Een mooi voorbeeld is de Muzentoren in
Den Haag, die ook wel De Citruspers wordt
genoemd. Het opbouwen van een goede
<?xmi version-*""! 0™ encodi ng="utf-8"?>
<feed xmlns="bttp//ww.wS org/2öQ5/Atomn
xmlns:gecrss="bttpS//www.georssorg/georss
<t i tle>Earrhquafces</ti tle»
<subti ties-International earthquake observation lab3</snbtitle>
<lim href=™http/exampleorg/
<aptdated>2005-12-13T18300 2 Z</updafced>
•Sanflior»
<name>Dr. Tfoaddetis Remo r nanie>
<email>tremor@qaakelabeda</email>
authors-
<id>arn:raiid: 60a76c80-d399-lld'9-b93C-0003939eQaf id>
centry>
<title>M 3.2, Mona Passage</fitie>
Clink Jiref=™http /exaisple org/2005/09/09/atoia.01"/>
<id>urn: uuid:1225c695-cfb8—4ebb-aaaa-80da344efa6a</id>
<npdated>2005-03-17T070232Z</updated>
summary>We jast had a big one.</snnma.ry>
Cgeorss:point>45.256 -7192georss:point>
</entry>-
</feed>
Fig. 7. Simple GeoRSS feed bericht.
f,'«un ftntjfn vt.mii
f- ,i
7 -wt&w 1
I .sr-3 (7*# MsXrf.» .i «V i
Geo-lnfo 2010-1 7