Query
zeker van toepassing: het kost zeer veel
Toponiemen
database
Teksten
Pre processing
Geïndexeerde
Teksten
Geep at sing
Geocoding
Geo-verrijkte
Teksten
Selectie op
Basis van
query
Gefilterde
Geo-verrykte
Teksten
Fig. 5. Geotagging proces.
content. Daarbij wordt gebruik gemaakt
van (1) geoparsing, het vinden van
toponiemen in ongestructureerde content
en (2) geocoding, het omzetten van de
gevonden toponiemen naar geotags.
Zoals gezegd is het geotaggen van foto's
en video's relatief eenvoudig. We gaan
hier daarom vooral in op het proces van
geotaggen van documenten en RSS-
berichten (fig. 5)- Hierin worden vier stap
pen onderscheiden: preparatie van ruwe
teksten; geoparsing; geocoding en filteren
en presenteren van resultaten.
1. Preparatie
Allereerst moeten ruwe teksten worden
geprepareerd. Dit betekent dat over
bodige woorden (zoals lidwoorden)
en leestekens (zoals uit de tekst
worden verwijderd. Dit resulteert in een
opgeschoonde en geïndexeerde tekst.
Preparatie van teksten betekent soms ook
dat de tekst wordt uitgebreid. Dat gebeurt
bijvoorbeeld wanneer aan de samenvat
ting van een RSS-item de volledige tekst
wordt toegevoegd waarnaar in het RSS-
item wordt verwezen.
2. Geoparsing
Na de preparatie van een tekst wordt de
geïndexeerde tekst doorzocht op topo
niemen. Daarbij wordt gebruik gemaakt
van een toponiemendatabase (hierover
later meer). In het simpelste geval wordt
ieder woord in een tekst opgezocht in de
toponiemendatabase. Bij meer complexe
methoden wordt ook rekening gehouden
met de context van een woord en de
grammatica van een zin. Ook kan worden
gezocht naar termen die geen toponiemen
zijn, maar wel zijn te herleiden tot een geo
grafische aanduiding. Voorbeelden daarvan
zijn URL's en e-mailadressen, maar ook
gebeurtenissen (Vierdaagse), nieuwsfeiten
(Bijlmerramp) of projectnamen (Betuwelijn).
Het vinden van toponiemen in ongestruc
tureerde tekst is de meest complexe stap
in het geotagging proces. Dit komt omdat
bepaalde woorden meerdere betekenissen
hebben, die soms betrekking hebben op
een geografische locatie. Denk bijvoorbeeld
aan een zin als "Hij speelt hoorn en viool".
Hoorn is een stad maar ook een muziekin
strument. Gelukkig worden toponiemen
vaak met een hoofdletter geschreven, zodat
er een verschil is tussen het instrument
hoorn en de stad Hoorn. In Duitsland werkt
deze methode overigens niet, aangezien
daar alle zelfstandige naamwoorden met
een hoofdletter worden geschreven. Topo
niemen zoeken werkt in verschillende talen
dus op andere manieren.
Veel toponiemen zijn te verwarren met
eigennamen, omdat deze namen vaak zijn
afgeleid van de geografische herkomst
van een persoon (Van Gemert, George
Washington). Het automatisch herken
nen van voorvoegsels of voornamen
voorafgaand aan het toponiem biedt een
oplossing voor dit probleem
Wanneer een woord in een tekst niet direct
wordt gevonden in de toponiemendata
base, dan kan het natuurlijk zijn dat het
geen toponiem is. Maar soms is het ook
een kwestie van beter zoeken. Daartoe
kunnen allerlei slimme methoden worden
toegepast, zoals fuzzy zoeken, proximity
zoeken, disambiguering en homogenise
ring. Wanneer dat allemaal niet helpt, kan
ook nog de hulp van externe zoekdiensten
worden ingeroepen. De 80-20 regel is hier
moeite om de laatste 20% van de toponie
men in een tekst te vinden.
Fuzzy zoeken
Bij 'fuzzy zoeken'wordt gekeken of er bij
wijziging of weglating van een of meer let
ters in een woord treffers worden gevon
den in de toponiemendatabase. Op deze
manier kunnen toch toponiemen worden
gevonden ondanks een licht verschil in
schrijfwijze.
Bij een grote fuzzy tolerance (meer dan een
of twee letters) worden steeds meer gewone
woorden onterecht als toponiem herkend
(zogenaamde'false positives'). Het woord
'remmen'wordt bijvoorbeeld bij een fuzzy
tolerance van een letter'Emmen', 'zwemmen'
wordt bij een tolerance van twee letters
'Emmen'. Fuzzy zoeken leidt soms onbe
doeld ook tot verwisseling van toponiemen.
Zo verschillen Vredestraat en Bredestraat
maar een letter, Amsterdam-Oost en
Amsterdam-West slechts twee letters.
Proximity zoeken
Proximity zoeken maakt gebruik van het
feit dat bepaalde woorden vaker dan
andere woorden worden gevolgd door
een toponiem. Bijvoorbeeld'naar'wordt
vaak gevolgd door een plaatsnaam 'hij
ging naar Amsterdam'. Ook'van xxx naar
yyy'geeft vaak een route aan:'de trein rijdt
van Almelo naar Zwolle'. Wanneer bij het
doorzoeken van teksten rekening wordt
gehouden met proximity, kan het zoekre
sultaat verder worden verbeterd.
Disambiguering
Disambigueren wil zeggen omgaan met ver
schillendetoponiemen met dezelfde naam.
Er zijn minstens drie Valkenburgs in Neder
land. Bijna elk dorp heeft wel een Kerkstraat.
De uitdaging is om hier een oplossing voor
te vinden die geen menselijke interventie
vereist. Normaal gesproken wordt disam
bigueren gedaan door de gebruiker een
lijstje voor te schotelen met mogelijkheden:
"Welke Valkenburg bedoelt U?"Bij geotag-
6 Geo-lnfo 2010-1