Query zeker van toepassing: het kost zeer veel Toponiemen database Teksten Pre processing Geïndexeerde Teksten Geep at sing Geocoding Geo-verrijkte Teksten Selectie op Basis van query Gefilterde Geo-verrykte Teksten Fig. 5. Geotagging proces. content. Daarbij wordt gebruik gemaakt van (1) geoparsing, het vinden van toponiemen in ongestructureerde content en (2) geocoding, het omzetten van de gevonden toponiemen naar geotags. Zoals gezegd is het geotaggen van foto's en video's relatief eenvoudig. We gaan hier daarom vooral in op het proces van geotaggen van documenten en RSS- berichten (fig. 5)- Hierin worden vier stap pen onderscheiden: preparatie van ruwe teksten; geoparsing; geocoding en filteren en presenteren van resultaten. 1. Preparatie Allereerst moeten ruwe teksten worden geprepareerd. Dit betekent dat over bodige woorden (zoals lidwoorden) en leestekens (zoals uit de tekst worden verwijderd. Dit resulteert in een opgeschoonde en geïndexeerde tekst. Preparatie van teksten betekent soms ook dat de tekst wordt uitgebreid. Dat gebeurt bijvoorbeeld wanneer aan de samenvat ting van een RSS-item de volledige tekst wordt toegevoegd waarnaar in het RSS- item wordt verwezen. 2. Geoparsing Na de preparatie van een tekst wordt de geïndexeerde tekst doorzocht op topo niemen. Daarbij wordt gebruik gemaakt van een toponiemendatabase (hierover later meer). In het simpelste geval wordt ieder woord in een tekst opgezocht in de toponiemendatabase. Bij meer complexe methoden wordt ook rekening gehouden met de context van een woord en de grammatica van een zin. Ook kan worden gezocht naar termen die geen toponiemen zijn, maar wel zijn te herleiden tot een geo grafische aanduiding. Voorbeelden daarvan zijn URL's en e-mailadressen, maar ook gebeurtenissen (Vierdaagse), nieuwsfeiten (Bijlmerramp) of projectnamen (Betuwelijn). Het vinden van toponiemen in ongestruc tureerde tekst is de meest complexe stap in het geotagging proces. Dit komt omdat bepaalde woorden meerdere betekenissen hebben, die soms betrekking hebben op een geografische locatie. Denk bijvoorbeeld aan een zin als "Hij speelt hoorn en viool". Hoorn is een stad maar ook een muziekin strument. Gelukkig worden toponiemen vaak met een hoofdletter geschreven, zodat er een verschil is tussen het instrument hoorn en de stad Hoorn. In Duitsland werkt deze methode overigens niet, aangezien daar alle zelfstandige naamwoorden met een hoofdletter worden geschreven. Topo niemen zoeken werkt in verschillende talen dus op andere manieren. Veel toponiemen zijn te verwarren met eigennamen, omdat deze namen vaak zijn afgeleid van de geografische herkomst van een persoon (Van Gemert, George Washington). Het automatisch herken nen van voorvoegsels of voornamen voorafgaand aan het toponiem biedt een oplossing voor dit probleem Wanneer een woord in een tekst niet direct wordt gevonden in de toponiemendata base, dan kan het natuurlijk zijn dat het geen toponiem is. Maar soms is het ook een kwestie van beter zoeken. Daartoe kunnen allerlei slimme methoden worden toegepast, zoals fuzzy zoeken, proximity zoeken, disambiguering en homogenise ring. Wanneer dat allemaal niet helpt, kan ook nog de hulp van externe zoekdiensten worden ingeroepen. De 80-20 regel is hier moeite om de laatste 20% van de toponie men in een tekst te vinden. Fuzzy zoeken Bij 'fuzzy zoeken'wordt gekeken of er bij wijziging of weglating van een of meer let ters in een woord treffers worden gevon den in de toponiemendatabase. Op deze manier kunnen toch toponiemen worden gevonden ondanks een licht verschil in schrijfwijze. Bij een grote fuzzy tolerance (meer dan een of twee letters) worden steeds meer gewone woorden onterecht als toponiem herkend (zogenaamde'false positives'). Het woord 'remmen'wordt bijvoorbeeld bij een fuzzy tolerance van een letter'Emmen', 'zwemmen' wordt bij een tolerance van twee letters 'Emmen'. Fuzzy zoeken leidt soms onbe doeld ook tot verwisseling van toponiemen. Zo verschillen Vredestraat en Bredestraat maar een letter, Amsterdam-Oost en Amsterdam-West slechts twee letters. Proximity zoeken Proximity zoeken maakt gebruik van het feit dat bepaalde woorden vaker dan andere woorden worden gevolgd door een toponiem. Bijvoorbeeld'naar'wordt vaak gevolgd door een plaatsnaam 'hij ging naar Amsterdam'. Ook'van xxx naar yyy'geeft vaak een route aan:'de trein rijdt van Almelo naar Zwolle'. Wanneer bij het doorzoeken van teksten rekening wordt gehouden met proximity, kan het zoekre sultaat verder worden verbeterd. Disambiguering Disambigueren wil zeggen omgaan met ver schillendetoponiemen met dezelfde naam. Er zijn minstens drie Valkenburgs in Neder land. Bijna elk dorp heeft wel een Kerkstraat. De uitdaging is om hier een oplossing voor te vinden die geen menselijke interventie vereist. Normaal gesproken wordt disam bigueren gedaan door de gebruiker een lijstje voor te schotelen met mogelijkheden: "Welke Valkenburg bedoelt U?"Bij geotag- 6 Geo-lnfo 2010-1

Digitale Tijdschriftenarchief Stichting De Hollandse Cirkel en Geo Informatie Nederland

Geo-Info | 2010 | | pagina 8