Geo-Info | 1 september 2012 | pagina 20 - Digitale Tijdschriftenarchief Stichting De Hollandse Cirkel en Geo Informatie Nederland

B .,#lr 4^.:^ .H $3Sa TBS" S!lï airnuia is^kï*«'>08 ^ïrt"' iSLiff? sff Effl ?<tf (KEK;* DO51:10» i. ■:C-;:':-3 =).-.•• ,s lOwJfóftnfrQrê Dl^au'J 20 Jlotrni sflo ^y-.-ïfwa^ r"Pr''x 'ïJp cub! Fig. i op een kaart gezet zodat er een informeel beeld ontstaat van de radioactiviteit (zie: http://alterra0125s.wur.nl/sievert/ en figuur 1Hetzelfde principe werd toegepast door Jappe Franke van Wage- ningen UR Alterra tijdens de Elfsteden tocht hype begin 2012. Via tweets konden mensen ijsdikten en andere schaats- gerelateerde evenementen doorgeven die vervolgens automatisch in een webmap werden geprojecteerd (zie: http://alterra0125s.wur.nl/schaatskaart/). Dit zijn slechts enkele voorbeelden waarbij social media gebruiker ingezet worden als actieve sensors voor het verzamelen van geo-informatie. Detectie van ruimtelijke events Centraal in deze studie stond de vraag: kun nen we ruimtelijke gelokaliseerde events automatisch signaleren via Twitter? De twee belangrijkste problemen die we hier tegen kwamen waren: 1) hoe kunnen we events onderscheiden van algemene berichten over locaties in (semi) real-time en 2) hoe kunnen we deze geo-refereren uitgaande van het gegeven dat 99% van de tweets geen expliciete geo-referentie heeft? Om events automatisch te kunnen sig naleren in real-time zijn er verschillende technieken toe te passen gebaseerd op data-mining of machine learning bena deringen. Het probleem ligt met name in de real-time verwerking van een grote, continue, berichtenstroom. Vanuit een dataperspectief zijn er snelle en lichte incrementele methoden en algoritmen nodig die zich eenvoudig aanpassen aan een variërende datastroom. Een veel gebruikte techniek die geschikt is voor incrementele analyse van streaming data is het'sliding window model'(zie figuur 2). Het idee is dat alleen de data binnen het'sliding window'wordt opgeslagen in het computer geheugen en wordt geanalyseerd. De grootte van het'window' is afhankelijk van de omvang van de datastroom. Een te groot window en een grote datastroom leidt tot verstopping en verlies van performance; bij een te klein window zullen specifieke events niet meer waargenomen kunnen worden. Voor het detecteren van de daadwerke lijke events is een windowing methode ontwikkeld van vier stappen: 1) vaststellen of een tweet ruimtelijk informatie bevat; 2) het detecteren of deze ruimtelijke tweet emergente (nieuwe) termen bevat; 3) het clusteren van deze termen; 4) het identifi ceren van ruimtelijke trending events. In de eerste stap wordt voor iedere tweet gekeken of deze een geografische referen tie heeft. Een matching algoritme verge lijkt termen in de tweets real-time met een plaatsnamentabel die via een snel toegankelijke datastructuur is opgeslagen in het werkgeheugen van de computer. Vervolgens worden de sets met emer gente termen gedetecteerd. Hiervoor wordt gebruik gemaakt van een techniek gebaseerd op het BurstT algoritme. Dit algoritme gaat uit van het principe dat veel voorkomende termen (als functie van de'arrival rate'en de waarschijnlijk heid dat een term voorkomt) een hoger gewicht krijgen. Emergente termen worden opgeslagen om in de volgende stap te kunnen worden gecategoriseerd in clusters. Clustering is meestal geba seerd door de'afstand'tussen termen te berekenen. Deze afstand kan van alles zijn. In de literatuur zijn vele verschil lende algoritmes bekend variërend zoals het simpele het K-mean of State Vector Machines (SVM) of meer geavanceerde technieken zoals Latent Semantic Analysis (LSA). Deze algoritmes bleken echter niet geschikt voor real-time processing van de Twitter stream. Gekozen is daarom voor de ontwikkeling van een algoritme geba seerd op het werk van Ruthven en Lalmas (2003)- Clusters die met deze methode worden samengesteld zijn gebaseerd op de afstanden tussen een emergente term en termen die hiermee samenhangen. Na het clusteren van emergente termen is de volgende stap om de trending events en hun locaties vast te stellen. Trending events is een lijst van tweets die meest relevant zijn voor de emerging terms op een behaalde locatie. De relevantie is vastgesteld op basis van het aantal termen gemeenschappelijk met termen in een cluster. Figuur 3 geeft de architectuur zoals deze is uitgewerkt in software. De vier boven staande stappen zijn geïmplementeerd als server side subsystemen. Daaraan zijn een aantal web services gekoppeld om een en ander toegankelijk te maken voor clients en een database voor opslag van relevante events voor latere analyse. Het geheel is geprogrammeerd in JAVA met gebruikma king van de Twitter streaming API. Het systeem is toegepast in een aantal case studies waarin de performance van het systeem is getest voor een aantal bekende evenementen. Deze waren deTT-Assen, Bevrijdingsdag 2012 en de Euro 2012 voetbalwedstrijd Nederland-Duitsland. Uit de resultaten bleek dat het systeem goed presteert in het onderscheiden van veel voorkomende'gewone'termen zoals 'de'en'RT'(Twitter jargon voor Retweet) en daadwerkelijke events. De identificatie van cdfl* Fig. 2 18 Geo-lnfo 2012-9

Vorige Volgende