B
.,#lr 4^.:^
.H
$3Sa
TBS" S!lï
airnuia is^kï*«'>08
^ïrt"'
iSLiff?
sff
Effl
?<tf (KEK;*
DO51:10» i. ■:C-;:':-3 =).-.•• ,s
lOwJfóftnfrQrê Dl^au'J 20 Jlotrni
sflo ^y-.-ïfwa^
r"Pr''x 'ïJp cub!
Fig. i
op een kaart gezet zodat er een informeel
beeld ontstaat van de radioactiviteit
(zie: http://alterra0125s.wur.nl/sievert/
en figuur 1Hetzelfde principe werd
toegepast door Jappe Franke van Wage-
ningen UR Alterra tijdens de Elfsteden
tocht hype begin 2012. Via tweets konden
mensen ijsdikten en andere schaats-
gerelateerde evenementen doorgeven
die vervolgens automatisch in een
webmap werden geprojecteerd (zie:
http://alterra0125s.wur.nl/schaatskaart/).
Dit zijn slechts enkele voorbeelden
waarbij social media gebruiker ingezet
worden als actieve sensors voor het
verzamelen van geo-informatie.
Detectie van ruimtelijke events
Centraal in deze studie stond de vraag: kun
nen we ruimtelijke gelokaliseerde events
automatisch signaleren via Twitter? De twee
belangrijkste problemen die we hier tegen
kwamen waren: 1) hoe kunnen we events
onderscheiden van algemene berichten
over locaties in (semi) real-time en 2) hoe
kunnen we deze geo-refereren uitgaande
van het gegeven dat 99% van de tweets
geen expliciete geo-referentie heeft?
Om events automatisch te kunnen sig
naleren in real-time zijn er verschillende
technieken toe te passen gebaseerd op
data-mining of machine learning bena
deringen. Het probleem ligt met name in
de real-time verwerking van een grote,
continue, berichtenstroom. Vanuit een
dataperspectief zijn er snelle en lichte
incrementele methoden en algoritmen
nodig die zich eenvoudig aanpassen
aan een variërende datastroom. Een veel
gebruikte techniek die geschikt is voor
incrementele analyse van streaming data
is het'sliding window model'(zie figuur 2).
Het idee is dat alleen de data binnen
het'sliding window'wordt opgeslagen
in het computer geheugen en wordt
geanalyseerd. De grootte van het'window'
is afhankelijk van de omvang van de
datastroom. Een te groot window en een
grote datastroom leidt tot verstopping en
verlies van performance; bij een te klein
window zullen specifieke events niet meer
waargenomen kunnen worden.
Voor het detecteren van de daadwerke
lijke events is een windowing methode
ontwikkeld van vier stappen: 1) vaststellen
of een tweet ruimtelijk informatie bevat;
2) het detecteren of deze ruimtelijke tweet
emergente (nieuwe) termen bevat; 3) het
clusteren van deze termen; 4) het identifi
ceren van ruimtelijke trending events.
In de eerste stap wordt voor iedere tweet
gekeken of deze een geografische referen
tie heeft. Een matching algoritme verge
lijkt termen in de tweets real-time met
een plaatsnamentabel die via een snel
toegankelijke datastructuur is opgeslagen
in het werkgeheugen van de computer.
Vervolgens worden de sets met emer
gente termen gedetecteerd. Hiervoor
wordt gebruik gemaakt van een techniek
gebaseerd op het BurstT algoritme.
Dit algoritme gaat uit van het principe
dat veel voorkomende termen (als functie
van de'arrival rate'en de waarschijnlijk
heid dat een term voorkomt) een hoger
gewicht krijgen. Emergente termen
worden opgeslagen om in de volgende
stap te kunnen worden gecategoriseerd
in clusters. Clustering is meestal geba
seerd door de'afstand'tussen termen te
berekenen. Deze afstand kan van alles
zijn. In de literatuur zijn vele verschil
lende algoritmes bekend variërend zoals
het simpele het K-mean of State Vector
Machines (SVM) of meer geavanceerde
technieken zoals Latent Semantic Analysis
(LSA). Deze algoritmes bleken echter niet
geschikt voor real-time processing van de
Twitter stream. Gekozen is daarom voor de
ontwikkeling van een algoritme geba
seerd op het werk van Ruthven en Lalmas
(2003)- Clusters die met deze methode
worden samengesteld zijn gebaseerd op
de afstanden tussen een emergente term
en termen die hiermee samenhangen.
Na het clusteren van emergente termen is
de volgende stap om de trending events
en hun locaties vast te stellen. Trending
events is een lijst van tweets die meest
relevant zijn voor de emerging terms
op een behaalde locatie. De relevantie
is vastgesteld op basis van het aantal
termen gemeenschappelijk met termen in
een cluster.
Figuur 3 geeft de architectuur zoals deze
is uitgewerkt in software. De vier boven
staande stappen zijn geïmplementeerd als
server side subsystemen. Daaraan zijn een
aantal web services gekoppeld om een en
ander toegankelijk te maken voor clients
en een database voor opslag van relevante
events voor latere analyse. Het geheel is
geprogrammeerd in JAVA met gebruikma
king van de Twitter streaming API.
Het systeem is toegepast in een aantal case
studies waarin de performance van het
systeem is getest voor een aantal bekende
evenementen. Deze waren deTT-Assen,
Bevrijdingsdag 2012 en de Euro 2012
voetbalwedstrijd Nederland-Duitsland.
Uit de resultaten bleek dat het systeem
goed presteert in het onderscheiden van
veel voorkomende'gewone'termen zoals
'de'en'RT'(Twitter jargon voor Retweet) en
daadwerkelijke events. De identificatie van
cdfl*
Fig. 2
18 Geo-lnfo 2012-9