de scores van automatische evaluatie
Slechte situaties volgens
de computer zijn niet altijd
slechte oplossingen
grootte'conditie, maar een (te) groot aan
tal gebouwen is verwijderd (zie figuur 4).
Dit laat zien dat het heel belangrijk is
condities in hun context te evalueren.
De meeste tijd voor de automatische
evaluatie is uiteindelijk opgegaan in het
ontwerp en ontwikkelen van het proto
type, met name doordat het prepareren
van de outputs voor deze evaluatie (wat
niet te automa
tiseren was) veel
meer tijd kostte
dan verwacht.
Uit de resultaten
konden wel enkele conclusies worden
getrokken.Ten eerste, alle systemen
behalen goede resultaten voor gebouwen,
behalve in dichtbebouwde gebieden, ook
al zaten er soms veel verschillen in de out
puts van eenzelfde testcase.Ten tweede
alleen CPT en Axpand scoren goed op
de minimale afstand tussen gebouwen'
conditie. Dit komt zeer waarschijnlijk
doordat deze twee systemen als enige
'verplaatsing' (displacement in het Engels)
ondersteunen (ook aanwezig in de nieuwe
versies van Clarity en ESRI). Een andere
conclusie is dat, niet geheel onverwacht,
goede resultaten voor de 'minimale
afstand'conditie vaak gepaard gaan met
een groot aantal verwijderde gebouwen.
Ook is het zo dat de kenmerken van de
originele data (bijvoorbeeld data- en
informatiedichtheid) in belangrijke mate
bepalen. Dit zijn belangrijke inzichten bij
het interpreteren
van de (toekomstige)
resultaten.
Het visueel ver
gelijken van de
generalisatie outputs is gedaan door Cecile
Duchêne, een ervaren kartograaf van IGN,
Frankrijk. Zij heeft voor alle vier testcases
een aantal focuszones gedefinieerd waarin
ze de outputs met elkaar heeft vergeleken.
Zie figuur 5 voor de focuszones die gebruikt
zijn in de Kadaster-testcase. Uit deze vergelij
king volgt dat geen van de vier testcases vol
ledig is opgelost in de tests. Vooral contextu
ele generalisatie blijkt een heikel probleem.
Daarnaast bestaan voor veel andere
problemen weliswaar algoritmen, maar het
blijkt zeer moeilijk de juiste parameters te
Fig. 4. Resultaat van 'te kleine gebouwen' (in rood) in vier test outputs van ICC testcase. Figuur rechtsonder
laat het beste resultaat zien, maar in deze dataset zijn eveneens veel gebouwen verwijderd.
zetten die voor de gehele testcase optimaal
resultaat leveren. Enerzijds komt dit omdat
het effect van de parameters vooraf vaak
onduidelijk is, maar anderzijds ook omdat
tools ontbreken om bepaalde contexten
te detecteren waarvoor context-specifieke
parameters gebruikt kunnen worden, zoals
'stedelijk gebied'. In ieder geval ontbreekt
vaak een match tussen de functionaliteit
van de software en de door de NMAs gede
finieerde condities. Een andere conclusie
van deze visuele vergelijking is dat outputs
voor eenzelfde testcase heel verschillend
kunnen zijn. Dit komt deels door het
parameteriseringsprobleem, maar ook
omdat het niet altijd mogelijk bleek om het
verwachte resultaat eenduidig in condities
vast te leggen. Dit leidde tot significante
verschillen tussen testers die bekend waren
met de specifieke testdata, en een idee
hadden wat er bereikt moest worden, en
testers die nieuw waren met de data.
In de expertevaluatie (uitgevoerd door
Connie Blok, ITC) hebben kartografische
experts zowel gekeken naar globale
indicatoren als de individuele condities.
Ook hebben de experts de outputs gemar
keerd met voorbeelden van situaties die
opvallend goed, opvallend slecht of heel
verschillend waren opgelost (zie figuur
6). In tegenstelling tot de automatische
generalisatie konden hierbij de individu
ele condities wel in hun context worden
beoordeeld. Volgens de respondenten,
die alleen de outputs van hun eigen NMA
hebben bekeken, scoren de outputs goed
op'afwijking ten opzichte van de originele
data'en'behoud van geografische kenmer
ken'. Dat is niet verwonderlijk omdat ook
het merendeel van de outputs als'onder-
gegeneraliseerd'werd beoordeeld. Dat wil
zeggen doordat er niet genoeg generali
satie was toegepast, kon de output nog
sterk lijken op de originele data. De karto
grafische experts waren van mening dat
individuele gebouwen/wegen redelijk
goed tot goed waren gegeneraliseerd.
De andere condities scoorden laag, vaak
zelfs slecht. Een belangrijke reden hiervoor
is dat de experts bij het beoordelen van
de outputs de papieren kaart impliciet als
referentie gebruikten. Het zou interessant
zijn geweest om de experts ook te hebben
geconfronteerd meteen interactief gege
neraliseerde output in een blinde beoorde
ling. In een toekomstig project moet dit
zeker worden overwogen.
22 Geo-lnfo 2010-2