tie bij Defensie en het Kadaster
Objecten die meer
pixels beslaan worden
het vaakst herkend
i
5
2020-2 Geo-lnfo
Of geen brug aanwezig is. Waaf in de chip de
brug precies ligt is niet relevant. Voor de andere
tweemethoden moetje totop het niveau van
individuele pixels trainingsdata hebben. Deze data
is vaak niet beschikbaar en het is maar de vraag
of je voor het uiteindelijke doel überhaupt een
voorspelling per pixel nodig hebt. Ook is hetvaak
met object detectie en semantische segmentatie
alsnog nodig om de data na te bewerken als dé
resultaten niet perfect zijn (en dat zijn ze vaak niet).
Dus als je toch nog moet nabewerken is chip clas
sification een snellere en makkelijkere optie.
Gebruikt gereedschap
Om het wiel niet opnieuw te hoeven uitvinden
is tijdens-deze stage gebruik gemaakt van Raster
Vision, een Open-source framework voor [Deep
Learning voor de geo-wereld. En zoals ik zelf heb
geleerd tijdens dit project, het snappen en kun
nen toepassen van Deep Learning in Python is
compleet iets anders dan het snappen en kunnen
schrijven van software. Raster Vision is goede
software. Daarom ben ik er voorstander van dat
we met z'n allen onze Deep Learning projecten in
Raster Vision gaan doen, en eventuele innovaties
bijdragen. Uiteraard hoefje de data niet te delen.
Datavereisten
Nodig zijn: veel data, veel rekenkracht en veel tijd.
Voor dit onderzoek is een dataset beschikbaar
gesteld met een resolutie van soeentimeter van
de WorldView-3 sensor van het gebied netten
zuiden van Minsk in Wit-Rusland. Het gebied is
opgeknipt in tegels van 256x256 pixels (Ras
ter Vision functionaliteit), Van dit gebied is 80%
gebruikt om het model te trainen, 20% om het:
getrainde model te valideren. De gebieden zijn
willekeurig gekozen. Data van waar de brug
gen lagen wasafkomstig van MGCP. Door het
Kadaster was een cloud computer,-ook wel 'de
heavy machine' gèhpemd, beschikbaar gesteld
met vier GPU's. Voor het onderzoek had ik zes
maanden de tijd.
Hoe is het model getraind?
Tijdens het trainen leert het model of er wel of
niet gen brug aanwezig is binnen de gegeven
chip. In totaal is er 240 uur getraind op zo'n
anderhalf miljoen chips. Omdat op relatief
weinig chips een brug te zien is, heeft het
model tijdens het trainen willekeurig even
vaakchips mét een brug als zonder brug te
zien gekregen. Anders krijg je een 'lui' model
dat simpelweg altijd 'hier is geen brug te zien'
voorspelt. Op 99% van de chips zou deze
voorspelling dan nóg kloppen ook.
Resultaten
Waar liggen de verwachtingen op het gebied
van Deep Learning? Binnen het MGCP gaan ze
voor too%. Een computer haalt dat nog niet.
De mate van succes wordt uitgedrukt in 'preci
sion' en 'recall'. Samengevat was de uitkomst:
Precision: 96%, ofwel bijna alle chips
waarop-een brug werd voorspeld bevat
daadwerkelijk een brugfdeel);
Recall (op basis van oppervlakte): 66% van
de totale brugoppervlakte in het gebied is
gevonden;
Recall (op basis van het aantal bruggen):
51% van de bruggen is gedeeltelijk of
geheel gevonden;
Recall (óp basis van het aantal chips); 32%
van de chips die een brugdeel toonde is
daadwerkelijk gedetecteerd.
Opvallend was dat het model voornamelijk
bruggen en brugdelen kleinerdan mom2
miste. Oftewel, als de brug minder dan 1,3%
van het oppervlakte van een enkele chip
bedekte werd de kans klein dat dit brugdeel
gedetecteerd werd, zie ook figuur 2.
Met deze cijfers kan nog geen productiepro
ces gedraaid worden. Wel is het zo dat het
trainingsproces relatief simpel isgeweest.
Waarschijnlijk zou het aanbieden van gespie
gelde afbeeldingen tijdens het trainingsproces
de resultaten al verbeteren.
Beter dan de mens?
Het is opvallend dat er bruggen gedetecteerd
zijn door het model die de menselijke kartografen
niet hadden ingewonnen (dit kaheen bewuste
keuze zijn geweest van de kartograaf omdat er
ingewonnen wordtop een schaal van 1:50.000).
Zo tonen figuren 3a en yb-chips (in rood) die
geclassificeerd zijn door het model als 'bevat een
brug', daar waar in de MGCP-data geen brug was
ingetekend. Het is dus niet ondenkbaar dat deze
techniek uiteindelijk beter wordt in het detecteren
van objecten. Googles fotoclassificatiesysteem is al
beter dan de gemiddelde mens.
Hoe wordt een brug herkend?
Door het maken van een saliency map kun je zien
welke pixels in een chip het meeste bijdragen aan
een bepaalde voorspelling. Een belangrijke feature
die het model herkent als goede indicator voor
de aanwezigheid van een brug is de brugsteun.
De figuren 4a en gbgeven de originele beelden
(links) en de saliency map (rechts) weer. Hoe roder
een pixel, hoe groter de bijdragepari de voorspel
ling dat er een brug te zien is.
120
100
E
30
60
JQ
73
z
AC
Found
Not found
ÏOOO 1500
Size of seg ment
2000
Figuur 2-Histogram: het aantal gevonden segmenten vs. hun oppervlakte.