82,3% (34,1% 48,2%) van het totale oppervlak on-
der de curve. Deze werkwijze wordt Schütting met be-
hulp van heirouwbaarheidsintervallen genoemd. Hij
kan worden uitgevoerd bij elke discrete variabele die het
resultaat is van de classificatie van een continue varia
bele waarvoor een gemiddelde en een SD bestaan en
waarop de veronderstellingen aan het begin van de pa-
ragraaf van toepassing zijn.
Classificatie van discrete variabelen en het bepalen van
fouten
Er worden hier twee technieken gebruikt, namelijk:
controle op misclassificatie
raming op de gok ('guesstimating').
Bij de controle op misclassificatie worden de resultaten
van een classificatie met 'wäre' of tenminste minder
onjuiste informatie vergeleken. Als bijvoorbeeld de
classificatie werd gedaan op basis van luchtfoto's met
een schaal van 1:10.000, kan deze vergeleken worden
met informatie op luchtfoto's op schaal 1:2000 of met
die verkregen door veldwerk.
Er worden voor elke klasse een aantal (gewoonlijk
minstens 30) controlepunten geselecteerd op basis van,
bij voorkeur, een gestratificeerde willekeurige steek-
proefverdeling. Hiervan kunnen de 'wäre' waarden en
de waarden volgens de classificatie worden genoteerd.
De resultaten worden opgeslagen in een misclassificatie-
matrix (de term die in de remote sensing vaak wordt
gebruikt is 'confusion matrix'), van waaruit een be-
trouwbaarheidsstatistiek, zoals waarschijnlijkheid, kan
worden bepaald.
Tabel 1 is een voorbeeld van een misclassificatie-matrix
voor het gebruik van gebouwen. Er kan bijvoorbeeld
uit worden afgelezen, dat de waarschijnlijkheid dat een
gebouw, dat is geclassificeerd als woonhuis, ook werke -
lijk een woonhuis is, 70% (28/40) bedraagt (p .70).
Deze techniek wordt de eenvoudige schatting van de
waarschijnlijkheid ('simple probability estimation') ge
noemd. Bij andere, meer verfijnde technieken wordt
bijvoorbeeld rekening gehouden met het vereiste be-
trouwbaarheidsniveau van de schatting (hord broo-
ner, 1976), of met de waarschijnlijkheid boven die van
het toeval, welke de statistische maat 'kappa' oplevert.
Er zijn echter voordelen verbonden aan statistieken die
de doorsnee GIS-gebruiker makkelijk kan begrijpen en
toepassen en daarom is de eenvoudige schatting van de
Tabel 1. Misclassificatie matrix grondgebruik.
waarschijnlijkheid misschien het meest geschikt.
Een raming op de gok is nodig als er geen kennis be-
schikbaar is. Zo'n 'guesstimate' kan de waarschijnlijk
heid zijn die is afgeleid van een soortgelijke classifica-
tieprocedure in een ander project of de schatting van
een deskundige. Er zijn geen vaste regels om een waar-
schijnlijkheidswaarde te verkrijgen. Er zijn echter wel
regels die toegepast kunnen worden als bepaalde veron
derstellingen gemaakt worden ten aanzien van het ge-
drag van fouten. Daaruit kan een waarschijnlijkheids-
waarde worden afgeleid (zie de vorige subparagraaf).
Hoe kunnen we gegevens over foulen opslaan?
Om openshaw (1990) aan te halen:
"It is critically important that data specific error and
uncertainty details should be carried forward and sto-
red with the data. Without this information it will be
impossible in subsequent years to utilise emergent tech-
nology for handling error propagation, an aspect which
only really becomes important when data from many
different sources, with varying accuracy and uncertainty
characteristics, are integrated."
Foutenstatistieken hebben betrekking op de kwaliteit
van data in een gegevensbestand. Tot nu toe heb ik aan-
dacht besteed aan attribuut- en locatiegegevens. Die ge
gevens beschrijven feiten over individuele concrete ob-
jecten. Feiten over afzonderlijke concrete objecten
kunnen worden samengevoegd tot grotere verzamelin-
gen in het gegevensbestand. Als we de database als een
geheel beschouwen moeten de volgende kwaliteitsken-
merken vastgelegd worden (chrisman mcgranaghan,
1990):
1. nauwkeurigheid van de locatie (positie)
2. nauwkeurigheid van de attributen
3. logische consistentie
4. volledigheid
5. afkomst ('lineage').
De nauwkeurigheid van locatie en attributen van con
crete objecten is hiervoor al aan de orde gekomen. In
formatie over die nauwkeurigheid kan worden opgesla
gen in database tabellen (of 'relaties') in een
gegevensbestand van een GIS (zie bijvoorbeeld tabel 2).
Temporele gegevens kan men beschouwen als een attri
buut van een afzonderlijk concreet object, of als een
aspect van een grotere verzameling gegevens, en kan een
onderdeel vormen van het kwaliteitskenmerk afkomst.
De 'logische consistentie' heeft betrekking op de mate
waarin de structuur van het gegevensbestand in over-
eenstemming is met de beschrijving daarvan. Vragen
die bijvoorbeeld gesteld kunnen worden zijn:
Als gespecificeerd is dat in de database polygonen
gesloten zijn, bij welk percentage is dat dan inder-
daad het geval?
Als gespecificeerd is dat in de database elk polygoon
een label moet hebben, welk percentage heeft dat
dan?
Als gespecificeerd is dat in de database elke boog
twee knooppunten heeft, welk percentage heeft dat
16
KT 1992.XVI1I.1
^\Classificatie:
Ware
informatie:
woning
openbaar
gebouw
winkel
fabriek
woning
28
4
5
0
openbaar gebouw
7
31
10
1
winkel
4
1
21
8
fabrieksgebouw
1
1
7
34
Totaal
40
37
43
43