82,3% (34,1% 48,2%) van het totale oppervlak on- der de curve. Deze werkwijze wordt Schütting met be- hulp van heirouwbaarheidsintervallen genoemd. Hij kan worden uitgevoerd bij elke discrete variabele die het resultaat is van de classificatie van een continue varia bele waarvoor een gemiddelde en een SD bestaan en waarop de veronderstellingen aan het begin van de pa- ragraaf van toepassing zijn. Classificatie van discrete variabelen en het bepalen van fouten Er worden hier twee technieken gebruikt, namelijk: controle op misclassificatie raming op de gok ('guesstimating'). Bij de controle op misclassificatie worden de resultaten van een classificatie met 'wäre' of tenminste minder onjuiste informatie vergeleken. Als bijvoorbeeld de classificatie werd gedaan op basis van luchtfoto's met een schaal van 1:10.000, kan deze vergeleken worden met informatie op luchtfoto's op schaal 1:2000 of met die verkregen door veldwerk. Er worden voor elke klasse een aantal (gewoonlijk minstens 30) controlepunten geselecteerd op basis van, bij voorkeur, een gestratificeerde willekeurige steek- proefverdeling. Hiervan kunnen de 'wäre' waarden en de waarden volgens de classificatie worden genoteerd. De resultaten worden opgeslagen in een misclassificatie- matrix (de term die in de remote sensing vaak wordt gebruikt is 'confusion matrix'), van waaruit een be- trouwbaarheidsstatistiek, zoals waarschijnlijkheid, kan worden bepaald. Tabel 1 is een voorbeeld van een misclassificatie-matrix voor het gebruik van gebouwen. Er kan bijvoorbeeld uit worden afgelezen, dat de waarschijnlijkheid dat een gebouw, dat is geclassificeerd als woonhuis, ook werke - lijk een woonhuis is, 70% (28/40) bedraagt (p .70). Deze techniek wordt de eenvoudige schatting van de waarschijnlijkheid ('simple probability estimation') ge noemd. Bij andere, meer verfijnde technieken wordt bijvoorbeeld rekening gehouden met het vereiste be- trouwbaarheidsniveau van de schatting (hord broo- ner, 1976), of met de waarschijnlijkheid boven die van het toeval, welke de statistische maat 'kappa' oplevert. Er zijn echter voordelen verbonden aan statistieken die de doorsnee GIS-gebruiker makkelijk kan begrijpen en toepassen en daarom is de eenvoudige schatting van de Tabel 1. Misclassificatie matrix grondgebruik. waarschijnlijkheid misschien het meest geschikt. Een raming op de gok is nodig als er geen kennis be- schikbaar is. Zo'n 'guesstimate' kan de waarschijnlijk heid zijn die is afgeleid van een soortgelijke classifica- tieprocedure in een ander project of de schatting van een deskundige. Er zijn geen vaste regels om een waar- schijnlijkheidswaarde te verkrijgen. Er zijn echter wel regels die toegepast kunnen worden als bepaalde veron derstellingen gemaakt worden ten aanzien van het ge- drag van fouten. Daaruit kan een waarschijnlijkheids- waarde worden afgeleid (zie de vorige subparagraaf). Hoe kunnen we gegevens over foulen opslaan? Om openshaw (1990) aan te halen: "It is critically important that data specific error and uncertainty details should be carried forward and sto- red with the data. Without this information it will be impossible in subsequent years to utilise emergent tech- nology for handling error propagation, an aspect which only really becomes important when data from many different sources, with varying accuracy and uncertainty characteristics, are integrated." Foutenstatistieken hebben betrekking op de kwaliteit van data in een gegevensbestand. Tot nu toe heb ik aan- dacht besteed aan attribuut- en locatiegegevens. Die ge gevens beschrijven feiten over individuele concrete ob- jecten. Feiten over afzonderlijke concrete objecten kunnen worden samengevoegd tot grotere verzamelin- gen in het gegevensbestand. Als we de database als een geheel beschouwen moeten de volgende kwaliteitsken- merken vastgelegd worden (chrisman mcgranaghan, 1990): 1. nauwkeurigheid van de locatie (positie) 2. nauwkeurigheid van de attributen 3. logische consistentie 4. volledigheid 5. afkomst ('lineage'). De nauwkeurigheid van locatie en attributen van con crete objecten is hiervoor al aan de orde gekomen. In formatie over die nauwkeurigheid kan worden opgesla gen in database tabellen (of 'relaties') in een gegevensbestand van een GIS (zie bijvoorbeeld tabel 2). Temporele gegevens kan men beschouwen als een attri buut van een afzonderlijk concreet object, of als een aspect van een grotere verzameling gegevens, en kan een onderdeel vormen van het kwaliteitskenmerk afkomst. De 'logische consistentie' heeft betrekking op de mate waarin de structuur van het gegevensbestand in over- eenstemming is met de beschrijving daarvan. Vragen die bijvoorbeeld gesteld kunnen worden zijn: Als gespecificeerd is dat in de database polygonen gesloten zijn, bij welk percentage is dat dan inder- daad het geval? Als gespecificeerd is dat in de database elk polygoon een label moet hebben, welk percentage heeft dat dan? Als gespecificeerd is dat in de database elke boog twee knooppunten heeft, welk percentage heeft dat 16 KT 1992.XVI1I.1 ^\Classificatie: Ware informatie: woning openbaar gebouw winkel fabriek woning 28 4 5 0 openbaar gebouw 7 31 10 1 winkel 4 1 21 8 fabrieksgebouw 1 1 7 34 Totaal 40 37 43 43

Digitale Tijdschriftenarchief Stichting De Hollandse Cirkel en Geo Informatie Nederland

Kartografisch Tijdschrift | 1992 | | pagina 18