Fouten in gegevens
Zoals vermeld leggen in een GIS gegevens feiten vast
over concrete objecten en zijn er drie categorieen gege
vens. Voor alle concrete objecten bestaan er 'wäre' fei
ten, maar deze zijn zelden bekend. Met de beschikbare
gegevens probeert men deze wäre feiten wel te beschrij-
ven. Fouten zijn de discrepanties tussen de gegevens en
de wäre feiten.
Het nieten van fouten in gegevens
Fouten kunnen nauwelijks gemeten worden. Alle door
meten verkregen statistieken staan voor nauwkeurigheid
en om te bepalen wat de nauwkeurigheid is, is kennis
van feiten of waarden nodig die als 'waar' worden be-
schouwd. Als we kijken naar continue variabelen is een
statistische maat voor de nauwkeurigheid de wortel uit
het gemiddelde van het kwadraat van de fouten ('root
mean Square error'). Bij discrete variabelen is dat de
waarschijnlijkheid('probability', hoewel ook andere
zekerheidsstatistieken worden gebruikt, zoals 'certainty
factor').
Als fouten niet kunnen worden gemeten kan men ze
schatten. De aldus verkregen statistieken staan voor
precisie en om ze te bepalen is kennis nodig van het ge
middelde van verscheidene metingen en hun waarden.
Als we kijken naar continue variabelen, is de variantie
('variance', of de daaraan verwante standaarddeviatie)
een statistische maat voor precisie. Voor discrete varia
belen kunnen opnieuw zekerheidsstatistieken worden
gebruikt.
Locatiegegevens zijn continue variabelen, die feiten be-
schrijven over concrete objecten. Kartografen beschik-
ken over goed ontwikkelde technieken om fouten te be
palen in locatiegegevens. Deze technieken kunnen ook
voor alle andere continue variabelen gebruikt worden.
Zo kunnen de technieken, waar men zieh van bedient
om de precisie (standaardafwijking) van een x-coördi-
naat te bepalen, ook worden gebruikt voor de vaststel-
ling van de precisie van de waarden voor een bodem-
diepte, een boomhoogte, een neerslaghoeveelheid enz.
In dit artikel zal meer aandacht worden geschonken
aan het bepalen van de foutenstatistieken voor discrete
variabelen, omdat kartografen zulke technieken nog
maar zelden gebruiken.
Fouten in discrete variabelen
Men kan de waarde van een discrete variabele verkrij-
gen door:
1. classificatie van een continue variabele; of door
2. directe classificatie van een discrete variabele.
Bovendien kan in beide gevallen herclassificatie plaats-
vinden. Een temperatuur in de klasse 21,0-22,0 graden
kan bijvoorbeeld worden geherclassificeerd naar 20,0-
25,0 graden, of de Douglasspar kan worden onder-
gebracht bij de meer algemene categorie van
KT 1992.XVIII.1
naaldbomen.
Er zijn verschillen in het bepalen van de fouten met be-
trekking tot elk van beide hiervoor genoemde typen
discrete variabelen:
Classificatie van continue variabelen en het bepalen van
fouten
Als continue variabelen zijn waargenomen, kunnen we
het volgende aannemen:
de meest waarschij nlij ke waarde van een continue
variabele is het (gewogen) gemiddelde van verschil-
lende metingen;
fouten zijn gerelateerd aan elk van die verschillende
metingen en daarom ook aan de meest waarschij nlij-
ke waarde;
fouten zijn normaal verdeeld rond het gemiddelde;
en
het gemiddelde en de standaarddeviatie van de ver
schillende metingen zijn fundamentele eigenschap-
pen van de verdeling van fouten.
Op basis van deze veronderstellingen kunnen we een
continue variabele nemen van de waarde x (het gemid
delde van verschillende metingen) met een standaardde
viatie SD en de kans berekenen dat die binnen een be-
paald waardebereik (of klasse) valt. Dit kan, omdat de
funetie, die de normale verdeling beschrijft (waarin y
een funetie is van x, x, e (de exponentiele constante),
x en SD), de curve bepaalt voor alle mogelijke waarden
van x waarvan x het gemiddelde is. Deze funetie kan
geintegreerd worden tussen elke twee waarden van x en
het daaruit voortkomende oppervlak kan worden omge-
rekend tot een percentage van het hele oppervlak onder
de curve tussen de x-waarden van oo en - oo
Figuur 3 toont een voorbeeld van zo'n curve op basis
van neerslaggegevens. Als in dit voorbeeld een neerslag-
waarde van 1470 mm per jaar gemeten wordt met een
SD van 30 mm, dan valt deze gemeten waarde (de
meest waarschijnlijke waarde: x in figuur 3) bijvoor
beeld binnen de neerslagklasse 1400-1500 mm/jaar.
Volgens de zojuist geschetste werkwijze kan men echter
uitrekenen, of in statistische tabellen opzoeken, dat het
gebied tussen 1470 en 1500 mm 34,1% inneemt van het
totale oppervlak onder de verdelingscurve. Het percen
tage, dat kan worden berekend of opgezocht voor het
oppervlak tussen 1470 en 1400 mm, bedraagt 48,2%.
Daarmee vormt het gebied tussen 1400 en 1500 mm
4 3.57:
Figuur 3. Fouten in neerslagmetingen met een normale ver
deling.
15
2 SD
1380
1500
1530