Fouten in gegevens Zoals vermeld leggen in een GIS gegevens feiten vast over concrete objecten en zijn er drie categorieen gege vens. Voor alle concrete objecten bestaan er 'wäre' fei ten, maar deze zijn zelden bekend. Met de beschikbare gegevens probeert men deze wäre feiten wel te beschrij- ven. Fouten zijn de discrepanties tussen de gegevens en de wäre feiten. Het nieten van fouten in gegevens Fouten kunnen nauwelijks gemeten worden. Alle door meten verkregen statistieken staan voor nauwkeurigheid en om te bepalen wat de nauwkeurigheid is, is kennis van feiten of waarden nodig die als 'waar' worden be- schouwd. Als we kijken naar continue variabelen is een statistische maat voor de nauwkeurigheid de wortel uit het gemiddelde van het kwadraat van de fouten ('root mean Square error'). Bij discrete variabelen is dat de waarschijnlijkheid('probability', hoewel ook andere zekerheidsstatistieken worden gebruikt, zoals 'certainty factor'). Als fouten niet kunnen worden gemeten kan men ze schatten. De aldus verkregen statistieken staan voor precisie en om ze te bepalen is kennis nodig van het ge middelde van verscheidene metingen en hun waarden. Als we kijken naar continue variabelen, is de variantie ('variance', of de daaraan verwante standaarddeviatie) een statistische maat voor precisie. Voor discrete varia belen kunnen opnieuw zekerheidsstatistieken worden gebruikt. Locatiegegevens zijn continue variabelen, die feiten be- schrijven over concrete objecten. Kartografen beschik- ken over goed ontwikkelde technieken om fouten te be palen in locatiegegevens. Deze technieken kunnen ook voor alle andere continue variabelen gebruikt worden. Zo kunnen de technieken, waar men zieh van bedient om de precisie (standaardafwijking) van een x-coördi- naat te bepalen, ook worden gebruikt voor de vaststel- ling van de precisie van de waarden voor een bodem- diepte, een boomhoogte, een neerslaghoeveelheid enz. In dit artikel zal meer aandacht worden geschonken aan het bepalen van de foutenstatistieken voor discrete variabelen, omdat kartografen zulke technieken nog maar zelden gebruiken. Fouten in discrete variabelen Men kan de waarde van een discrete variabele verkrij- gen door: 1. classificatie van een continue variabele; of door 2. directe classificatie van een discrete variabele. Bovendien kan in beide gevallen herclassificatie plaats- vinden. Een temperatuur in de klasse 21,0-22,0 graden kan bijvoorbeeld worden geherclassificeerd naar 20,0- 25,0 graden, of de Douglasspar kan worden onder- gebracht bij de meer algemene categorie van KT 1992.XVIII.1 naaldbomen. Er zijn verschillen in het bepalen van de fouten met be- trekking tot elk van beide hiervoor genoemde typen discrete variabelen: Classificatie van continue variabelen en het bepalen van fouten Als continue variabelen zijn waargenomen, kunnen we het volgende aannemen: de meest waarschij nlij ke waarde van een continue variabele is het (gewogen) gemiddelde van verschil- lende metingen; fouten zijn gerelateerd aan elk van die verschillende metingen en daarom ook aan de meest waarschij nlij- ke waarde; fouten zijn normaal verdeeld rond het gemiddelde; en het gemiddelde en de standaarddeviatie van de ver schillende metingen zijn fundamentele eigenschap- pen van de verdeling van fouten. Op basis van deze veronderstellingen kunnen we een continue variabele nemen van de waarde x (het gemid delde van verschillende metingen) met een standaardde viatie SD en de kans berekenen dat die binnen een be- paald waardebereik (of klasse) valt. Dit kan, omdat de funetie, die de normale verdeling beschrijft (waarin y een funetie is van x, x, e (de exponentiele constante), x en SD), de curve bepaalt voor alle mogelijke waarden van x waarvan x het gemiddelde is. Deze funetie kan geintegreerd worden tussen elke twee waarden van x en het daaruit voortkomende oppervlak kan worden omge- rekend tot een percentage van het hele oppervlak onder de curve tussen de x-waarden van oo en - oo Figuur 3 toont een voorbeeld van zo'n curve op basis van neerslaggegevens. Als in dit voorbeeld een neerslag- waarde van 1470 mm per jaar gemeten wordt met een SD van 30 mm, dan valt deze gemeten waarde (de meest waarschijnlijke waarde: x in figuur 3) bijvoor beeld binnen de neerslagklasse 1400-1500 mm/jaar. Volgens de zojuist geschetste werkwijze kan men echter uitrekenen, of in statistische tabellen opzoeken, dat het gebied tussen 1470 en 1500 mm 34,1% inneemt van het totale oppervlak onder de verdelingscurve. Het percen tage, dat kan worden berekend of opgezocht voor het oppervlak tussen 1470 en 1400 mm, bedraagt 48,2%. Daarmee vormt het gebied tussen 1400 en 1500 mm 4 3.57: Figuur 3. Fouten in neerslagmetingen met een normale ver deling. 15 2 SD 1380 1500 1530

Digitale Tijdschriftenarchief Stichting De Hollandse Cirkel en Geo Informatie Nederland

Kartografisch Tijdschrift | 1992 | | pagina 17