Gegevensdichtheid Optimalisering door gegevenspartitionering "I /a r 41 r mSMSÊkM Data 1 Data 0 NGT GEODESIA 1996-3 worden uitgevoerd op de complete gegevensset. HHCODE kent deze beperkingen niet. Het gegevenstype HHCODE is ge baseerd op het principe van recur sieve ruimteverdeling. In het volgende voorbeeld wordt een tweedimensio nale ruimte verdeeld door opeenvol gende verdelingen in kwadranten van gelijke grootte (een zogeheten „quad- tree"-representatie). Deze representa tie wordt duidelijk wanneer de aarde wordt geprojecteerd op een plat vlak, dat vervolgens in vlakken wordt ver deeld. Fig. 2 geeft een quad tree indeling van de aarde weer. De twee dimensionale ruimte wordt verdeeld in vier gelijke kwadranten, waarna elk van de kwadranten op zijn beurt wordt verdeeld in vier kwadranten, enzovoort. Het aantal niveaus waarin de gegevens worden verdeeld, wordt de gegevens dichtheid genoemd. Het bovenste, ongedeelde niveau (het aardopper vlak) is een oppervlakte van 20000 x 10 000 kilometer. Als dit met één HHCODE moet worden weergege ven, zou het oppervlak van de aarde zelf één cel zijn die door deze coördi naten zou worden gedefinieerd. De ruimte kan tot in het oneindige verder worden verdeeld, waarbij de dichtheid voortdurend toeneemt. In de praktijk ligt de grens bij de nauwkeurigheid waarmee de oorspronkelijke gegevens worden gerepresenteerd, met beper kingen ten gevolge van de decimale precisie waarmee de gegevens zijn ver zameld of opgeslagen, of de schaal waarop ze het meest zinvol worden gerepresenteerd. Met een veelgebruikte methode om de prestaties van zeer grote databases te optimaliseren, worden de gegevens verdeeld over grote aantallen tabellen. Daarvoor moet een database-ontwer per van tevoren weten om welke hoe veelheid gegevens het ongeveer gaat, hoeveel tabellen er nodig zullen zijn en hoe deze gegevens efficiënt kunnen worden verdeeld. Fig. 2. Verdeling van ruimte in kwadranten. Fig. 3. Direct verband tussen HFICODE en VLDB- partitionering. Met de techniek voor dynamische gegevenspartitionering hoeven database-ontwerpers niet te weten hoeveel gegevens er zullen zijn, hoe deze worden verdeeld en waar ze moeten worden opgeslagen om ze zo snel mogelijk terug te vinden. Voor deze gegevenspartitionering wordt gebruik gemaakt van de HHCODE-structuur voor het sorteren en opslaan van ruimtelijke gegevens in meerdere tabellen (partities). Deze worden dynamisch en automatisch verdeeld wanneer dat nodig is (fig. 3). Tijdens en na het partitioneringsproces blijft de efficiëntie gehandhaafd omdat de gegevens niet opnieuw worden ge structureerd, maar eenvoudigweg over meerdere partities worden verdeeld wanneer een tabel met gegevens over een bepaald gebied te dicht wordt voor een snelle toegangstijd. Binnen iedere partitie wordt de dimensionale indeling van de gegevens gehandhaafd, zodat gegevens met een dimen sionale samenhang bij elkaar worden gehouden. Dit is de sleutel tot een snelle gegevenstoegang. Concreet betekent dit, dat gegevens verder worden ver deeld wanneer ze worden geladen en dat de partities worden gevuld tot een bepaald maximum dat door de ge bruiker is opgegeven. Iedere partitie vertegenwoordigt een bepaald gebied (een „bucket") in de multidimensionale ruimte. Dit proces verloopt automatisch. Een voorafgaande planning is niet nodig voor het database-ontwerp. De data- base-ontwerper hoeft alleen een geschikte grootte voor de HHCode attribute HHCode attribute 115 1 111 itfimigmS 1 JpWH m -V - v m Original Data Table Decomposes to

Digitale Tijdschriftenarchief Stichting De Hollandse Cirkel en Geo Informatie Nederland

(NGT) Geodesia | 1996 | | pagina 25