Gegevensdichtheid
Optimalisering door
gegevenspartitionering
"I /a
r
41
r
mSMSÊkM
Data 1
Data 0
NGT GEODESIA
1996-3
worden uitgevoerd op de complete
gegevensset. HHCODE kent deze
beperkingen niet.
Het gegevenstype HHCODE is ge
baseerd op het principe van recur
sieve ruimteverdeling. In het volgende
voorbeeld wordt een tweedimensio
nale ruimte verdeeld door opeenvol
gende verdelingen in kwadranten van
gelijke grootte (een zogeheten „quad-
tree"-representatie). Deze representa
tie wordt duidelijk wanneer de aarde
wordt geprojecteerd op een plat vlak,
dat vervolgens in vlakken wordt ver
deeld. Fig. 2 geeft een quad tree
indeling van de aarde weer. De twee
dimensionale ruimte wordt verdeeld
in vier gelijke kwadranten, waarna elk
van de kwadranten op zijn beurt
wordt verdeeld in vier kwadranten,
enzovoort.
Het aantal niveaus waarin de gegevens
worden verdeeld, wordt de gegevens
dichtheid genoemd. Het bovenste,
ongedeelde niveau (het aardopper
vlak) is een oppervlakte van 20000 x
10 000 kilometer. Als dit met één
HHCODE moet worden weergege
ven, zou het oppervlak van de aarde
zelf één cel zijn die door deze coördi
naten zou worden gedefinieerd. De
ruimte kan tot in het oneindige verder
worden verdeeld, waarbij de dichtheid
voortdurend toeneemt. In de praktijk
ligt de grens bij de nauwkeurigheid
waarmee de oorspronkelijke gegevens
worden gerepresenteerd, met beper
kingen ten gevolge van de decimale
precisie waarmee de gegevens zijn ver
zameld of opgeslagen, of de schaal
waarop ze het meest zinvol worden
gerepresenteerd.
Met een veelgebruikte methode om de
prestaties van zeer grote databases te
optimaliseren, worden de gegevens
verdeeld over grote aantallen tabellen.
Daarvoor moet een database-ontwer
per van tevoren weten om welke hoe
veelheid gegevens het ongeveer gaat,
hoeveel tabellen er nodig zullen zijn en
hoe deze gegevens efficiënt kunnen
worden verdeeld.
Fig. 2.
Verdeling van
ruimte in
kwadranten.
Fig. 3.
Direct verband
tussen HFICODE
en VLDB-
partitionering.
Met de techniek voor dynamische gegevenspartitionering
hoeven database-ontwerpers niet te weten hoeveel gegevens
er zullen zijn, hoe deze worden verdeeld en waar ze moeten
worden opgeslagen om ze zo snel mogelijk terug te vinden.
Voor deze gegevenspartitionering wordt gebruik gemaakt
van de HHCODE-structuur voor het sorteren en opslaan
van ruimtelijke gegevens in meerdere tabellen (partities).
Deze worden dynamisch en automatisch verdeeld wanneer
dat nodig is (fig. 3).
Tijdens en na het partitioneringsproces blijft de efficiëntie
gehandhaafd omdat de gegevens niet opnieuw worden ge
structureerd, maar eenvoudigweg over meerdere partities
worden verdeeld wanneer een tabel met gegevens over een
bepaald gebied te dicht wordt voor een snelle toegangstijd.
Binnen iedere partitie wordt de dimensionale indeling van
de gegevens gehandhaafd, zodat gegevens met een dimen
sionale samenhang bij elkaar worden gehouden. Dit is de
sleutel tot een snelle gegevenstoegang.
Concreet betekent dit, dat gegevens verder worden ver
deeld wanneer ze worden geladen en dat de partities
worden gevuld tot een bepaald maximum dat door de ge
bruiker is opgegeven. Iedere partitie vertegenwoordigt een
bepaald gebied (een „bucket") in de multidimensionale
ruimte. Dit proces verloopt automatisch. Een voorafgaande
planning is niet nodig voor het database-ontwerp. De data-
base-ontwerper hoeft alleen een geschikte grootte voor de
HHCode
attribute
HHCode
attribute
115
1 111
itfimigmS
1 JpWH
m -V - v m
Original Data Table
Decomposes to