CWI bouwt razendsnelle database

Christian Jongeneel

Het Centrum voor Wiskunde en Informatica (CWI) gaat technologie ontwikkelen om razendsnel informatie te zoeken in wetenschappelijke databases.

Wetenschappelijke experimenten, bijvoorbeeld die rond de Large Hadron Collider bij CERN in Genève, produceren tegenwoordig elke seconde gigabytes aan gegevens. Een toenemend probleem daarbij is, om in die gegevens de interessante informatie op te duiken. Zoekmachines als Google indexeren simpelweg alle informatie die ze kunnen vinden en laten vervolgens zoekvragen op de index toe. Dat werkt niet bij wetenschappelijke databases.

 

Het CWI wil daarom een databasemachine – een combinatie van hardware en software – bouwen die het bevragen van wetenschappelijke databases snel en efficiënt afhandelt. Zo zou het doorzoeken van de seismische database van de aardbeving in Chili begin 2010 (2 TB ofwel 2.000 GB groot) slechts dertig seconden moeten duren, terwijl dit met een normale computer ondoenlijk is.

 

De hardware van SciLens, zoals het project genoemd is, zal bestaan uit een viertal ‘ringen’ met verschillende rekenkracht. Iedere ring heeft een terabyte aan geheugen en 128 terabyte schijfopslag. Volgens projectleider prof.dr. Martin Kersten ligt de grootste uitdaging echter in de samenwerking tussen hardware en software. De databasesoftware borduurt voort op de astronomische machine Skyserver van computerpionier Jim Gray. ‘Dat was een project tussen Microsoft Research en Johns Hopkins University’, zegt Kersten. ‘Deze samenwerking wordt voorgezet.’

 

Skyserver is een zogeheten kolomgeoriënteerde database. Dat betekent dat informatie gesorteerd wordt op type, niet op bij elkaar horende inhoud. Kolomgeoriënteerde databases zijn vooral handig voor gestructureerde data, zoals wetenschappelijke metingen of bibliotheekcatalogi. Daarbij moet namelijk vaak gezocht worden in een kolom. Een voorbeeld daarvan is een lijst met alle boeken van een bepaalde auteur, waardoor het handig is als de database snel toegang biedt tot een lijst van auteurs in plaats van dat hij alle gegevens per boek bij elkaar heeft staan.

 

Cruciaal hierbij is de interactie tussen de zoeksoftware en de ordening van de harde schijven. Het lezen van de harde schijf kost namelijk verreweg de meeste tijd bij een enkele zoekhandeling.

Lees ook

Nieuws brief
* indicates required