Dansk

DM824: Diskbaseret indeksering (5 ECTS)

STADS: 15008101

Niveau
Kandidatkursus

Undervisningsperiode
Kurset er placeret i efterårssemesteret.
Kurset udbydes efter behov

Ansvarlige undervisere

Email: foula@imada.sdu.dk

Skemaoplysninger
Der er ingen skemaoplysninger for den valgte periode.

Kommentar:
AFLYST E2010!

begrænset deltagerantal. Kurset kører i 1. kvartal.

Indgangskrav:
Ingen

Faglige forudsætninger:
Stoffet fra DM507 Algoritmer og datastrukturer antages kendt

Kursusintroduktion
I et stigende antal applikationer er den datamængde, som skal tilgås og processeres, for stor til at kunne være i primær hukommelse (RAM). Eksempler inkluderer datamængder fra astronimi, sundhedsvæsen, forsikringsvirksomheder, meteorologi, finansverden, websøgemaskiner, sociale netværk, ect. I sådanne anvendelser måles datamængderne i terabytes eller petabytes, og data må nødvendigvis kunne gemmes på, og effektivt hentes fra, sekundær hukommelse (dvs. harddiske, flash hukommelse, bånd).
Generel purpose data management systems, hvis hovedfokus er stabil opbevaring af, og effektiv søgning i data af forskellige typer, har i udstrækt grad benyttet datastrukturer til sekundær hukommelse, kaldet indekser, for ar kunne effektivisere søgningen.
Hvis man betragter mængden af forskellige datatyper (f.eks. spatiale datatiale data, tidsseriedata, multimediadata, semi-strukturerede data, grafdata og tekstdata), såvel som de mange forskelligeartede søgebehov (feks. OLTP data processing, ad-hoc dataanalyse, GIS funktionalitet, eller keyword-søgning), der mødes, kan man konkludere, at det er en stor udfordrinng at lave systemer som tilbyder den ovenfor nævnte generelle funktionalitet. Udfordringen bliver kun større hvis man også inkluderer funktionalitet baseret på datas historie (fek.s. via dataversionering).

Forventet læringsudbytte
Ved kursets afslutning forventes den studerende at kunne:
- Beskrive de datatyper der normalt understøttes af et general purpose data management system, og for hver af dem diskutere de mest udbredte krav til data retrieval i form af søgninger over sådanne datatyper og/eller front-end applikationer.
- For hver datatype og søgeopgave som er blevet gennemgået i kurset beskrive de state-of-the-art tilgangsmetoder der understøtter disse opgaver, og argumentere mht. deres generalitet, effektivitet og skalabilitet.
- Beskrive de yderligere udfordringer som persistens og søgninger i forskellige versioner af data giver, og diskutere løsninger for de datatyper dere r blevet gennemgået i kurset.
- Beskrive og sammenligne de forskellige arkitekturer for integration af indekser som er blevet anvendt i general purpose data management systemer.

Emneoversigt
I dette kursus vil vi studere de forskellige tilgangsmetoder (dvs. indekser i samspil med relevante søge- APIér og algoritmer herfor) som normalt bliver understøttet af et general purpose data management system (f.eks. for numeriske, højdimensionale, temporale, spatiale, tekstbaserede, grafbaserede og fritekst data). Vi vil også diskutere de forskellige arkitekturer, som er blevet anvendt til at integrere disse i data management systems.

Litteratur

Meddeles ved kursets start.

Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
Ingen

Eksamen- og censurform:
Projektopgave, der bedømmes med karakter efter 7-trinsskalaen, ekstern censur. (15008102)

Reeksamen er mundtlig eksamen med karakter efter 7-trinsskalaen og ekstern censur. Reeksamen følger reglerne vedtaget i studienævnet. Tidsplacering af reeksamen fremgår af udbuddet.

Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.

Forelæsninger: 28 timer
Aktiviteter i studiefasen

Sprog
Dette kursus undervises på dansk eller engelsk, afhængigt af underviseren. Dog altid på Engelsk ved deltagelse af internationale studerende.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Dette er den nyeste version af en kursusbeskrivelse, som trådte i kraft den 1. sep 2010.