begrænset deltagerantal. Kurset kører i 1. kvartal.
Indgangskrav:
Ingen
Faglige forudsætninger:
Stoffet fra DM507 Algoritmer og datastrukturer antages kendt
Kursusintroduktion
I et stigende antal applikationer er den datamængde, som skal tilgås og processeres, for stor til at kunne være i primær hukommelse (RAM). Eksempler inkluderer datamængder fra astronimi, sundhedsvæsen, forsikringsvirksomheder, meteorologi, finansverden, websøgemaskiner, sociale netværk, ect. I sådanne anvendelser måles datamængderne i terabytes eller petabytes, og data må nødvendigvis kunne gemmes på, og effektivt hentes fra, sekundær hukommelse (dvs. harddiske, flash hukommelse, bånd).
Generel purpose data management systems, hvis hovedfokus er stabil opbevaring af, og effektiv søgning i data af forskellige typer, har i udstrækt grad benyttet datastrukturer til sekundær hukommelse, kaldet indekser, for ar kunne effektivisere søgningen.
Hvis man betragter mængden af forskellige datatyper (f.eks. spatiale datatiale data, tidsseriedata, multimediadata, semi-strukturerede data, grafdata og tekstdata), såvel som de mange forskelligeartede søgebehov (feks. OLTP data processing, ad-hoc dataanalyse, GIS funktionalitet, eller keyword-søgning), der mødes, kan man konkludere, at det er en stor udfordrinng at lave systemer som tilbyder den ovenfor nævnte generelle funktionalitet. Udfordringen bliver kun større hvis man også inkluderer funktionalitet baseret på datas historie (fek.s. via dataversionering).
Forventet læringsudbytte
Ved kursets afslutning forventes den studerende at kunne:
- Beskrive de datatyper der normalt understøttes af et general purpose data management system, og for hver af dem diskutere de mest udbredte krav til data retrieval i form af søgninger over sådanne datatyper og/eller front-end applikationer.
- For hver datatype og søgeopgave som er blevet gennemgået i kurset beskrive de state-of-the-art tilgangsmetoder der understøtter disse opgaver, og argumentere mht. deres generalitet, effektivitet og skalabilitet.
- Beskrive de yderligere udfordringer som persistens og søgninger i forskellige versioner af data giver, og diskutere løsninger for de datatyper dere r blevet gennemgået i kurset.
- Beskrive og sammenligne de forskellige arkitekturer for integration af indekser som er blevet anvendt i general purpose data management systemer.
Emneoversigt
I dette kursus vil vi studere de forskellige tilgangsmetoder (dvs. indekser i samspil med relevante søge- APIér og algoritmer herfor) som normalt bliver understøttet af et general purpose data management system (f.eks. for numeriske, højdimensionale, temporale, spatiale, tekstbaserede, grafbaserede og fritekst data). Vi vil også diskutere de forskellige arkitekturer, som er blevet anvendt til at integrere disse i data management systems.
Litteratur