Dansk

DM843: Unsupervised Learning (5 ECTS)

STADS: 15016001

Niveau
Kandidatkursus

Undervisningsperiode
Kurset udbydes efter behov.

Ansvarlige undervisere

Email: roettger@imada.sdu.dk

Skemaoplysninger

Hold	Type	Dag	Tidsrum	Lokale	Uger	Kommentar
Fælles	I	Mandag	16-18	IMADA semi	14-19
Fælles	I	Tirsdag	10-12	IMADA semi	14-19
Fælles	I	Tirsdag	11-13	IMADA semi	20
Fælles	I	Onsdag	16-18	U12	15	DM843 RR
Fælles	I	Onsdag	16-18	IMADA semi	16-20
Fælles	I	Torsdag	11-13	IMADA semi	20

Vis hele skemaet
Vis personligt skema for dette kursus.

Kommentar:
Ubegrænset deltagerantal.

Indgangskrav:
Ingen

Faglige forudsætninger:
Kendskab til elementær sandsynlighedsteori og programmeringsfærdighed.

Kursusintroduktion
I næsten alle områder som betjener sig af IT finder vi stadigt stigende mængder af tilgængelige data af mange typer. Størrelsen af data gør det umuligt manuelt at inspicere disse, og deduktion af viden ud fra data kræver avancerede, computerbaserede metoder. I dette kursus vil vi gennemgå en af de mest udbredte generiske metoder fra området Unsupervised Learning til at behandle datasæt: clustering. I clustering er målet at dele et givent datasæt ind i grupper (clusters) af objekter som ligner hinanden, hvilket øger indsigten i data og deres struktur. I kurset gennemgås en række clustering-metoder, og vi diskuterer deres anvendelse I forskellige områder såsom biologi, økonomi og sociologi.

Kompetencer

Selvstændigt at kunne identificere problemstillinger relateret til analyse af datasæt.
At kunne foretage data-baseret valg af velegnede værktøjer, mål og metoder til cluster-analyse i høj kvalitet, også i ukendte faglige områder.
At kunne vurdere kvaliteten og anvendeligeheden af en cluster-analyse.

Forventet læringsudbytte

Beskrive cluster-algoritmer og -modeller dækket i kurset.
Beskrive afstandsmål dækket i kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
Beskrive indexer for cluster-validitet dækket I kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
Formulere ovenstående med præcision i sprogbrug og notation.
Implementere cluster-algoritmer, pre-processeringsskridt, afstandsmål og indexer for cluster validitet dækket i kurset.
Udføre en fuld cluster-analyse baseret på disse implementationer.
Beskrive og forklare en fuld cluster-pipeline, fra data pre-processering, over udvælgelse af velegnede afstandsmål, til evaluering af resultaterne.
Beskrive implementation og eksperimentalt arbejde i et præcist og videnskabeligt sprog.

Emneoversigt
Interne og eksterne validitetsmål, similaritetsmål for forskellige datatyper, grafisk cluster-detektion, hierarkisk clustering, clustering baseret på optimering, finite mixture modeller, værktøjer til clustering.

Litteratur

Meddeles ved kursets start.

Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
Obligatoriske opgaver og præsentation af en eller flere videnskabelige artikler i undervisningen. Bestået/ikke bestået, intern censur, bedømmelse ved underviser. ()

Eksamen- og censurform:

Mundtlig eksamen. Bedømmes ved ekstern censur efter 7-trinsskalaen (5 ECTS). ()

Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 28 timer
Træningsfase: 12 timer, heraf:
- Eksaminatorie: 12 timer

Aktiviteter i studiefasen

Sprog
Dette kursus undervises på engelsk.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Denne kursusbeskrivelse var gyldig fra 1. februar 2016 til 31. januar 2017.