DM843: Unsupervised Learning (5 ECTS)
STADS: 15016001
Niveau
Kandidatkursus
Undervisningsperiode
Kurset udbydes efter behov.
Ansvarlige undervisere
Email: roettger@imada.sdu.dk
Skemaoplysninger
Hold |
Type |
Dag |
Tidsrum |
Lokale |
Uger |
Kommentar |
Fælles |
I |
Mandag |
16-18 |
IMADA semi |
14-19 |
|
Fælles |
I |
Tirsdag |
10-12 |
IMADA semi |
14-19 |
|
Fælles |
I |
Tirsdag |
11-13 |
IMADA semi |
20 |
|
Fælles |
I |
Onsdag |
16-18 |
U12 |
15 |
DM843 RR |
Fælles |
I |
Onsdag |
16-18 |
IMADA semi |
16-20 |
|
Fælles |
I |
Torsdag |
11-13 |
IMADA semi |
20 |
|
Vis hele skemaet
Vis personligt skema for dette kursus.
Kommentar:
Ubegrænset deltagerantal.
Indgangskrav:
Ingen
Faglige forudsætninger:
Kendskab til elementær sandsynlighedsteori og programmeringsfærdighed.
KursusintroduktionI næsten alle områder som betjener sig af IT finder vi stadigt stigende mængder af tilgængelige data af mange typer. Størrelsen af data gør det umuligt manuelt at inspicere disse, og deduktion af viden ud fra data kræver avancerede, computerbaserede metoder. I dette kursus vil vi gennemgå en af de mest udbredte generiske metoder fra området Unsupervised Learning til at behandle datasæt: clustering. I clustering er målet at dele et givent datasæt ind i grupper (clusters) af objekter som ligner hinanden, hvilket øger indsigten i data og deres struktur. I kurset gennemgås en række clustering-metoder, og vi diskuterer deres anvendelse I forskellige områder såsom biologi, økonomi og sociologi.
Kompetencer
- Selvstændigt at kunne identificere problemstillinger relateret til analyse af datasæt.
- At kunne foretage data-baseret valg af velegnede værktøjer, mål og metoder til cluster-analyse i høj kvalitet, også i ukendte faglige områder.
- At kunne vurdere kvaliteten og anvendeligeheden af en cluster-analyse.
Forventet læringsudbytte
- Beskrive cluster-algoritmer og -modeller dækket i kurset.
- Beskrive afstandsmål dækket i kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
- Beskrive indexer for cluster-validitet dækket I kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
- Formulere ovenstående med præcision i sprogbrug og notation.
- Implementere cluster-algoritmer, pre-processeringsskridt, afstandsmål og indexer for cluster validitet dækket i kurset.
- Udføre en fuld cluster-analyse baseret på disse implementationer.
- Beskrive og forklare en fuld cluster-pipeline, fra data pre-processering, over udvælgelse af velegnede afstandsmål, til evaluering af resultaterne.
- Beskrive implementation og eksperimentalt arbejde i et præcist og videnskabeligt sprog.
EmneoversigtInterne og eksterne validitetsmål, similaritetsmål for forskellige datatyper, grafisk cluster-detektion, hierarkisk clustering, clustering baseret på optimering, finite mixture modeller, værktøjer til clustering.
LitteraturMeddeles ved kursets start.
Kursets hjemmeside
Dette kursus benytter
e-learn (blackboard).
Forudsætningsprøver
Obligatoriske opgaver og præsentation af en eller flere videnskabelige artikler i undervisningen. Bestået/ikke bestået, intern censur, bedømmelse ved underviser. ()
Eksamen- og censurform:
- Mundtlig eksamen. Bedømmes ved ekstern censur efter 7-trinsskalaen (5 ECTS). ()
Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 28 timer
Træningsfase: 12 timer, heraf:
- Eksaminatorie: 12 timer
Aktiviteter i studiefasen
Sprog
Dette kursus undervises på engelsk.
Kursustilmelding
Se tilmeldingsfrister.
Pris for åben uddannelse
Se priser for enkeltkurser.
Denne kursusbeskrivelse var gyldig fra 1. februar 2016 til 31. januar 2017.