Dansk

DM843: Unsupervised Learning (5 ECTS)

STADS: 15016001

Niveau
Kandidatkursus

Undervisningsperiode
Kurset udbydes efter behov.

Ansvarlige undervisere

Email: roettger@imada.sdu.dk

Skemaoplysninger

Hold	Type	Dag	Tidsrum	Lokale	Uger
Fælles	I	Tirsdag	08-10	IMADA Seminarrum	20
Fælles	I	Onsdag	12-14	IMADA Seminarrum	16-20
Fælles	I	Torsdag	12-14	IMADA Seminarrum	16-19

Vis hele skemaet
Vis personligt skema for dette kursus.

Kommentar:
Ubegrænset deltagerantal

Indgangskrav:
Ingen

Faglige forudsætninger:
Kendskab til elementær sandsynlighedsteori og programmeringsfærdighed.

Kursusintroduktion
I næsten alle områder som betjener sig af IT finder vi stadigt stigende mængder af tilgængelige data af mange typer. Størrelsen af data gør det umuligt manuelt at inspicere disse, og deduktion af viden ud fra data kræver avancerede, computerbaserede metoder. I dette kursus vil vi gennemgå en af de mest udbredte generiske metoder fra området Unsupervised Learning til at behandle datasæt: clustering. I clustering er målet at dele et givent datasæt ind i grupper (clusters) af objekter som ligner hinanden, hvilket øger indsigten i data og deres struktur. I kurset gennemgås en række clustering-metoder, og vi diskuterer deres anvendelse I forskellige områder såsom biologi, økonomi og sociologi.

Kompetencer

Selvstændigt at kunne identificere problemstillinger relateret til analyse af datasæt.
At kunne foretage data-baseret valg af velegnede værktøjer, mål og metoder til cluster-analyse i høj kvalitet, også i ukendte faglige områder.
At kunne vurdere kvaliteten og anvendeligeheden af en cluster-analyse.

Forventet læringsudbytte

Beskrive cluster-algoritmer og -modeller dækket i kurset.
Beskrive afstandsmål dækket i kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
Beskrive indexer for cluster-validitet dækket I kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
Formulere ovenstående med præcision i sprogbrug og notation.
Implementere cluster-algoritmer, pre-processeringsskridt, afstandsmål og indexer for cluster validitet dækket i kurset.
Udføre en fuld cluster-analyse baseret på disse implementationer.
Beskrive og forklare en fuld cluster-pipeline, fra data pre-processering, over udvælgelse af velegnede afstandsmål, til evaluering af resultaterne.
Beskrive implementation og eksperimentalt arbejde i et præcist og videnskabeligt sprog.

Emneoversigt
Interne og eksterne validitetsmål, similaritetsmål for forskellige datatyper, grafisk cluster-detektion, hierarkisk clustering, clustering baseret på optimering, finite mixture modeller, værktøjer til clustering.

Litteratur

Meddeles ved kursets start.

Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
Projektopgave: Skal være bestået, for at man kan deltage i eksamen. Bedømmes efter bestået/ ikke bestået, ingen genaflevering. (15016012)

Eksamen- og censurform:

Mundtlig eksamen. Bedømmes ved ekstern censur efter 7-trinsskalaen (5 ECTS). (15016002)

Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 15 timer
Træningsfase: 5 timer, heraf:
- Eksaminatorie: 5 timer

Aktiviteter i studiefasen
Projektet udgør en betydelig del af arbejdsbelastningen i kurset

Sprog
Dette kursus undervises på engelsk.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Denne kursusbeskrivelse var gyldig fra 1. februar 2015 til 31. januar 2016.