DM843: Unsupervised Learning (5 ECTS)

STADS: 15016001

Niveau
Kandidatkursus forhåndsgodkendt som PhD-kursus

Undervisningsperiode
Kurset er placeret i forårssemesteret.

Ansvarlige undervisere
Email: roettger@imada.sdu.dk

Skemaoplysninger
Hold Type Dag Tidsrum Lokale Uger Kommentar
Fælles I Onsdag 10-12 IMADA semi 5-11
Fælles I Torsdag 08-10 IMADA semi 5-11
H1 TE Tirsdag 08-10 IMADA semi 6-11
Vis hele skemaet
Vis personligt skema for dette kursus.

Kommentar:
Ubegrænset deltagerantal. Fælles undervisning med DM856.

Indgangskrav:
Ingen

Faglige forudsætninger:
Kurset er co-undervist med DM856. Kurset kan ikke blive valgt af studerende, der enten har fulgt, eller har bestået DM856.

Formål
I næsten alle fagområder som benytter sig af databehandling, finder vi stadigt stigende mængder af tilgængelige data af mange typer. Størrelsen af sådanne data gør det umuligt at inspicere manuelt, og udledning af viden ud fra data kræver derfor avancerede, computerbaserede metoder.

Formålet med kurset er at sætte den studerende til at anvende og forstå almindelige unsupervised learning-opgaver, f.eks clustering til ukendte datasæt. De studerende vil være i stand til at fortolke resultaterne og opdage skjulte strukturer i datasæt. Kurset vil fokusere på anvendelse på biomedicinske datasæt, men er generelt relevant for en lang række andre områder der arbejder med store datasæt.

Kurset bygger på færdigheder opnået i kurserne "Introduction to programming" og "Algorithms and Probability" eller tilsvarende og giver kompetencer til specialeskrivning indenfor området.

I forhold til uddannelsens kompetenceprofil har kurset eksplicit fokus på at:
  • Give viden om et udvalg af specialiserede modeller og metoder udviklet inden for datalogi baseret på den bedste internationale forskning, herunder emner fra fagets forskningsfront.
  • Give viden om datalogiske modeller og metoder beregnet til anvendelse i andre faglige områder.
  • Beskrive, analysere og løse avancerede datalogiske problemstillinger ved hjælp af de lærte modeller.
  • Belyse fremsatte hypoteser med kvalificeret teoretisk basis og forholde sig kritisk til egne og andres forskningsresultater og videnskabelige modeller.
  • Udvikle nye varianter af de lærte metoder, hvor det konkrete problem kræver det.
  • Formidle forskningsbaseret viden og diskutere professionelle og videnskabelige problemstillinger med både fagfæller og ikke-fagfolk.
  • Planlægge og udføre videnskabelige projekter på højt fagligt niveau, herunder styre arbejds- og udviklingssituationer, der er komplekse, uforudsigelige og forudsætter nye løsningsmodeller.


Målbeskrivelse
For at opnå kursets formål er det læringsmålet for kurset, at den studerende demonstrerer evnen til at:
  • Beskrive clustering-algoritmer og -modeller dækket i kurset.
  • Beskrive afstandsmål dækket i kurset og bedømme under hvilke betingelser de bør eller ikke bør anvendes.
  • Beskrive indekser for cluster-validitet dækket I kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
  • Formulere ovenstående med præcision i sprogbrug og notation.
  • Implementere clustering-algoritmer, præprocesseringsskridt, afstandsmål og indekser for cluster-validitet dækket i kurset.
  • Udføre en fuld cluster-analyse baseret på disse implementering.
  • Beskrive og forklare en fuld cluster-pipeline, fra data præprocessering, over udvælgelse af velegnede afstandsmål, til evaluering af resultater.
  • Beskrive implementering og eksperimentelt arbejde i et præcist og videnskabeligt sprog.
Indhold
Kurset indeholder følgende faglige hovedområder:
  • Interne og eksterne validitetsmål
  • similaritetsmål for forskellige datatyper
  • PCA og PcoA
  • mixture modeller og expectation maximization
  • Moderne clustering algoritmer             
 


Litteratur
    Meddeles ved kursets start.


Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
  1. Obligatoriske opgaver og præsentation af en eller flere videnskabelige artikler i undervisningen. Bestået/ikke bestået, intern censur, bedømmelse ved underviser. (15016012).
Eksamen- og censurform:
  1. Mundtlig eksamen. Bedømmes ved ekstern censur efter 7-trinsskalaen (5 ECTS). Tilladte hjælpemidler: Tavle/whiteboard. (15016002).
Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 24 timer
Træningsfase: 12 timer, heraf:
 - Eksaminatorie: 12 timer

Aktiviteter i studiefasen
  • Undersøgelse af moderne clustering algoritmer baseret på videnskabelige artikler.
  • Diskussioner og små projekter ledende klyngeanalyse.
Undervisningsform
I introfasen introduceres og perspektiveres begreber, teorier og modeller. I træningsfasen træner de studerende færdigheder og trænger dybere ned i det stof.

Sprog
Dette kursus undervises på engelsk.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Dette er den nyeste version af en kursusbeskrivelse, som trådte i kraft den 1. feb 2017.