DM856: Unsupervised biomedical data analysis (5 ECTS)

STADS: 15019101

Niveau
Kandidatkursus

Undervisningsperiode
Kurset er placeret i forårssemesteret.

Ansvarlige undervisere
Email: roettger@imada.sdu.dk

Skemaoplysninger
Hold Type Dag Tidsrum Lokale Uger Kommentar
Fælles I Onsdag 10-12 IMADA semi 5-11
Fælles I Torsdag 08-10 IMADA semi 5-11
H1 TE Tirsdag 08-10 IMADA semi 6-11
Vis hele skemaet
Vis personligt skema for dette kursus.

Kommentar:
Ubegrænset deltagerantal. Fælles undervisning med DM843.

Indgangskrav:
Ingen

Faglige forudsætninger:
Kurset er co-underviste med DM843. Kurset kan ikke blive valgt af studerende, der enten har fulgt, eller har bestået DM843.

Formål
I næsten alle fagområder som benytter sig af databehandling, finder vi stadigt stigende mængder af tilgængelige data af mange typer. Størrelsen af sådanne data gør det umuligt at inspicere manuelt, og udledning af viden ud fra data kræver derfor avancerede, computerbaserede metoder.

Formålet med kurset er at sætte den studerende til at anvende og forstå almindelige unsupervised learning-opgaver, f.eks clustering til ukendte datasæt. De studerende vil være i stand til at fortolke resultaterne og opdage skjulte strukturer i datasæt. Kurset vil fokusere på anvendelse på biomedicinske datasæt, men er generelt relevant for en lang række andre områder der arbejder med store datasæt.

Kurset bygger på færdigheder opnået i kurserne "Introduktion til programmering", "Introduktion til bioinformatik" og giver kompetencer til specialeskrivning indenfor området.

I forhold til uddannelsens kompetenceprofil har kurset eksplicit fokus på at:
  • Generelt eksperimentelt design i forbindelse med statistisk og beregningsmæssig dataanalyse.
  • Detaljeret planlægning af eksperimenter til efterfølgende fortolkning af beregningsmæssige metoder.
  • Fortolkning af eksperimentelle data ved hjælp af beregningsmæssige metoder.
  • At vælge mellem videnskabelige teorier, metoder, redskaber og generelle egenskaber inden for beregningsmæssig biomedicin og bioinformatik, og anvende disse til undersøgelse af videnskabelige spørgsmål.
  • Udfordre den studerende med virkelige datasæt og problemløsningsfærdigheder.


Målbeskrivelse
For at opnå kursets formål er det læringsmålet for kurset, at den studerende demonstrerer evnen til at:
  • Beskrive clustering-algoritmer og -modeller dækket i kurset.
  • Beskrive afstandsmål dækket i kurset og bedømme under hvilke betingelser de bør eller ikke bør anvendes.
  • Beskrive indekser for cluster-validitet dækket I kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
  • Formulere ovenstående med præcision i sprogbrug og notation.
  • Implementere clustering-algoritmer, præprocesseringsskridt, afstandsmål og indekser for cluster-validitet dækket i kurset.
  • Udføre en fuld cluster-analyse baseret på disse implementering.
  • Beskrive og forklare en fuld cluster-pipeline, fra data præprocessering, over udvælgelse af velegnede afstandsmål, til evaluering af resultater.
  • Beskrive implementering og eksperimentelt arbejde i et præcist og videnskabeligt sprog.
Indhold
Kurset indeholder følgende faglige hovedområder:
  • Interne og eksterne validitetsmål
  • similaritetsmål for forskellige datatyper
  • PCA og PcoA
  • mixture modeller og expectation maximization
  • Moderne clustering algoritmer
Litteratur
    Meddeles ved kursets start.


Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
  1. Obligatoriske opgaver og præsentationer af en eller flere videnskablige artikler i klassen. Bestået/ikke-bestået, intern censur ved underviser. (15019112).
Eksamen- og censurform:
  1. Mundtlig eksamen, ekstern censur, 7-trinsskala. (5 ECTS). Tilladte hjælpemidler er Blackboard/whiteboard. (15019102).
Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 24 timer
Træningsfase: 12 timer, heraf:
 - Eksaminatorie: 12 timer

Aktiviteter i studiefasen
  • Undersøgelse af moderne clustering algoritmer baseret på videnskabelige artikler.
  • Diskussioner og små projekter ledende klyngeanalyse.
Undervisningsform
Kurset betår af forelæsninger suppleret med diskussionssessioner. De studerende vil få tilhørende opgaver, som knitter sig til de samlede emner og andvendelser. De studerende aktiveres gennem obligatoriske præsentationer af videnskabelige artikler.

Sprog
Dette kursus undervises på engelsk.

Bemærkninger
Studerende ikke indskrevet på Biomedicinsk informatik der ønsker dette kursus, skal tage kurset DM843, som der samlæses med.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Dette er den nyeste version af en kursusbeskrivelse, som trådte i kraft den 1. feb 2017.