DM843: Unsupervised Learning (5 ECTS)

STADS: 15016001

Niveau
Kandidatkursus

Undervisningsperiode
Kurset udbydes efter behov.

Ansvarlige undervisere
Email: roettger@imada.sdu.dk

Skemaoplysninger
Hold Type Dag Tidsrum Lokale Uger Kommentar
Fælles I Mandag 16-18 IMADA semi 14-19
Fælles I Tirsdag 10-12 IMADA semi 14-19
Fælles I Tirsdag 11-13 IMADA semi 20
Fælles I Onsdag 16-18 U12 15 DM843 RR
Fælles I Onsdag 16-18 IMADA semi 16-20
Fælles I Torsdag 11-13 IMADA semi 20
Vis hele skemaet
Vis personligt skema for dette kursus.

Kommentar:
Ubegrænset deltagerantal.

Indgangskrav:
Ingen

Faglige forudsætninger:
Kendskab til elementær sandsynlighedsteori og programmeringsfærdighed.

Kursusintroduktion
I næsten alle områder som betjener sig af IT finder vi stadigt stigende mængder af tilgængelige data af mange typer. Størrelsen af data gør det umuligt manuelt at inspicere disse, og deduktion af viden ud fra data kræver avancerede, computerbaserede metoder. I dette kursus vil vi gennemgå en af de mest udbredte generiske metoder fra området Unsupervised Learning til at behandle datasæt: clustering. I clustering er målet at dele et givent datasæt ind i grupper (clusters) af objekter som ligner hinanden, hvilket øger indsigten i data og deres struktur. I kurset gennemgås en række clustering-metoder, og vi diskuterer deres anvendelse I forskellige områder såsom biologi, økonomi og sociologi.

Kompetencer
  • Selvstændigt at kunne identificere problemstillinger relateret til analyse af datasæt.
  • At kunne foretage data-baseret valg af velegnede værktøjer, mål og metoder til cluster-analyse i høj kvalitet, også i ukendte faglige områder.
  • At kunne vurdere kvaliteten og anvendeligeheden af en cluster-analyse.
Forventet læringsudbytte
  • Beskrive cluster-algoritmer og -modeller dækket i kurset.
  • Beskrive afstandsmål dækket i kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
  • Beskrive indexer for cluster-validitet dækket I kurset, samt under hvilke betingelser de bør eller ikke bør anvendes.
  • Formulere ovenstående med præcision i sprogbrug og notation.
  • Implementere cluster-algoritmer, pre-processeringsskridt, afstandsmål og indexer for cluster validitet dækket i kurset.
  • Udføre en fuld cluster-analyse baseret på disse implementationer.
  • Beskrive og forklare en fuld cluster-pipeline, fra data pre-processering, over udvælgelse af velegnede afstandsmål, til evaluering af resultaterne.
  • Beskrive implementation og eksperimentalt arbejde i et præcist og videnskabeligt sprog.
Emneoversigt
Interne og eksterne validitetsmål, similaritetsmål for forskellige datatyper, grafisk cluster-detektion, hierarkisk clustering, clustering baseret på optimering, finite mixture modeller, værktøjer til clustering.

Litteratur
    Meddeles ved kursets start.


Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
Obligatoriske opgaver og præsentation af en eller flere videnskabelige artikler i undervisningen. Bestået/ikke bestået, intern censur, bedømmelse ved underviser. ()

Eksamen- og censurform:
  1. Mundtlig eksamen. Bedømmes ved ekstern censur efter 7-trinsskalaen (5 ECTS). ()
Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 28 timer
Træningsfase: 12 timer, heraf:
 - Eksaminatorie: 12 timer

Aktiviteter i studiefasen

Sprog
Dette kursus undervises på engelsk.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Denne kursusbeskrivelse var gyldig fra 1. februar 2016 til 31. januar 2017.