DM555: Data mining og statistisk læring (10 ECTS)

STADS: 15016301

Niveau
Bachelorkursus

Undervisningsperiode
Kurset er placeret i forårssemesteret.

Ansvarlige undervisere
Email: marco@imada.sdu.dk

Skemaoplysninger
Hold Type Dag Tidsrum Lokale Uger Kommentar
Fælles I Mandag 10-12 U155 36,39
Fælles I Mandag 10-12 U56 37
Fælles I Mandag 10-12 U26A 38
Fælles I Mandag 10-12 U147 40-41,45-50
Fælles I Mandag 12-14 U155 43-44
Fælles I Onsdag 14-16 U155 43
Fælles I Torsdag 14-16 U57 3 Arthur Zimek
Fælles I Fredag 14-16 U155 36,38,46,48,50
Fælles I Fredag 12-14 U147 37
Fælles I Fredag 10-12 U152 41
Fælles I Fredag 10-12 U31 45
Fælles I Fredag 10-12 U56 47,49
H1 TE Mandag 12-14 U155 51
H1 TE Tirsdag 12-14 U155 36-41,43,48-50
H1 TE Tirsdag 12-14 U20 44-45
H1 TE Tirsdag 12-14 U142 46
H1 TE Tirsdag 12-14 U140 47
H1 TE Tirsdag 14-16 U12 51
H1 TE Fredag 10-12 U168 39
H1 TE Fredag 14-16 U155 40,44
Vis hele skemaet
Vis personligt skema for dette kursus.

Kommentar:
Ubegrænset deltagerantal.

Indgangskrav:
Ingen.

Faglige forudsætninger:
Studerende, der følger kurset, anbefales at:
  • Have kendskab til de basale begreber af diskrete metoder for datalogi.
  • Have kendskab til basale algoritmer og data strukturer
  • Have kendskab af grundelementer af sandsynlighedsteori som kan hentes samtidig til kurset, fx, fra det første del af kurset DM551, Algoritmer og sandsynlighed.
  • Kunne programmere


Formål
Kurset har til formål at sætte den studerende i stand til at vælge og bruge nøgleteknikker i data mining og statistisk læring, hvilket er vigtigt i forhold til at kunne analysere store datasæt i mange finansielle, medicinske, kommercielle og videnskabelige anvendelser.

Data mining og statistisk læring teknologier udstyrer beregningsmæssige systemer med evnen til at identificere meningsfulde mønstre i data og til adaptivt at forbedre deres resultater på basis af erfaringerne fra de observerede data.

Dette kursus introducerer de mest almindelige teknikker til at udføre grundlæggende opgaver indenfor data mining og statistisk læring, og dækker den grundlæggende teori, algoritmer og applikationer. Kurset balancerer teori og praksis, og dækker de matematiske såvel som de heuristiske aspekter. For de fleste af teknikkerne i pensum vil såvel de grundlæggende ideer og intuition som en formel beregningsmæssig beskrivelse præsenteres. Desuden vil de studerende have mulighed for at eksperimentere og anvende teknikker fra data mining og statistisk læring teknikker på udvalgte problemer.

Kurset bygger oven på den viden, der er erhvervet i kurserne DM507, Algoritmer og datastrukturer, og DM527 eller DM535 eller DM549, Diskrete metoder til datalogi, og giver et fagligt grundlag for at studere andre valgfri emner som bioinformatik og for at lave bachelor og master projekter såvel som andre praktiske studieaktiviteter, der er placeret senere i uddannelsen.

I forhold til uddannelsens kompetenceprofil har kurset eksplicit fokus på at:

  • Give kompetence til anvendelse af basale data mining og statistisk læringsmetoder til problemer fra den virkelige verden
  • Give færdigheder i at designe data mining og statistiske læringsmetoder
  • Give viden om de basale data mining og statistisk læringsopgaver og fremgangmåder.
  • Give viden om at kunne forstå og reflektere over teorier, metoder og praksis inden for det datalogiske fagområde
  • Give færdigheder i at kunne tilegne sig ny viden på en effektiv og selvstændig måde og kunne anven de denne viden reflekterende
  • Give færdigheder i at beskrive, analysere og løse datalogiske problemstillinger ved anvendelsen af metoder og modelleringsformalismer fra fagets kerneområder og dets matematiske støttediscipliner
  • Give færdigheder i at analysere fordele og ulemper ved forskellige algoritmer, specielt med hensyn til ressourceforbrug
  • Give færdigheder i at træffe og begrunde fagligt relaterede beslutninger
  • Give færdigheder i at beskrive, formulere og formidle problemstillinger og resultater til enten fagfæller og ikke specialister eller samarbejdspartnere og brugere


Målbeskrivelse
For at opnå kursets formål er det læringsmålet for kurset, at den studerende demonstrerer evnen til at:
  • Beskrive data mining og statistiske læringsopgaver præsenteret i løbet af kurset
  • Beskrive de algoritmer og metoder, der præsenteres i kurset
  • Beskrive de emner, der præsenteres i kurset i præcist matematisk sprog
  • Forstå og argumentere for de enkelte trin i matematiske afledninger præsenteret i klassen
  • Anvende metoderne på simple problemer
  • Anvendelse af metoderne til andre situationer end dem, der præsenteres i klassen
  • Reflektere over og vurdere design valg for data mining og statistiske systemer læring
  • Foretage eksperimentel evaluering af data mining og statistiske læringsmetoder og rapportere om resultaterne
Indhold
Kurset indeholder følgende faglige hovedområder:
  • gennemførligheden af læring;
  • fejl og støj;
  • træning vs testing;
  • teori om generalisering;
  • lineære modeller;
  • overfitting;
  • neurale netværk;
  • regularisering;
  • validering;
  • support vector maskiner;
  • statistisk hypotesetest;
  • itemsets og association rules mining.
Litteratur
Der er i øjeblikket ikke angivet nogle materialer for kurset.

Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
Ingen.

Eksamen- og censurform:
  1. Mundtlig eksamen delvist baseret på de obligatoriske opgaver. 7-trinsskala, ekstern censur (10 ECTS). (15016302)

I løbet af kurset stilles fire hjemmeopgaver. Sammen med udvalgte emner fra kurset danner disse grundlaget for den mundtlige eksamen i slutningen af kurset. Den endelige karakter vil blive baseret på et samlet indtryk af den studerendes præstation i de fem elementer, der indgår i evalueringen. Besvarelserne af de fire hjemmeopgaver vil blive stillet til rådighed for censor.

Reeksamen kører i det samme semester eller umiddelbart derefter. Reeksamen er en mundtlig eksamen, som bedømmes efter 7-trinsskalaen med ekstern censur.



Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 40 timer
Træningsfase: 30 timer, heraf:
 - Eksaminatorie: 30 timer

Aktiviteter i studiefasen Studiefase: 30 timer
Undervisningsform
Aktiviteter i studiefasen:
  • Løse hjemmeopgaver
  • Læsning af den tildelte litteratur
  • Anvendelse af det tilegnede viden i praktiske projekter


Sprog
Dette kursus undervises på dansk eller engelsk, afhængigt af underviseren. Dog altid på Engelsk ved deltagelse af internationale studerende.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Denne kursusbeskrivelse var gyldig fra 1. september 2016 til 31. august 2018.