DM555: Data mining og statistisk læring (10 ECTS)

STADS: 15016301

Niveau
Bachelorkursus

Undervisningsperiode
Kurset er placeret i forårssemesteret.

Ansvarlige undervisere
Email: vandinfa@imada.sdu.dk

Skemaoplysninger
Hold Type Dag Tidsrum Lokale Uger Kommentar
Fælles I Tirsdag 08-10 U146 6-8,10-13,15-16,18-22
Fælles I Torsdag 14-16 U146 6-8,13,16,18-19,21-22
Fælles I Fredag 10-12 U142 12
Fælles I Fredag 12-14 U146 20
H1 TE Onsdag 12-14 U142 6-7,22-23
H1 TE Onsdag 08-10 U142 10,12-13
H1 TE Onsdag 08-10 U143 11
H1 TE Onsdag 10-12 U147 15-19,21
H1 TE Onsdag 08-10 U146 20
H1 TE Fredag 10-12 U142 10
H1 TE Fredag 12-14 U146 11
Vis hele skemaet
Vis personligt skema for dette kursus.

Kommentar:
Ubegrænset deltagerantal.

Indgangskrav:
Ingen

Faglige forudsætninger:
Indholdet af DM507 Algoritmer og datastrukturer og DM527 eller DM535 eller DM549 Diskrete metoder til datalogi anbefales kendt. Kendskab til et programmeringssprog eller platform anbefales.

Kursusintroduktion
Data mining og statistisk læring er nøgleteknologier i analysen af store datasæt, samt i mange finansielle, medicinske, kommercielle og videnskabelige anvendelser. De udstyrer beregningsmæssige systemer med evnen til at identificere meningsfulde mønstre i data og til adaptivt at forbedre deres resultater på basis af erfaringerne fra de observerede data.

Dette kursus introducerer de mest almindelige teknikker til at udføre grundlæggende opgaver indenfor data mining og statistisk læring, og dækker den grundlæggende teori, algoritmer og applikationer. Kurset balancerer teori og praksis, og dækker de matematiske såvel som de heuristiske aspekter. For de fleste af teknikkerne i pensum vil såvel de grundlæggende ideer og intuition som en formel beregningsmæssig beskrivelse præsenteres. Desuden vil de studerende have mulighed for at eksperimentere og anvende teknikker fra data mining og statistisk læring teknikker på udvalgte problemer.

Kompetencer
Kurset forventes at give til de studerende:

  • Viden om de basale data mining og statistisk læringsopgaver og fremgangmåder.
  • Erfaring i anvendelse af basale data mining og statistisk læringsmetoder til problemer fra den virkelige verden.
  • Evne til at designe data mining og statistiske læringsmetoder.
Forventet læringsudbytte
Efter kurset forventes de studerende at kunne:

  • Beskrive data mining og statistiske læringsopgaver præsenteret i løbet af kurset
  • Beskrive de algoritmer og metoder, der præsenteres i kurset
  • Beskrive de emner, der præsenteres i kurset i præcist matematisk sprog
  • Forstå og argumentere for de enkelte trin i matematiske afledninger præsenteret i klassen
  • Anvende metoderne på simple problemer
  • Anvendelse af metoderne til andre situationer end dem, der præsenteres i klassen
  • Reflektere over og vurdere design valg for data mining og statistiske systemer læring
  • Foretage eksperimentel evaluering af data mining og statistiske læringsmetoder og rapportere om resultaterne
Emneoversigt
Grundelementer af sandsynlighedsteori; tail bounds; fejl og støj; gennemførlighed af læring; træning vs testing; teori om generalisering; lineære modeller; overfitting; neurale netværk; regularisering; validering; support vector maskiner; statistisk hypotesetest; itemsets og association rules mining.

Litteratur
    Meddeles ved kursets start.


Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
Ingen

Eksamen- og censurform:
  1. Mundtlig eksamen delvist baseret på de obligatoriske opgaver. 7-trinsskala, ekstern censur (10 ECTS). (15016302)

I løbet af kurset stilles fire hjemmeopgaver. Sammen med udvalgte emner fra kurset danner disse grundlaget for den mundtlige eksamen i slutningen af kurset. Den endelige karakter vil blive baseret på et samlet indtryk af den studerendes præstation i de fem elementer, der indgår i evalueringen. Besvarelserne af de fire hjemmeopgaver vil blive stillet til rådighed for censor.

Reeksamen kører i det samme semester eller umiddelbart derefter. Reeksamen er en mundtlig eksamen, som bedømmes efter 7-trinsskalaen med ekstern censur.



Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 40 timer
Træningsfase: 30 timer, heraf:
 - Eksaminatorie: 30 timer

Aktiviteter i studiefasen Studiefase: 30 timer

Sprog
Dette kursus undervises på dansk eller engelsk, afhængigt af underviseren. Dog altid på Engelsk ved deltagelse af internationale studerende.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Denne kursusbeskrivelse var gyldig fra 1. februar 2015 til 31. august 2016.