BMB819: Optimering af dataanalyse med R scripting (5 ECTS)

STADS: 01009801

Niveau
Kandidatkursus

Undervisningsperiode
Kurset er placeret i forårssemesteret.

Ansvarlige undervisere
Email: veits@bmb.sdu.dk

Skemaoplysninger
Hold Type Dag Tidsrum Lokale Uger Kommentar
Fælles I Mandag 10-12 U35 05,08-09
Fælles I Tirsdag 10-12 U142 08
Fælles I Onsdag 16-18 U10 06
Fælles I Onsdag 16-18 U10 08
Fælles I Torsdag 16-18 U14 06
Fælles I Torsdag 12-14 V10-412-2 08
Fælles I Torsdag 14-16 U7 09
Fælles I Fredag 10-12 U17 05
S1 TE Tirsdag 12-15 V10-412-2 08
S1 TE Tirsdag 12-14 U35 09-11
S1 TE Onsdag 16-18 U35 10-11
S1 TE Torsdag 14-16 V10-412-2 08
S1 TE Torsdag 16-18 U35 09
Vis hele skemaet
Vis personligt skema for dette kursus.

Indgangskrav:
Ingen

Faglige forudsætninger:
grundlæggende erfaring med statistik

Kursusintroduktion
Moderne forskning i biokemi og molekylærbiologi involverer såkaldte high-throughput eksperimenter. Formålet med disse eksperimenter er at måle så mange  molekyler af en bestemt type som muligt. Molekylerne er klassificeret i -omer såsom transcriptomer (RNA), hvor målingerne stammer fra microarrays eller proteomer (proteiner), hvor dataene stammer fra massespektrometriske målinger. Ved sådanne forsøg genereres store datamængder og det kræver en passende behandling af disse store datasæt at få optimal indsigt i det undersøgte biologiske system.
Støj i målingerne, skævhed (bias) der stammer fra prøveforberedelse samt generel kompleksitet i fortolkningen af eksperimentelle resultater kan overvindes ved at lave softwareløsninger, der behandler disse problemer på flere niveauer. Der findes allerede etablerede softwaremoduler, der er lette at bruge uden forudgående kendskab, men nye eksperimentelle designs og nye teknologier gør at disse ikke kan anvendes i en given situation.  Derfor har mange eksperimentalister brug for at konsultere en ekspert, f.eks. en bioinformatiker, selv i forbindelse med relativt simple problemstillinger. Denne flaskehals fører ofte til at projekter forhales og manglende viden om den korrekte behandling af data fører til usikkerhed om resultaternes gyldighed. Formålet med kurset er at rette op på denne mangel og introducere de studerende til de vigtigste koncepter i dataanalyse. Kurset vil have en teoretisk og en praktisk del, begge med det formål at give de studerende en generel forståelse af dataanalyse og dens anvendelse på reelle datasæt.

Blandt et stort antal mulige programmer har R scriptsprog vist sig meget populært til analyse af high-throughput data. Dette skyldes (i) at man kan tilpasse analysen til ethvert eksperimentelt design, ( ii ) at man v.h.a. simple kommandoer kan operere på hele datasæt, ( iii ), at programmeringssproget tilbyder et bredt udvalg af værktøjer til datavisualisering, ( iv ) at det er open source og (v) at der er et stort og aktivt netværk af forskere, der udvikler nye værktøjer. Det kræver imidlertid, at brugeren erhverver færdigheder i scripting, før det er muligt at drage fordel af de mange funktioner.
Kurset vil introducere studerende til grundlæggende programmering af R -scripts, datavisualisering og grundlæggende statistiske modeller, der er nødvendige for at behandle data fra moderne high-throughput eksperimenter. Kurset indebærer praktiske øvelser på reelle datasæt for eksempel fra forsøg tidligere udført af den studerende under deres kandidatstudier.

Kompetencer
Udvikling af enkle programmer til dataanalyse, statistisk vurdering af store datasæt, udvikle evnen til at skabe grafik på høj kvalitet.

Forventet læringsudbytte
De studerende skal være i stand til selvstændigt at analysere egne datasæt. De vil lære, hvordan man arbejder med store datasæt og foretager standard statistiske analyser for at identificere relevante egenskaber. Desuden skal de objektivt kunne diskutere anvendte metoder til dataanalyser præsenteret fx i publikationer. Kurset har til formål at tilbyde generelle færdigheder, der senere kan evt. bruges i en karriere i bioinformatik.

Emneoversigt

  1. Programmering
    - Generelle begreber for software implementering
    - Forståelse af R strukturen
    - Grundlæggende programmering af R-scripts
    - Anvendelse af operatører i beregninger på arrays og matricer
    - Datakonvertering, string-manipulation
  2. Bioinformatik / datamanipulation
    - Datanormalisering
    - Opdagelse af statistisk relevante funktioner
    - Multivariantanalyse
    - Brug af grafiske faciliteter
  3. Biostatistik
    - Grundlæggende statistik
    - Visualiseringsmetoder
    - Datamodellering
    - Statistiske tests 
Litteratur
Der er i øjeblikket ikke angivet nogle materialer for kurset.

Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
Ingen

Eksamen- og censurform:
  1. Individuel øvelse. Ekstern censur efter 7-trins skalaen (5 ECTS) (01009802).
  2. Øvelser. Bestået/ikke-bestået, intern bedømmelse ved underviser (01009812)

Reeksamen i samme eksamenstermin eller i umiddelbar forlængelse heraf



Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.
Introfase: 20 timer
Træningsfase: 16 timer, heraf:
 - Eksaminatorie: 16 timer

Aktiviteter i studiefasen Studiefase: 10 timer

Sprog
Dette kursus undervises på engelsk.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Denne kursusbeskrivelse var gyldig fra 1. februar 2014 til 31. januar 2015.