DM79: Algoritmer til web-indeksering og -søgning (7.5 ECTS)

STADS: 1505541

Niveau


Undervisningsperiode

Se læseplanen eller spørg på instituttet.

Ansvarlige undervisere
Email: rolf@imada.sdu.dk

Skemaoplysninger
Der er ingen skemaoplysninger for den valgte periode.

Indgangskrav:
Ingen

Faglige forudsætninger:
DM02 skal være fulgt.

Kursusintroduktion
Internettet indeholder meget store mængder information. Omfanget samt den manglende struktur af denne information gør det til en udfordring at søge effektivt i den. Formålet med kurset er at give en indføring i de metoder som ligger til grund for moderne søgemaskiner, samt give andre aktuelle eksempler på datalogisk forskning med Internettet som emne.

Undervejs skal deltagerne implementere deres egen søgemaskine. Dette vil ske i større arbejdsgrupper, i den hensigt at øge deltagernes erfaring i samarbejde og projektstyring.

Forventet læringsudbytte
Efter kurset forventes den studerende at kunne:

- detaljeret forklare de algoritmiske og matematiske metoder bag hovedkomponenterne i en søgemaskine for WWW, herunder komponenterne for dataindsamling, indeksering, forespørgselsbesvarelse og rankning af svar.
- gengive de i kurset gennemgåede statistiske karakteristika for internetgrafen.
- forklare de i kurset gennemgåede modeller for internetgrafen og forklare deres egenskaber.
- forklare de øvrige i kurset gennemgåede algoritmiske og matematiske metoder af relevans for analyse af internettet, herunder metoder til at måle websiders similaritet.
- under udførelsen af ovenstående udvise matematisk præcision, logisk stringens, samt evne til at kunne udvælge de centrale og væsentlige dele af stoffet.
- konstruere en velfungerende prototype af en websøgemaskine ved at implementere de algoritmiske metoder bag hovedkomponenterne i en sådan søgemaskine, herunder komponenterne for dataindsamling, indeksering, forespørgselsbesvarelse og rankning af svar,
- på klar og velstruktureret måde dokumentere det udførte arbejde og designvalgene truffet undervejs, herunder beskrive den overordnede struktur af programmet samt principperne i de algoritmisk og programmeringsmæssigt centrale dele af programmet.

Emneoversigt
Opbygning af en søgemaskine: web crawling, indeksering, ranking, behandling af forespørgsler. Delemner herunder er bla. internet protokoller, algoritmer og datastrukturer for tekstdata, håndtering af massive datamængder, komprimering, og linkbaseret ranking. Derudover berøres emner som klassisk information retrieval, clustering, grafmodeller for internettet, web caching, samt anvendelser af spilteori på internettet.

Litteratur

    Artikelsamling


Kursets hjemmeside
Dette kursus benytter e-learn (blackboard).

Forudsætningsprøver
Ingen

Eksamen- og censurform:
Mundtlig eksamination. Ekstern censur, karakter efter 13-skalaen. Obligatorisk projektopgave, som tæller 2,5 ECTS af de 7,5 ECTS. Projektopgaven evalueres med B/IB, og skal være bestået for at man kan deltage i eksamen. Der er kun eksamen, når faget har kørt.

Vejledende timetal
På naturvidenskab er undervisningen tilrettelagt efter trefasemodellen dvs. intro, trænings- og studiefasen.

3 timers forelæsninger og/eller eksaminatorier pr. uge.
Aktiviteter i studiefasen

Sprog
Dette kursus undervises på engelsk, hvis der deltager internationale studerende, ellers undervises på dansk.

Bemærkninger
Kursets projekt er noget større end normale obligatoriske afleveringer i kurser.

Kursustilmelding
Se tilmeldingsfrister.

Pris for åben uddannelse
Se priser for enkeltkurser.

Denne kursusbeskrivelse var gyldig fra 1. september 2004 til 31. januar 2011.