Hopp til innhald

MSB105 Data Science

Emneplan for studieåret 2024/2025

Innhold og oppbygning

Dette kurset vil forberede studentene for kvantitativ empirisk forskning. Kurset vil ikke konsentrere seg om ulike økonometriske modeller, statistiske tester etc., men heller om hvordan man får rådata over i et format hvor disse modellene og testene kan benyttes. Kurs i statistikk og økonometri vil ofte eksponere studentene mot ulike datasett, men disse er ofte velstrukturerte og i et format forventet av de statistiske rutinene. Når studenten selv skal utføre en empirisk undersøkelse vil vedkommende snart erfare at virkelig datasett avviker kraftig fra de vellstrukturerte datasettene de så lang har vært eksponert for. Det viktigste formålet med dette kurset vil være å gi studentene de nødvendige ferdigheter og verktøy for å, på en reproduserbar og vell dokumentert måte, komme fra rå data over til et strukturert «tidy» datasett. Slike «tidy» datasett er velegnet for bruk med statistisk programvare.

Kurset vil også være opptatt av at forskning skal være reproduserbar. Nye dataverktøy har gjort det langt lettere å leve opp til dette gylne prinsippet. Kurset vil introdusere studentene til disse verktøyene og gi dem muligheter til å bruke disse ved å skrive strukturerte tekster som inneholder all manipulering av data, modellering og statistiske tester. Alt dette i et, eller flere sammenknyttete, dokument, men uten at det ferdige dokumentet inneholder for mye detaljer. Gitt de riktige verktøyene vil andre forskere, gitt kildedokumentet og rådata, være i stand til å reprodusere samme artikkel og de samme resultatene. Koden gjemt i kildedokumentet vil utføre den nødvendige behandling av rådata, kjøre alle modeller og tester og frembringe de eksakt samme resultater som originalen. En mestring av disse nye verktøyene vil være av stor verdi for studenter som bestemmer seg for å skrive en empirisk masteroppgave.

I tillegg til hva som er nevnt ovenfor vil kurset også dekke emner som praktisk bruk av et distribuert versjonskontroll system (Git, Github), litt R programmering og presentasjon av resultater vha. tabeller, grafikk og kart.

Læringsutbytte

Kunnskap

Ved fullført kurs skal studentene ha:

  • kjennskap til prinsippene rundt et «tidy»-datasett og hvordan man kommer fra et vilkårlig mindre strukturert datasett til et strukturert «tidy» datasett
  • kjennskap til fordelene med reproduserbar forskning og farene hvis reproduserbarhet blir ignorert
  • kjennskap til prinsippene bak et versjonskontrollsystem
  • kjennskap til det statistiske programmeringsspråket R
  • kjennskap til grunnleggende prinsipp for informativ presentasjon av data og resultater vha. grafikk

Ferdigheter

  • være fortrolig med IDE-en R Studio
  • være i stand til å løse enkle programmeringsproblemer i R
  • være i stand til å lese og forstå de viktigste feilmeldingene i R
  • være i stand til å benytte Rs integrerte hjelpesystem
  • være i stand til å skrive strukturerte dokumenter inneholdende R kode (Quarto dokumenter)
  • være i stand til å frembringe ulike sluttformat fra Quarto dokumenter (html, Microsoft Word og pdf (via LaTeX))
  • være i stand til å skrive matematiske symboler og uttrykk i R Markdown (via LaTeX matematikk syntaks)
  • være i stand til å bestemme synligheten av kode, tabeller, grafikk og resultater i et Quarto dokument
  • være i stand til å presentere resultatene fra regresjonsanalyse i dynamiske regresjonstabeller
  • være i stand til å bruke verktøy fra «tidyverse» for å generere «tidy» dasett fra vilkårlige ustrukturerte datasett
  • være i stand til å benytte «pipes» for å skrive klar og kompakt R kode
  • være i stand til å frembringe grafiske representasjoner av data og resultater vha. R pakken ggplot2
  • være i stand til å benytte versjonskontrollsystemet git
  • være i stand til å kombinere git, Github og R Studio for å skrive artikler med medforfattere
  • være i stand til å benytte siteringsverktøyene i R Studio (sammen med Zotero og tillegget Better BibTeX)

Generell kompetanse

Etter gjennomført kurs vil studenten kunne skrive strukturerte og reproduserbare Quarto dokumenter som inneholder datarensking, analyse, presentasjon av resultater vha. tabeller og grafikk i tillegg til referanse og siteringshåndtering. Det hele vil være gjort mot et distribuert versjonskontrollsystem.

Krav til forkunnskaper

Ingen

Anbefalte forkunnskaper

Ingen

Undervisnings- og læringsformer

Undervisningen vil være en kombinasjon av forelesninger og oppgaveløsning vha. datamaskin. Studentene må skrive et knippe kortere innleveringer som Quarto dokumenter der konvertering av datasett til «tidy» format vil være et sentralt tema.

Hvis det blir vurdert som hensiktsmessig vil kurset bli undervist på engelsk.

Obligatorisk læringsaktivitet

Ingen

Vurderingsform

Gjennom kurset vil studentene bygge en portefølje på Github av korte artikler og andre oppgaveløsninger. Porteføljen vil bli vurdert som bestått/ikke bestått.

Hjelpemidler ved eksamen

Alle hjelpemiddel er tillatt

Mer om hjelpemidler