MSB105 Data Science
Emneplan for studieåret 2022/2023
Innhald og oppbygging
Dette kurset vil forberede studentane for kvantitativ empirisk forsking. Kurset vil ikkje konsentrere seg om ulike økonometriske modellar, statistiske testar etc., men heller om korleis ein får rådata over i eit format kor desse modellane og testane kan nyttast. Kurs i statistikk og økonometri vil ofte eksponere studentane mot ulike datasett, men desse er ofte vel strukturerte og i eit format venta av dei statistiske rutinane. Når studenten sjølv skal utføre ei empirisk undersøking vil vedkommande snart erfare at verkelege datasett avviker kraftig frå dei vel strukturerte datasetta dei så langt har vore eksponert for. Det viktigaste formålet med dette kurset vil vere å gje studentane dei naudsynte ferdigheitene og reiskapane for å, på ein reproduserbar og vel dokumentert måte, komme frå rådata over til eit strukturert «tidy» datasett. Slike «tidy» datasett er veleigna for bruk med statistisk programvare.
Kurset vil også vere opptatt av at forskinga skal vere reproduserbar. Nye dataverktøy har gjort det langt lettare å leve opp til dette gylne prinsippet. Kurset vil introdusere studentane til desse reiskapane og gje dei moglegheit til å nytte desse ved å skrive strukturerte tekster som inneheld all manipulering av data, modellering og statistiske testar. Alt dette i et, eller fleire saman knyta, dokument, men utan at det ferdige dokumentet inneheld for mykje detaljar. Gitt dei rette verktøya vil andre forskarar, gjeve kjeldedokumentet og rådata, vere i stand til å reprodusere same artikkelen og dei same resultata. Koden som er gjømt i kjeldedokumentet vil utføre den naudsynte handsaminga av rådata, køyre alle modellar og testar og produsere dei eksakt same resultata som originalen. Ei mestring av desse nye verktøya vil vere av stor verdi for studentar som avgjer å skrive ei empirisk masteroppgåve.
I tillegg til kva som er nemnt ovanfor vil kurset også dekke emne som praktisk bruk av distribuerte versjonskontroll system (git og Github), litt R programmering og presentasjon av resultata mha. tabellar, grafikk og kart.
Læringsutbytte
Kunnskap
Ved fullført kurs skal studentane ha:
- kjennskap til prinsippa rundt eit «tidy»-datasett og korleis ein kjem frå vilkårlege mindre strukturerte datasett til eit strukturert «tidy» datasett
- kjennskap til fordelane med reproduserbar forsking og farane om reproduserbarheit vert ignorert
- kjennskap til prinsippa bak eit versjonskontrollsystem
- kjennskap til det statistiske programmeringsspråket R
- kjennskap til grunnleggande prinsipp for informativ presentasjon av data og resultat mha. grafikk
Ferdigheiter
- vere fortrolig med IDE-en R Studio
- vere i stand til å løyse enkle programmeringsproblem i R
- vere i stand til å lese og forstå dei vektigaste feilmeldingane i R
- vere i stand til å nytte Rs integrerte hjelpesystem
- vere i stand til å skrive strukturerte dokumenter innehaldande R kode (R Markdown dokumenter)
- vere i stand til å skape ulike sluttformat frå R Markdown dokument (html, Microsoft Word og pdf (via LaTeX))
- vere i stand til å skrive matematiske symbol og uttrykk i R Markdown (via LaTeX matematikk syntaks)
- vere i stand til å bestemme synlegheiten av kode, tabellar, grafikk og resultata i eit R Markdown dokument
- vere i stand til å presentere resultata frå regresjonsanalysar i dynamiske regresjonstabellar
- vere i stand til å bruke verktøy frå «tidyverse» for å generere «tidy» datasett frå vilkårlege ustrukturerte datasett
- vere i stand til å nytte «pipes» for å skrive klar og kompakt R kode
- vere i stand til å skape grafiske representasjonar av data og resultat mha. R pakken ggplot2
- vere i stand til å nytte versjonskontrollsystemet git
- vere i stand til å kombinere git, Github og R Studio for å skrive artiklar med medforfattarar
- vere i stand til å nytte siteringsverktøya i R Studio (saman med Zotero og tillegget Better BibTeX)
Generell kompetanse
Etter gjennomført kurs vil studenten kunne skrive strukturerte og reproduserbare R Markdown dokument som inneheld datareinsing, analyse, presentasjon av resultat mha. tabellar og grafikk i tillegg til referanse og siteringshandtering. Det heile vil vere gjort mot eit distribuert versjonskontrollsystem.
Krav til forkunnskapar
Opptak på Master of Science in Business (Siviløkonomstudiet)
Tilrådde forkunnskapar
Ingen
Undervisnings- og læringsformer
Undervisninga vil vere ein kombinasjon av førelesningar og oppgåveløysing mha. datamaskin. Studentane må skrive eit knippe kortare innleveringer i R Markdown der konvertering av datasett til «tidy» format vil vere eit sentralt tema.
Om det vert vurdert som hensiktsmessig vil kurset verte undervist på engelsk.
Obligatorisk læringsaktivitet
Ingen
Vurderingsform
Gjennom kurset vil studentane byggje ein portefølje på Github av korte artiklar og andre oppgåveløysingar. Porteføljen vil verte vurdert som bestått/ikkje bestått. I tilfelle ikkje bestått vil studenten få ekstra oppgåver og/eller ein sjanse til å forbetre eksisterande arbeid.
Hjelpemiddel ved eksamen
Alle hjelpemiddel
Meir om hjelpemiddel