FØS8300 Data Science - frå data til konkurransefortrinn
Emneplan for studieåret 2022/2023
Innhald og oppbygging
Kurset vil lære studentane grunnleggjande teknikkar for å konvertere rå data til det som blir kalla eit ryddig datasett («tidy dataset»). Eit ryddig datasett vil vere organisert slik at det er lett å nytte ulike statistiske, grafiske og tabellariske rutinar for å analysere og samanfatte data. Prosessen med å generere eit ryddig datasett er utfordrande fordi rå data kan vere ikkje-ryddig på eit utal ulike måtar.
Kurset vil nytte programmeringsspråket R og eit sett av utvidingspakkar kalla «tidyverse» for å konvertere rådata til ryddige data. Det vil bli lagde vekt på at dette skal gjerast reproduserbart. Koden vil bli skriven i såkalla Quarto-dokument der ein kan kombinera tekst, sjølve koden og rapportering av resultata. Køyrer ein dokumentet skal rådata hentast inn, rådata skal konverterast til eit ryddig datasett og resultata skal rapporterast. Alt dette skal gjerast samstundes som dokumentet inneheld teksten i den ferdige rapporten. Innhaldet i slike Quarto-dokument kan også styrast mha. parametrar, slik at t.d. rapportar for ulike periodar kan genererast ved berre å endra eit par parametrar i starten av dokumentet.
Eit Quarto-dokument inneheld berre rein tekst. Dette gjer at me kan nytte versjonskontrollsystem (VKS) for å halde kontroll på prosessen med å utvikle dokumentet. Me vil i kurset nytte git/Github som VKS. Dette er eit distribuert VKS og gjer at fleire kan jobbe på same Quarto-dokument utan å øydeleggje for kvarandre. Ein vil også ha fleire uavhengige kopiar av dokumentet og det er også mogleg å gå tilbake til tidlegare versjonar av dokumentet (til tidlegare «commits»).
Meir i detalj vil kurset dekke korleis ein får rådata inn i R frå lokale filer, kommunikasjon med databasar og mha. api-ar mot eksterne dataserverar. Det vil vidare innehalde eit minikurs i klassisk R, men hovudvekta vil bli lagt på bruk av dei moderne rutinane i «tidyverse». Deltakarane vil også bli oppmoda til å bruka såkalla «pipes» i koden sin. «Pipes» har no vorte ein del av standard R (tidlegare var det støtta mha. tilleggspakkar). I rapportering av resultat vil me også i hovudsak nytta «tidyverse». Me vil også dekkja korleis enkle lineære modellar kan nyttast i analyse av data.
Læringsutbytte
Kunnskap
Ved fullført kurs skal studentane ha:
- kjennskap til prinsippa rundt eit «tidy»-datasett og korleis ein kjem frå vilkårlege mindre strukturerte datasett til eit strukturert «tidy» datasett
- kjennskap til fordelane med reproduserbar forsking og farane om reproduserbarheit vert ignorert
- kjennskap til prinsippa bak eit versjonskontrollsystem
- kjennskap til det statistiske programmeringsspråket R
- kjennskap til grunnleggande prinsipp for informativ presentasjon av data og resultat mha. grafikk
Ferdigheiter
- vere fortrolig med IDE-en R Studio
- vere i stand til å løyse enkle programmeringsproblem i R
- vere i stand til å lese og forstå dei vektigaste feilmeldingane i R
- vere i stand til å nytte Rs integrerte hjelpesystem
- vere i stand til å skrive strukturerte dokumenter innehaldande R kode (Quarto dokumenter)
- vere i stand til å skape ulike sluttformat frå R Markdown dokument (html, Microsoft Word og pdf (via LaTeX))
- vere i stand til å skrive matematiske symbol og uttrykk i R Markdown (via LaTeX matematikk syntaks)
- vere i stand til å bestemme synlegheiten av kode, tabellar, grafikk og resultata i eit R Markdown dokument
- vere i stand til å presentere resultata frå regresjonsanalysar i dynamiske regresjonstabellar
- vere i stand til å bruke verktøy frå «tidyverse» for å generere «tidy» datasett frå vilkårlege ustrukturerte datasett
- vere i stand til å nytte «pipes» for å skrive klar og kompakt R kode
- vere i stand til å skape grafiske representasjonar av data og resultat mha. R pakken ggplot2
- vere i stand til å nytte versjonskontrollsystemet git
- vere i stand til å kombinere git, Github og R Studio for å skrive rapportar med medforfattarar
- vere i stand til å nytte siteringsverktøya i R Studio (saman med Zotero og tillegget Better BibTeX)
Generell kompetanse
Etter gjennomført kurs vil studenten kunne skrive strukturerte og reproduserbare R Markdown dokument som inneheld datareinsing, analyse og presentasjon av resultata mha. tabellar og grafikk. Det heile vil vere gjort mot eit distribuert versjonskontrollsystem.
Krav til forkunnskapar
Generell studiekompetanse
Tilrådde forkunnskapar
Ingen
Undervisnings- og læringsformer
Undervisninga vil vere ein kombinasjon av førelesningar og oppgåveløysing mha. datamaskin. Studentane må skrive eit knippe kortare innleveringer i R Markdown der konvertering av datasett til «tidy» format vil vere eit sentralt tema.
Obligatorisk læringsaktivitet
Inga
Vurderingsform
Gjennom kurset vil studentane byggje ein portefølje på Github av korte artiklar og andre oppgåveløysingar. Porteføljen vil verte vurdert som bestått/ikkje bestått.
Hjelpemiddel ved eksamen
Alle hjelpemiddel
Meir om hjelpemiddel