Nylig kom jeg på andreplass i "Maven Taxi Challenge" - en konkurranse hvor man skulle analysere 28 millioner taxiturer i New York. Basert på historiske data var målet å estimere ulike nøkkeltall for et vilkårlig ukenummer.
I ettertid har jeg fått flere spørsmål om hvordan jeg gikk frem for å gjøre analysen - og jeg bruker dermed ukens innsiktsbrev til å dele fremgangsmåte og noen refleksjoner fra prosessen. Noe er veldig konkret til Power BI, men det meste forhåpentligvis er relevant uavhengig av verkøy.
Først, her kan du se og teste sluttresultatet:
Her er fremgangsmåten for å sette opp analysen i Power BI:
Databehandling, modellering og optimalisering
1) Effektiv prosess for databehandling
Datasettet bestod av fire CSVer på rundt syv millioner rader i hver, hvor dataene også trengte mye "vask" for å kunne benyttes. Her var en nøkkel for min del å kombinere alle kildene først og deretter gjøre alle de nødvendige transformasjonsstegene - så slapp jeg gjøre mange kjedelige steg flere ganger.
2) Brukte DAX Studio for å redusere størrelsen på datamodellen
Med såpass mye data, så må man være nøye med hvordan man optimaliserer datamodellen for å ikke gjøre datasettet tyngre enn nødvendig. I utgangspunktet var filen 1,2 GB etter å ha lastet inn all data, som er en forferdelig "tung" fil i Power BI-sammenheng. Men, ved å bruke Dax Studio for å finne hvilke deler av modellen som tar mest kapasitet, så kunne jeg ved å gjøre noen små endringer redusere størrelsen med over 80% til 0,2 GB. Datasettet inneholdt to kolonner med "timestamp" som format (dato og klokkeslett i ett). Kun ved å skille disse til egne felt for dato og klokkeslett, så ble altså størrelsen redusert med 80%!
Slike enorme utslag viser viktigheten av å forstå effekten "kardinalitet" har på datastørrelsen i Power BI, men det er et stort eget tema.
Design og analyse
3) Velg fargepalett og tema
Jeg er fargeblind og har ellers heller ingen forutsetninger for å velge farger som passer godt sammen. Derfor bruker jeg alltid verktøy som https://imagecolorpicker.com/ for å få en fargepalett jeg kan benytte. Her laster jeg inn bilder av logo til selskapene jeg jobber for, eller i dette tilfellet bildet under av en grønn taxi. Da får jeg fargekoder på en fargepalett som kan brukes. Deretter laster jeg denne inn i "temaet" i Power BI - og vipps så blir design av de ulike visualiseringene mye enklere.
Jeg synes også at konsistent bruk av font har stor betydning for det endelige uttrykket av en rapport, og jeg legger også alltid dette inn i "temaet" i Power BI. I dette tilfelle valgte jeg "Segoe UI Light"
4) Design av viselle fremstillinger
Visuell fremstilling av data og innsikt er både en kunst og et stort tema. Jeg sitter på ingen måte på fasiten her, men to viktige elementer jeg forsøker å få til er:
- Gjøre det lett å se innsikten ved å fjerne unødvendig støy.
For eksempel, om målet er å vise at trenden går nedover over en periode: trenger du da alle detaljer på beløpene og detaljerte akselinjer? Dersom x-aksen viser årstall, trenger du da å ha en aksetittel som sier "år"?
- Forklare den viktigste innsikten med tekst
Folk flest leser og tolker en graf veldig ulikt. For å være sikker på at de absolutt viktigste poengene kommer tydelig frem så prøver jeg å skrive denne ut i tekst i tillegg til de underbyggende grafene.
3) Analyse
I dette tilfellet var det gitt veldig konkrete spørsmål man skulle besvare. Vanligvis ville jeg brukt mye mer tid på en "exploratory" (utforskende) fase for å lete etter hva som ville vært innsiktsfulle vinklinger.
Forskjellen på "exploratory" og "explanatory" analyse er veldig interessant. Veldig mange rapporter som lages i Power BI i norske virksomheter er ment for å være fleksible og oppdateres løpende over tid, slik at brukerne kan lete seg frem til den informasjonen og innsikten de ønsker. Resultatet er ofte at man viser data som andre må analysere i stedet for å kunne presentere tydelige funn og anbefalte aksjoner.
Les mer om exploratory vs explanatory analyse i dette tidligere innlegget
Spesielt interesserte kan se en videoen under hvor juryen vurderer 5 finalister. Mye nyttig input rundt beste praksis på datavisualisering.