Hvorfor er 5 brukere nok i en brukertest?

www.iallenkelhet.no er det en debatt om hvorvidt det er fornuftig å gjøre en måling av suksessrate og tid brukt på oppgaveløsning som en erstatning (?) til tradisjonell brukertesting. Bjørn Bergslien skriver om en metode for å beregne Task Performance Indicator (TPI). Videre hevder artikkelforfatteren at dette vil hjelpe deg til å måle effekten på nettstedet ditt og gi en score på skalaen:

  • TPI under 30 er ganske dårlig. Du har et stort problem.
  • TPI på 31-50 er greit nok. Men det er mye å ta tak i.
  • TPI på 51-70 er bra. Fortsatt mulig å forbedre nettstedet ditt.
  • TPI på over 70 er veldig bra. Men den burde vært 100, ikke sant?

Magnus Revang peker på at dette er faktorer som best avdekkes vha. webstatistikk. Jeg er enig med Magnus i dette og hevder videre at utvalget på 15-20 personer også er for lite til å kunne hevde at TPI tallene er gyldige. Eirik Havfer Rønjum spør meg da hvorfor 15 til 20 personer ikke er tilstrekkelig, mens 5 brukere er nok til å utføre en brukertest.

(Dere får korrigere meg om dere synes jeg refererer galt her :) ).

Dette var såpass interessant at jeg fikk lyst til å svare litt utfyllende her istedet, og jeg føler det blir litt for omfattende å svare på iallenkelhet.no fordi jeg begynner å bli litt offtopic i forhold til TPI saken ;)

@Eirik vel, brukertesting er en kvalitativ metode. Nei, man har ikke grunnlag til å mene noe om tidsbruk, frekvens eller uttalelser som subjektive meninger* eller annet som krever et visst antall brukere for å sies å være gyldig i en brukertest. Jeg skal ikke hevde at jeg aldri har brukt utsagn som “8 av 10 brukere klarte ikke å fullføre oppgaven”, men samtidig sier jeg aldri at 80% av brukerne dine vil ikke klare å gjøre dette. Det er en forskjell å snakke om observasjoner og å hevde noe generelt om noe.

Når man gjør brukertesting bør man ikke prøve å late som om man kan si noe kvantitativt om noe som helst så lenge utvalget er så lite som det som regler er.

Hvorfor er 5 brukere tilstrekkelig på brukertesting? Det er fordi det er ikke antall personer som gjør en handling / feil på nettstedet som teller, men heller tolkningen av handlingen om det er logisk at dette vil kunne gjelde for flere brukere og hvorvidt man da bør gjøre noe for å fikse det. Det er en kvalitativ vurdering av det man observerer som er gevinsten ved brukertesting.

EKSEMPEL
Nå nylig gjorde vi en brukertest av et nettsted som selger varer på nett. Nettstedet er norsk, men har kun engelsk språk. Vi hadde inne 8 brukere til test. Selv om mange av brukerne sa noe ala “dette nettstedet burde vært på norsk fordi jeg ikke er så flink med engelske ord innenfor [bransje]” og “JEG har ikke problemer med engelsk, men mange andre vil ha det” så vil ikke det i seg selv være tilstrekkelig til å hevde at man må oversette nettstedet… vi vil si at det var brukere som reagerte på det, men ikke at det er en direkte feil fordi alle brukerne som klagde på engelsk, hadde ikke problemer med å skjønne språket. MEN så gjør 1 av brukerne noe vesentlig: han stopper opp i det han skal kjøpe en vare og spør “får jeg toll på varene”? “Jeg er vant til at når jeg handler på utenlandske nettsteder så får jeg toll på varene, er dette egentlig et utenlandsk nettsted, sendes varene fra utlandet?”. (PS! Prisen sto i norske kroner (NOK) og det var et norsk flagg i hjørnet, men teksten var på engelsk).

Dette er 1 bruker – og det er alt vi trenger for å kunne trekke slutningen om at det vil være brukere der ute som har problemer med dette… så blir det en gjetning på hvor mye penger dette koster firmaet, men denne personen hadde en handlekurv på ca. 2000 kroner og ville sannsynligvis ha droppet kjøpet fordi usikkerheten ble for stor.
/EKSEMPEL

Eksemplet ovenfor viser at det er ikke antall brukere som er viktig , men hva som faktisk skjer for 1 – X antall unike individer. Det viser delvis også at det er ikke hva brukerne sier som er viktig, men hva de gjør.

Ja – 5 brukere er tilstrekkelig til å kjøre en brukertest – noen ganger holder det med EN bruker.

Ok, vil dere si – det du gjør her er å teste noe annet enn det vi er ute etter – vi ønsker å se hvor lang tid brukerne våre bruker på en oppgave og om de klarer det – ikke nødvendigvis HVA de gjør når de feiler. Da hevder jeg at 15 – 20 personer ikke er tilstrekkelig. Det er så fantastisk mange faktorer som avgjør tidsbruk på en oppgave som gjør at det blir nærmest useriøst å hevde at man kommer nær en sannhet med så lite utvalg.

Har lyst til å spørre hvordan dere setter sammen utvalget, men er redd at dere kommer til å svare at dere prøver å få inn så mange ulike aldersgrupper og demografiske bakgrunnsvariable som mulig… og da må vi diskutere det også :D

Hmm, etter noe research snubler jeg også over en artikkel av gode gamle Jakob Nielsen som sier at med 20 brukere kan dere håpe på en feilmargin på +/-19% og at dere må opp i 71 brukere for å redusere antallet til en feilmargin på +/- 10%. Dette gjelder da bare for tidsaspektet, dere har også med suksessrate og andre ting inn i miksen så jeg blir veldig usikker på verdien av TPI ;)

Sitat fra useit.com:

With 20 users, you’ll probably have one outlier (since 6% of users are outliers), so you’ll include data from 19 users in your average. This makes your confidence interval go from 243 to 357 seconds, since the margin of error is +/- 19% for testing 19 users.

You might say that this is still a wide confidence interval, but the truth is that it’s extremely expensive to tighten it up further. To get a margin of error of +/- 10%, you need data from 71 users, so you’d have to test 76 to account for the five likely outliers.

Jakob Nielsen (2006) om kvantitativ testing (http://www.useit.com/alertbox/quantitative_testing.html).

Leave a Comment