Archive | December, 2011

Hvilke resultater kan man stole på ved brukertesting?

Tord Selmer-Nedrelid (twitter: @nedrelid) i Edda Media twitret: “Vi har gjort en eyetracktest av fire av Edda nettaviser. Her er noen resultater: http://sandkasse.eddamedia.no/2011/12/15/slik-leses-edda-medias-nettaviser/ #eddamedia @eddasandkasse”. Testen ble gjort på 8 brukere som deltok i en brukertest med eyetracking. Utvalget var mellom 20 og 60 som også var jevnlige lesere av Eddas aviser i distriktene. Hovedkonklusjonen synes å være:

Undersøkelsen viser blant annet at så godt som hele artikkelteksten leses og at folk scroller og leser langt nedover frontene.

(NB! les også “Korreksjon” i bunnen av dette innlegget)

Jeg synes det er flott at Edda Media publiserer resultatene fra sin brukertest på sin blogg, det er en praksis flere gjerne kunne ha fulgt. Da får man anledning til å diskutere hverandres erfaringer med ulike problemstillinger og bringe oss ett skritt videre. Jeg har ikke store problemer med å akseptere konklusjonene basert på erfaringer av å ha sett brukere lese nyheter på nett i andre brukertester.

MEN:

Jeg har et stort problem med at dette er konklusjoner fra en enkelt eyetrackingtest på 8 personer.

Derfor har jeg lyst til å bruke denne testen som grunnlag for å diskutere hva man kan lære av brukertesting (med eyetracking) kontra andre former for testing. Ok, la oss ta resultatene etter tur:

  • Når folk kommer inn på  fronten er typisk adferd at de scroller langt nedover siden for å få et overblikk før de scroller opp igjen og velger saker de vil klikke på.
  • Inne i artikkelen leser folk langt nedover i teksten.

Dette er konklusjoner om folk flest (litt usikker her fordi @nedrelid skriver at han endrer “testbrukere” til “folk” – noe som kan forklare forvirringen), men hvis det er en generalisering om folk flest og hvordan de bruker en avis, så er det ikke gyldige/riktige konklusjoner. Grunnen til dette er at man har et utvalg på 8 personer og prøver å gjøre en antakelse om generell adferd basert på dette. Dette blir som å stille seg opp i et lyskryss, telle fargen på de 8 første bilene som passerer og konkludere med at de aller fleste bilene folk kjører er hvite, med røde biler på en andreplass. Det er en riktig observasjon, men det er en grov aggregeringsfeil. Man må ha et større statistisk grunnlag for å kunne si noe gyldig om en slik generell adferd. Dette kan også være et resultat av at når testbrukere er i lab, så gjør de visse ting litt mer nøye enn om de hadde gjort det hjemme.

Korrekt metode: her trenger man kvantitet og antakelig er det bare trafikkdata som vil gi definitivt svar medmindre man skal ta et stort antall eyetracking tester. Webanalyse er mitt tips.

Vi går videre til neste funn:

  • Folk klagde på til dels for store bilder og titler på fronten.

OK. Testbrukerne klagde over store bilder og titler. Igjen er dette ikke gyldig for folk flest. Det er 8 personers mening om noe generelt som man trenger langt flere synspunkter på for å kunne konkludere riktig på. Det er en gyldig observasjon, men ikke noe man kan si at folk flest mener. Jeg er også usikker på om man klarer å teste dette på annen måte enn å se på en A/B test hvor man varierer størrelsen på bilder og ser om det har noen effekt på brukerne. En spørreundersøkelse selv med mange respondenter vil gi et resultat man ikke kan stole på og fordi dette er en designbeslutning som ikke egentlig bør tas basert på om folk liker det eller ikke.

Korrekt metode: AB-testing med webanalyseverktøy.

De to neste funnene er støttet av en annen (stor) undersøkelse:

  • Mellomtitler er viktige blikkfang (Som påvist i andre eyetrackundersøkelser, f.eks Poynters )
  • Ansikter er blikkfang i bilder (Også påvist i Poynters undersøkelse)

Dette er litt anderledes fordi her finner man resultater som stemmer overens med en annen (større) test. Poynters test ser ut til å være basert på et statistisk tallmateriale som er litt mer holdbart:  “We used eyetracking equipment to give us a precise account of how 582 people in four U.S. cities viewed their hometown newspapers and Web sites” (http://www.poynter.org/extra/Eyetrack/). Selv om undersøkelsen er fra 2007, og sannsynligvis brukte noe dårligere teknologi enn vi har i dag, så har jeg ingen grunn til å tvile på disse resultatene. Det at folk fokuserer på ansikter i bilder er også påvist i mange andre tester.

Korrekt metode: Poynter har gjort det riktig, men en slik test koster masse og antakelig er resultatet ikke til så veldig stor hjelp (?).

De to neste funnene er litt underlige, men dette er:

  • Bilder i hele tekstbredden er ikke et hinder for lesning når folk er interessert.
  • Ikke overraskende indikerer testen at godt skrevne saker om engasjerende emner leses mer enn tyngre tekster om mer abstrakte emner.

Ok, jeg får ta artikkelforfatterens ord på det. Det er to påstander som vanskelig lar seg teste, men som virker rimelig.

Korrekt metode: tja, ikke sikker på hva jeg skal med disse resultatene, men vil jeg vite mer om folks interesser mht. temaer er igjen trafikkdata veldig nyttig. Spørreundersøkelse kan gi ny kunnskap dersom man lanserer nye emner.

De neste to funnene er gjengangere i brukertesting:

  • Siden det er et tomrom nedenfor brødteksten får ikke leseren med seg elementene lengre ned
  • Elementer i høyrespalten, som faktabokser, får liten oppmerksomhet, i det minste når de står helt alene.

Dette er to resultater som forsåvidt stemmer overens med andre brukertester. Vi vet at brukerne scanner midtkolonner/innhold først og deretter ser på høyre- og venstrespalter – litt avhengig av layout og nettjenestens hensikt – men i en 3 kolonnestruktur (og særlig innholdsnettsteder) er dette noe vi ser gang på gang i brukertester. Det er også vanlig at når noe avsluttes med mye whitespace under, så tror mange av brukerne at det slutter der og gå videre. Denne situasjonen ligner på det som skjer når brukerne ikke scroller under “folden” fordi det er tomrom akkurat rett over og brukeren ser ikke at teksten fortsetter. (Nei, vi gidder ikke å diskutere “foldens” relevans i dagens responsive design ;)).

Korrekt metode: brukertesting vil gi disse svarene, koblet med støtte i usabilitylitteraturen forøvrig er dette ok. Strengt tatt trenger vi mer informasjon om faktabokser i høyrespalten, men jeg kjøper konklusjonen.

OK, for å oppsummere raskt og gi noen generelle råd om brukertesting- og metoder.

Konklusjon: hva kan man stole på?

Dersom man har en situasjon hvor man er ute etter folks subjektive mening om noe så er det viktig å bruke kvantitative teknikker. For visse problemstillinger som går på smak og holdninger så kan man bruke spørreundersøkelser, for andre problemstillinger som går på hva folk foretrekker bør man  bruke  for eksempel en AB-test med webanalyse (google analytics etc.) for å se hvilke valg brukerne tar når de har likeverdige valg.

Dersom man har en situasjon hvor man skal undersøke om noen klarer å gjennomføre en oppgave – f.eks. finne en konkret artikkel i en nettavis eller handle et produkt i en nettbutikk – da fungerer brukertest med eyetracking veldig bra. Det er imidlertid ikke slik at man kan konkludere på hva man ser er gyldig for alle som bruker nettstedet. Ser vi en person som snubler i utsjekksprosessen på en nettbutikk så er logikken slik: Vi ser hva han gjør, hvor han får problemer… er hans handlinger slik at vi antar at dette kommer til å skje for flere brukere? Selv om vi ikke vet omfanget av problemet er det sannsynlig at om vi gjør endringer, vil dette komme flere tilgode eller er dette et resultat av hvordan han havnet i situasjonen og at vi kan avskrive det som et enkelttilfelle? Dette er en vurdering man må gjøre, man kan ikke si det med 100% sannsynlighet at det er riktig. Vi må bruke vår kunnskap om design og brukeradferd for å gjøre en kvalifisert gjetning om at dette er et vesentlig funn. Det blir som å observere 8 personer som går inn en dør med høy dørstokk. 1 av personene snubler, mens 7 passerer uten problemer. Vi spør oss om det er sannsynlig om flere vil snuble og om det koster oss mye å senke dørstokken for å gjøre inngangen lettere. Svaret er basert på erfaring, kunnskap om alternative løsninger og en vurdering av alternativene.

Adferd analyseres anderledes enn subjektive meninger og krever andre metoder. Når du gjør analyser må du vite hva du tester og bruke riktig testmetode til å komme frem til et gyldig svar.

Korreksjon

Jeg hadde en twitterdialog med @nedrelid på twitter og han innrømmer at han vet gyldigheten av testen og at han presisert dette i artiklen (han skriver) : “(I folkelighetens navn generaliserer vi i resten av teksten og skriver folk når vi mener testpersonene.)”. Vi var også enige om at skaden er nok ikke stor og at Edda Media bruker resultatene deretter. Men jeg synes dette var en fin anledning til å ta opp testmetoder og gyldighet OG jeg synes ikke at han burde ha endret “testpersonene” til “folk” ;)

Jeg oppfordrer også alle til å publisere resultater fra slike analyser slik at vi kan lære av hverandre!

Leave a Comment
Follow

Get every new post delivered to your Inbox.