Tord Selmer-Nedrelid (twitter: @nedrelid) i Edda Media twitret: “Vi har gjort en eyetracktest av fire av Edda nettaviser. Her er noen resultater: http://sandkasse.eddamedia.no/2011/12/15/slik-leses-edda-medias-nettaviser/ #eddamedia @eddasandkasse”. Testen ble gjort på 8 brukere som deltok i en brukertest med eyetracking. Utvalget var mellom 20 og 60 som også var jevnlige lesere av Eddas aviser i distriktene. Hovedkonklusjonen synes å være:
Undersøkelsen viser blant annet at så godt som hele artikkelteksten leses og at folk scroller og leser langt nedover frontene.
(NB! les også “Korreksjon” i bunnen av dette innlegget)
Jeg synes det er flott at Edda Media publiserer resultatene fra sin brukertest på sin blogg, det er en praksis flere gjerne kunne ha fulgt. Da får man anledning til å diskutere hverandres erfaringer med ulike problemstillinger og bringe oss ett skritt videre. Jeg har ikke store problemer med å akseptere konklusjonene basert på erfaringer av å ha sett brukere lese nyheter på nett i andre brukertester.
MEN:
Jeg har et stort problem med at dette er konklusjoner fra en enkelt eyetrackingtest på 8 personer.
Derfor har jeg lyst til å bruke denne testen som grunnlag for å diskutere hva man kan lære av brukertesting (med eyetracking) kontra andre former for testing. Ok, la oss ta resultatene etter tur:
- Når folk kommer inn på fronten er typisk adferd at de scroller langt nedover siden for å få et overblikk før de scroller opp igjen og velger saker de vil klikke på.
- Inne i artikkelen leser folk langt nedover i teksten.
Dette er konklusjoner om folk flest (litt usikker her fordi @nedrelid skriver at han endrer “testbrukere” til “folk” – noe som kan forklare forvirringen), men hvis det er en generalisering om folk flest og hvordan de bruker en avis, så er det ikke gyldige/riktige konklusjoner. Grunnen til dette er at man har et utvalg på 8 personer og prøver å gjøre en antakelse om generell adferd basert på dette. Dette blir som å stille seg opp i et lyskryss, telle fargen på de 8 første bilene som passerer og konkludere med at de aller fleste bilene folk kjører er hvite, med røde biler på en andreplass. Det er en riktig observasjon, men det er en grov aggregeringsfeil. Man må ha et større statistisk grunnlag for å kunne si noe gyldig om en slik generell adferd. Dette kan også være et resultat av at når testbrukere er i lab, så gjør de visse ting litt mer nøye enn om de hadde gjort det hjemme.
Korrekt metode: her trenger man kvantitet og antakelig er det bare trafikkdata som vil gi definitivt svar medmindre man skal ta et stort antall eyetracking tester. Webanalyse er mitt tips.
Vi går videre til neste funn:
- Folk klagde på til dels for store bilder og titler på fronten.
OK. Testbrukerne klagde over store bilder og titler. Igjen er dette ikke gyldig for folk flest. Det er 8 personers mening om noe generelt som man trenger langt flere synspunkter på for å kunne konkludere riktig på. Det er en gyldig observasjon, men ikke noe man kan si at folk flest mener. Jeg er også usikker på om man klarer å teste dette på annen måte enn å se på en A/B test hvor man varierer størrelsen på bilder og ser om det har noen effekt på brukerne. En spørreundersøkelse selv med mange respondenter vil gi et resultat man ikke kan stole på og fordi dette er en designbeslutning som ikke egentlig bør tas basert på om folk liker det eller ikke.
Korrekt metode: AB-testing med webanalyseverktøy.
De to neste funnene er støttet av en annen (stor) undersøkelse:
- Mellomtitler er viktige blikkfang (Som påvist i andre eyetrackundersøkelser, f.eks Poynters )
- Ansikter er blikkfang i bilder (Også påvist i Poynters undersøkelse)
Dette er litt anderledes fordi her finner man resultater som stemmer overens med en annen (større) test. Poynters test ser ut til å være basert på et statistisk tallmateriale som er litt mer holdbart: “We used eyetracking equipment to give us a precise account of how 582 people in four U.S. cities viewed their hometown newspapers and Web sites” (http://www.poynter.org/extra/Eyetrack/). Selv om undersøkelsen er fra 2007, og sannsynligvis brukte noe dårligere teknologi enn vi har i dag, så har jeg ingen grunn til å tvile på disse resultatene. Det at folk fokuserer på ansikter i bilder er også påvist i mange andre tester.
Korrekt metode: Poynter har gjort det riktig, men en slik test koster masse og antakelig er resultatet ikke til så veldig stor hjelp (?).
De to neste funnene er litt underlige, men dette er:
- Bilder i hele tekstbredden er ikke et hinder for lesning når folk er interessert.
- Ikke overraskende indikerer testen at godt skrevne saker om engasjerende emner leses mer enn tyngre tekster om mer abstrakte emner.
Ok, jeg får ta artikkelforfatterens ord på det. Det er to påstander som vanskelig lar seg teste, men som virker rimelig.
Korrekt metode: tja, ikke sikker på hva jeg skal med disse resultatene, men vil jeg vite mer om folks interesser mht. temaer er igjen trafikkdata veldig nyttig. Spørreundersøkelse kan gi ny kunnskap dersom man lanserer nye emner.
De neste to funnene er gjengangere i brukertesting:
- Siden det er et tomrom nedenfor brødteksten får ikke leseren med seg elementene lengre ned
- Elementer i høyrespalten, som faktabokser, får liten oppmerksomhet, i det minste når de står helt alene.
Dette er to resultater som forsåvidt stemmer overens med andre brukertester. Vi vet at brukerne scanner midtkolonner/innhold først og deretter ser på høyre- og venstrespalter – litt avhengig av layout og nettjenestens hensikt – men i en 3 kolonnestruktur (og særlig innholdsnettsteder) er dette noe vi ser gang på gang i brukertester. Det er også vanlig at når noe avsluttes med mye whitespace under, så tror mange av brukerne at det slutter der og gå videre. Denne situasjonen ligner på det som skjer når brukerne ikke scroller under “folden” fordi det er tomrom akkurat rett over og brukeren ser ikke at teksten fortsetter. (Nei, vi gidder ikke å diskutere “foldens” relevans i dagens responsive design ;)).
Korrekt metode: brukertesting vil gi disse svarene, koblet med støtte i usabilitylitteraturen forøvrig er dette ok. Strengt tatt trenger vi mer informasjon om faktabokser i høyrespalten, men jeg kjøper konklusjonen.
OK, for å oppsummere raskt og gi noen generelle råd om brukertesting- og metoder.
Konklusjon: hva kan man stole på?
Dersom man har en situasjon hvor man er ute etter folks subjektive mening om noe så er det viktig å bruke kvantitative teknikker. For visse problemstillinger som går på smak og holdninger så kan man bruke spørreundersøkelser, for andre problemstillinger som går på hva folk foretrekker bør man bruke for eksempel en AB-test med webanalyse (google analytics etc.) for å se hvilke valg brukerne tar når de har likeverdige valg.
Dersom man har en situasjon hvor man skal undersøke om noen klarer å gjennomføre en oppgave – f.eks. finne en konkret artikkel i en nettavis eller handle et produkt i en nettbutikk – da fungerer brukertest med eyetracking veldig bra. Det er imidlertid ikke slik at man kan konkludere på hva man ser er gyldig for alle som bruker nettstedet. Ser vi en person som snubler i utsjekksprosessen på en nettbutikk så er logikken slik: Vi ser hva han gjør, hvor han får problemer… er hans handlinger slik at vi antar at dette kommer til å skje for flere brukere? Selv om vi ikke vet omfanget av problemet er det sannsynlig at om vi gjør endringer, vil dette komme flere tilgode eller er dette et resultat av hvordan han havnet i situasjonen og at vi kan avskrive det som et enkelttilfelle? Dette er en vurdering man må gjøre, man kan ikke si det med 100% sannsynlighet at det er riktig. Vi må bruke vår kunnskap om design og brukeradferd for å gjøre en kvalifisert gjetning om at dette er et vesentlig funn. Det blir som å observere 8 personer som går inn en dør med høy dørstokk. 1 av personene snubler, mens 7 passerer uten problemer. Vi spør oss om det er sannsynlig om flere vil snuble og om det koster oss mye å senke dørstokken for å gjøre inngangen lettere. Svaret er basert på erfaring, kunnskap om alternative løsninger og en vurdering av alternativene.
Adferd analyseres anderledes enn subjektive meninger og krever andre metoder. Når du gjør analyser må du vite hva du tester og bruke riktig testmetode til å komme frem til et gyldig svar.
Korreksjon
Jeg hadde en twitterdialog med @nedrelid på twitter og han innrømmer at han vet gyldigheten av testen og at han presisert dette i artiklen (han skriver) : “(I folkelighetens navn generaliserer vi i resten av teksten og skriver folk når vi mener testpersonene.)”. Vi var også enige om at skaden er nok ikke stor og at Edda Media bruker resultatene deretter. Men jeg synes dette var en fin anledning til å ta opp testmetoder og gyldighet OG jeg synes ikke at han burde ha endret “testpersonene” til “folk” ;)
Jeg oppfordrer også alle til å publisere resultater fra slike analyser slik at vi kan lære av hverandre!
Hei igjen Haakon
Bra metodisk gjennomgang, og takk for skryt om åpenhet. Jo flere som deler kunnskap, desto smartere blir vi alle.
En brukertest basert på åtte personer har selvsagt sine begreningsninger, og jeg påpeker metodikken i bloggposten. Det er fint du utdyper dette.
Sånn jeg leser bloggposten din er det stort sett min omskriving fra “testpersonene” til “folk” du kritiserer.
Jeg valgte bevisst å generalisere for å tilgjengeliggjøre innholdet og gjøre språket mer lettlest. Siden antallet testpersoner er tydelig understreket i teksten vil forhåpentlig de som leser dette sette resultatene i sin rette sammenheng, slik du på framifrå vis har gjort.
Og bare så det er klar: Dette er en liten del av en av de testmetodene vi bruker når vi utvikler nettstedene våre. Vi lever ikke i den tro at dette er den evige åpenbarte sannhet om verdensbefolkningens nettadferd.
En annen stor utfordring når resultater av tester som dette skal vurderes er hvor mye resultatene påvirkes av at testpersonene vet at de gjennomfører en test. Hvor mye endrer de adferd fordi de skal være flinke og samvittighetsfulle testere?
Takk for det :)
Du har rett i at min hovedinnvending er det noe lettbeinte grepet å erstatte “testbrukere” til “folk” fordi det er der den store generaliseringen blir feil, selv om du skriver det eksplisitt i innlegget ditt.
Jeg synes selv at brukertesting (og eyetracking) har sin helt naturlige plass i verktøykassen når man gjør analyser av et nettsted, mitt poeng er bare å passe på at man trekker riktig type konklusjoner av en viss type test.
Brukertesting i lab (med eller uten eyetracking) er godt egnet til å få kunnskap om feil og mangler man har på nettstedet og særlig de feilene som kan tilskrives adferd/handlinger og i mindre grad holdninger. Det er også som nevnt farlig å generalisere en type adferd – f.eks. at noen leser hele artikkelen – til å gjelde en større mengde brukere.
Jeg må også legge til at Edda Medias åpenhet rundt resultatene av testingen har fått meg til å spørre kunden jeg leverte en rapport til i dag om vi får lov å gå ut med det offentlig ;) Kanskje vi om kort tid kan diskutere ett nytt case om kunden får det godkjent internt!?
Hei Haakon
Takk for at du setter fokus på flere viktige poeng når det gjelder eyetracking og brukertesting.
Først og fremst: Du har helt rett i at 8 testpersoner ikke er nok til å si noe generelt om hvor stor prosentandel av alle personer som vil ha problemer med bruk av en nettside. Man kan heller ikke bruke eyetracking med åtte testpersoner og si at man basert på det har sett vet hva det vanligste lesemønsteret til alle brukere av nettsiden er.
Jeg vil gjerne komme med et par oppklaringer. Slik vi
bruker eyetracking i våre tester har den primært verdi som støtte til tolkning av det som skjer under testen og for å illustere resultatene fra den kvalitative brukertesten. Legg merke til at at jeg bruker ordet illustere og ikke bevise.
Det som ikke kommer fram er at det ikke bare er eyetracking-resultater som benyttes for å si om noe er et problem eller
ikke. Observasjon, ytringer fra testpersoner, erfaring fra
evaluatorer – alt dette ses på samlet. Brukertester viser spekteret av problemer som kan oppstå, selv om vi ikke kan si så mye om prosentvis hvor mange som vil oppleve de ulike problemene. Det må vi gjøre oppfølgingsundersøkelser for å finne utav, i testen blir det kun indikative funn på grunn av lite antall testpersoner. Dette betyr imidlertid ikke at problemene ikke vil oppstå, eller at det er noe man ikke trenger å ta hensyn til når man jobber videre med utforming av
siden.
Så, oppsummert: Problemene funnet er legitime, hvor store konsekvenser problemene har for brukerne kan muligens diskuteres (dette er erfaringsbasert fra evaluatorenes side, samt basert på observasjon), og prosentandelen personer som problemene vil oppstå for må måles på annet vis.
Vi er glade for å ha en kunde som Edda Media, som både er
opptatt av å teste det de gjør, og deler sine erfaringer og
testresultater slik at vi kan få i gang gode debatter om metoder. Det varmer et usability-hjerte!
Live
Veldig bra kommentarer som supplerer det Tord nevnte i sitt innlegg. Jeg er ganske sikker på at dere presiserte at det nettopp var funn knyttet til brukerne i testen og at enkelte av resultatene kun var indikasjoner på noe som eventuelt krever ytterligere analyse og testing for å gi absolutte svar.
Det er også umulig for meg å se av blogginnlegget til Tord hvilke resultater som er erfaringsbasert og hvilke som baseres på observasjoner der og da. Jeg er usikker på om konklusjoner som:
“Folk klagde på til dels for store bilder og titler på fronten.”
egentlig har noen hensikt – og/eller om dette fremstår som et problem for brukerne hvis de ikke sitter i en testsituasjon og blir gjort veldig oppmerksom på dette (?). Jeg har personlig ikke testet mange løsninger hvor dette er et uttalt problem.
Uansett, takk for svar og jeg ser frem til en større grad av åpenhet rundt testresultater og påfølgende diskusjoner i 2012 :)