Archive | September, 2010

Continued debate about the “Task Performance Indicator”

Continued debate from: http://www.iallenkelhet.no/slik-maler-du-effekten-av-nettstedet-ditt/

@Gerry McGovern and @Bjørn: I have to say that even though a webguru like McGovern uses this method and argues quite well about its advantages, I don’t trust the results and the TPI number will be… well… useless?

You both say that the “optimal time” for the task is the most difficult part of the equation. The way you calculate this number is a “black box” of mystery as @bjørn said earlier – you use the customer, the fastest participant, your own expertise…. “We take a number of issues into account” (McGovern). I’m sorry but this doesn’t seem like something that would lead to a credible result. If you are using your expertise to decide optimal time, then you apply qualitiative factor into the quantitative method that makes it actually less trustworthy as an indicator.

This week I did a usability test with only 1 task – It’s basically 4 screens to fill out if you do it right. The fastest participant used less than 6 minutes and did it without any trouble. The slowest participant did it in 23 minutes. I wouldn’t try to make any conclusions about time on task from these results (median = 882 seconds | average time = 877 sec):

Average time on task for usability test with 6 users

The result you get from the test is largely depended upon the successrate. If the successrate is low, then the TPI will be low.

Successrate is a number I have dropped from my usability analysis alltogther. Why? Because its a number depended on a large number of factors and even though 10 of 10 actually completes a task, that says next to nothing about how easy it was, or how many in the “real” world that would manage to complete the task, or how good the website really is.

Usability testing is a qualitative analysis and its wrong trying to mask it as something quantitative by introducing this magic number called TPI.

With 15-20 users you will be able to see a (strong) recurring pattern, no doubt about that, but its a long way from seeing a pattern and to grade someones website from 0-100 and calling it Task Performance Indicator slapping the grade on the report and force the client to improve the website so the number goes up!

*EDIT* Gah, so @josmag is complaining about wrong use of errormargin – even though I posted my disclaimer 2 seconds after my main post :D Let’s fix the errormargin thingy and see where that leads me:

OLD POST:

(TPI for this website would be 1(360/882) = 0,40 = 40%. Ok and then apply the error margin for +/- 19% so I can trust that my  result is really somewhere  between 21% and 59%.

That means i get a TPI that either give me: “TPI under 30 er ganske dårlig. Du har et stort problem.” OR “TPI på 51-70 er bra. Fortsatt mulig å forbedre nettstedet ditt.”

Doh? Does it suck or not? Well, the number doesn’t give me any indication really, but from what I saw in the test I would say to ignore the TPI and just fix the obvious problems.)

NEW POST:

TPI for this website would be 1 (360/882) = 0,40 = 40% or 1 (360/714) to 1 (360/1050) which gives me a number between 50% and 34%. Not a great difference from my original post. You (@josmag) are also correct that the median will be more trustworthy if I have more users in my test – we don’t know if the number will go up or down – and if we get users that don’t complete the task I will have to adjust the successrate from 100% with 5% for each user failing the task (with 20 users).

I think that the money spent on testing 20 users would be better spent if you split it up in more than 1 usability test and use the money more wisely. And as @magnusrevang points out – use analytics to get the “magic numbers” for time on task and successrate.

/End NEW POST

Actually, knowing the competence from both Netlife Research and G. McGovern I would trust their (expert) judgement a lot more than the actual number they get out of their magic blackbox :)

Leave a Comment

Hvorfor er 5 brukere nok i en brukertest?

www.iallenkelhet.no er det en debatt om hvorvidt det er fornuftig å gjøre en måling av suksessrate og tid brukt på oppgaveløsning som en erstatning (?) til tradisjonell brukertesting. Bjørn Bergslien skriver om en metode for å beregne Task Performance Indicator (TPI). Videre hevder artikkelforfatteren at dette vil hjelpe deg til å måle effekten på nettstedet ditt og gi en score på skalaen:

  • TPI under 30 er ganske dårlig. Du har et stort problem.
  • TPI på 31-50 er greit nok. Men det er mye å ta tak i.
  • TPI på 51-70 er bra. Fortsatt mulig å forbedre nettstedet ditt.
  • TPI på over 70 er veldig bra. Men den burde vært 100, ikke sant?

Magnus Revang peker på at dette er faktorer som best avdekkes vha. webstatistikk. Jeg er enig med Magnus i dette og hevder videre at utvalget på 15-20 personer også er for lite til å kunne hevde at TPI tallene er gyldige. Eirik Havfer Rønjum spør meg da hvorfor 15 til 20 personer ikke er tilstrekkelig, mens 5 brukere er nok til å utføre en brukertest.

(Dere får korrigere meg om dere synes jeg refererer galt her :) ).

Dette var såpass interessant at jeg fikk lyst til å svare litt utfyllende her istedet, og jeg føler det blir litt for omfattende å svare på iallenkelhet.no fordi jeg begynner å bli litt offtopic i forhold til TPI saken ;)

@Eirik vel, brukertesting er en kvalitativ metode. Nei, man har ikke grunnlag til å mene noe om tidsbruk, frekvens eller uttalelser som subjektive meninger* eller annet som krever et visst antall brukere for å sies å være gyldig i en brukertest. Jeg skal ikke hevde at jeg aldri har brukt utsagn som “8 av 10 brukere klarte ikke å fullføre oppgaven”, men samtidig sier jeg aldri at 80% av brukerne dine vil ikke klare å gjøre dette. Det er en forskjell å snakke om observasjoner og å hevde noe generelt om noe.

Når man gjør brukertesting bør man ikke prøve å late som om man kan si noe kvantitativt om noe som helst så lenge utvalget er så lite som det som regler er.

Hvorfor er 5 brukere tilstrekkelig på brukertesting? Det er fordi det er ikke antall personer som gjør en handling / feil på nettstedet som teller, men heller tolkningen av handlingen om det er logisk at dette vil kunne gjelde for flere brukere og hvorvidt man da bør gjøre noe for å fikse det. Det er en kvalitativ vurdering av det man observerer som er gevinsten ved brukertesting.

EKSEMPEL
Nå nylig gjorde vi en brukertest av et nettsted som selger varer på nett. Nettstedet er norsk, men har kun engelsk språk. Vi hadde inne 8 brukere til test. Selv om mange av brukerne sa noe ala “dette nettstedet burde vært på norsk fordi jeg ikke er så flink med engelske ord innenfor [bransje]” og “JEG har ikke problemer med engelsk, men mange andre vil ha det” så vil ikke det i seg selv være tilstrekkelig til å hevde at man må oversette nettstedet… vi vil si at det var brukere som reagerte på det, men ikke at det er en direkte feil fordi alle brukerne som klagde på engelsk, hadde ikke problemer med å skjønne språket. MEN så gjør 1 av brukerne noe vesentlig: han stopper opp i det han skal kjøpe en vare og spør “får jeg toll på varene”? “Jeg er vant til at når jeg handler på utenlandske nettsteder så får jeg toll på varene, er dette egentlig et utenlandsk nettsted, sendes varene fra utlandet?”. (PS! Prisen sto i norske kroner (NOK) og det var et norsk flagg i hjørnet, men teksten var på engelsk).

Dette er 1 bruker – og det er alt vi trenger for å kunne trekke slutningen om at det vil være brukere der ute som har problemer med dette… så blir det en gjetning på hvor mye penger dette koster firmaet, men denne personen hadde en handlekurv på ca. 2000 kroner og ville sannsynligvis ha droppet kjøpet fordi usikkerheten ble for stor.
/EKSEMPEL

Eksemplet ovenfor viser at det er ikke antall brukere som er viktig , men hva som faktisk skjer for 1 – X antall unike individer. Det viser delvis også at det er ikke hva brukerne sier som er viktig, men hva de gjør.

Ja – 5 brukere er tilstrekkelig til å kjøre en brukertest – noen ganger holder det med EN bruker.

Ok, vil dere si – det du gjør her er å teste noe annet enn det vi er ute etter – vi ønsker å se hvor lang tid brukerne våre bruker på en oppgave og om de klarer det – ikke nødvendigvis HVA de gjør når de feiler. Da hevder jeg at 15 – 20 personer ikke er tilstrekkelig. Det er så fantastisk mange faktorer som avgjør tidsbruk på en oppgave som gjør at det blir nærmest useriøst å hevde at man kommer nær en sannhet med så lite utvalg.

Har lyst til å spørre hvordan dere setter sammen utvalget, men er redd at dere kommer til å svare at dere prøver å få inn så mange ulike aldersgrupper og demografiske bakgrunnsvariable som mulig… og da må vi diskutere det også :D

Hmm, etter noe research snubler jeg også over en artikkel av gode gamle Jakob Nielsen som sier at med 20 brukere kan dere håpe på en feilmargin på +/-19% og at dere må opp i 71 brukere for å redusere antallet til en feilmargin på +/- 10%. Dette gjelder da bare for tidsaspektet, dere har også med suksessrate og andre ting inn i miksen så jeg blir veldig usikker på verdien av TPI ;)

Sitat fra useit.com:

With 20 users, you’ll probably have one outlier (since 6% of users are outliers), so you’ll include data from 19 users in your average. This makes your confidence interval go from 243 to 357 seconds, since the margin of error is +/- 19% for testing 19 users.

You might say that this is still a wide confidence interval, but the truth is that it’s extremely expensive to tighten it up further. To get a margin of error of +/- 10%, you need data from 71 users, so you’d have to test 76 to account for the five likely outliers.

Jakob Nielsen (2006) om kvantitativ testing (http://www.useit.com/alertbox/quantitative_testing.html).

Leave a Comment

Exit Tarantell – enter Making Waves

So, the company I currently work for; Tarantell was bought by Making Waves last week.

That made me realize that nothing is forever and keeping ones own blog can be a good idea :) Not that I’ve been producing a ton of articles, but I have a few more blogposts at Blogandtell (Tarantell blog) than shown here. I will now try to be a bit more faithful to my own blog. This post will be about my personal view on the merger.

I’ve been working in Tarantell since April 2001 and it has been a great place to work, but I welcome the friendly takeover by Making Waves for many reasons:

  • The new company will be a major player in the Norwegian marketplace with about 200 employees (160 in Norway and 40 in Poland).
  • Tarantell and MW are very similar in philosophy and focus, but has different customer bases: Tarantell has many projects in bank and finance sector while Making Waves has many public sector projects so together this will be complementary reference lists and experiences to build upon ;) Both firms seek to create great user experiences and ROI for our customers.
  • We met our new colleagues at MW over pizza and beer last Thursday . I have to admit that Tarantell won the after party, but our first social meeting was a nice experience.
  • I think that our new CEO is right when he claims that this merger is really 1+1=3. I think our customers will get a broader offering and maybe even more capacity to deliver great experiences.

BUT the next few months will be exiting times. MW has their offices near Akerselva, but that office space is too small for 200 people. Tarantell has also too small office space for both firms (room for about 100?). Management is working to solve that issue and that will probably lead to relocation of both firms. I vote for the “Barcode offices” in Bjørvika ;)

My main concern for the next few months is who’s going to leave because of the changes. It’s a known fact that nobody really likes change, but some are more affected by change than others… There will probably be structural changes within the two companies since there is not room for 2 sets of management so someone has to change their work description. That could affect both the managers and the employees that will get a new manager they may not know.

It’s easy to listen to offers that comes along when you don’t quite know what you get… I hope that all my Tarantell colleagues will stay and give the new company a fair chance.

For my own part I will stay until the dust settles if I can continue my focus on usability and user behavior studies  in the new company in a proper way. Our competition should be afraid, be very afraid ;)

Exciting times!

Leave a Comment
Follow

Get every new post delivered to your Inbox.