Kwantitatieve online evaluatie: nieuwe usability onderzoeksmethode?

kwantitatieve-usability-evaluatieEen tijdje geleden werd ik door Paul Veugen van Usabilla benaderd. Hij heeft vanuit zijn studie Bedrijfscommunicatie & Digitale Media een usability onderzoeksmethode ontwikkeld die met name geschikt zou zijn voor evaluatie van concepten. Kort gezegd gaat het erom dat gebruikers op een plaatje van een website concept hun positieve en negatieve punten kunnen aangeven, simpelweg door erop te klikken.
Dat genereert dan een soort “heatmap” (niet te verwarren met een eyetracking heatmap!), waaraan de onderzoeker kan zien welke punten goed en slecht worden gewaardeerd.

In een later stadium zal Paul deze methode afzetten tegen andere usability methoden. Het lijkt me leuk zijn methode hier gewoon eens te testen op mijn startup Eduhub, en aan jullie kritische blik te onderwerpen. Eerst nog wat uitleg van Paul:

De methode die we gebruiken is bedoeld voor het evalueren van een concept, aan de hand van het oordeel van een groep proefpersonen / gebruikers. Voor zover ik snel kan oordelen verschilt de methode dus van die van bijvoorbeeld Clickdensity.
Door een behoorlijke groep proefpersonen / gebruikers een concept te laten beoordelen op positieve en negatieve eigenschappen, verzamelen we een significante hoeveelheid kwantitatieve gegevens over een concept. Aan de hand van de verzamelde punten maken we een heatmap en kunnen we scores weergeven voor verschillende gebieden / onderdelen van een concept.

De methode is gebaseerd op de plusminus-methode die gebruikt wordt voor het evalueren van teksten. Daarbij moeten proefpersonen in een tekst plussen en minnen zetten bij goede en slechte woorden, zinnen of passages. Het lijkt me interessant om te bekijken of deze methode uitgewerkt kan worden voor het beoordelen van een concept.

Er is ook een online voorbeeld waarmee je even kunt kijken hoe de evaluatie in zijn werk kan gaan.

Kwantitatieve evaluatie: resultatenRechts zie je de output van een onderzoek. Zoals je zult beseffen hangen je resultaten nogal af van de vraag die je aan gebruikers voorlegt.

Kritiek op de online evaluatie methode

  • Er is weinig kwalitatieve feedback en de kwantitatieve evaluatie lijkt nogal onsamenhangend. Ik zou op zijn minst samenhang tussen + en – feedback willen zien, want het samenvoegen van 2 users die om andere redenen 2 gebieden tegengesteld beoordelen, geeft in deze methode gewoon een 0 als resultaat. En dat is natuurlijk juist niet waar je als usabilit onderzoeker naar op zoek bent, want dit geeft houvast om iets verder te onderzoeken.
  • In het datamap voorbeeld is aardig te zien dat de navigatie als “slecht” wordt beoordeeld. Je zou kunnen zeggen dat daar iets mee moet gebeuren, maar wat? De meest interessant vraag is “wat vinden mensen slecht”? De labels, het blok op zich, de plek ervan, de kleuren, de underline?
  • Op basis waarvan worden de areas in de datamap gekozen? Ik heb het idee dat de koppen “New announcements” en “my groups” anders beoordeeld worden dan de links eronder. Maar in de resultaten zijn ze samengevoegd, dus wat betekent dat? En nog duidelijker, de iconen voor editing lijken ook behoorlijk negatief beoordeeld, maar in de beoordeling worden de complete blokken als positief gerapporteerd.

Wat kunnen we testen?

Dit zijn twee of drie ontwerpen die ik graag zou willen testen met deze methode. Dit is allemaal nog topsecret, dus niet doorvertellen dat ik hiermee bezig ben en hoe het eruit ziet 😉 Het zijn nog slechts conceptontwerpen en de content is allemaal nep:

Eduhub concept Homepage

Eduhub concept Training pagina

Eduhub concept Onderwerp pagina

Oplossingen voor kritiek op de methode

En meteen maar even iets meer in opossingen denken, want we willen de methode straks op Eduhub toepasse als testcase:

  • Als je 1 hele concrete vraag stelt wordt de methode in een keer een stuk bruikbaarder. Bijv: “Welke onderdelen begrijp je en welke niet direct?”, “Wat trekt je aandacht?”, “Wat vind je mooi?” of “Waar zou je willen klikken”. Als je meerdere vragen door elkaar stelt zoals nu, denk ik dat de resultaten nooit waarde hebben voor een onderzoeker.
  • En voor het evalueren van design is het veel bruikbaarder voor homepages en landingpages dan voor diepere pagina’s. Dit omdat je met je huidige setup lastig een context of flow kunt testen (je zou er navigatie in kunnen bouwen, zodat mensen hun eigen flow kunnen kiezen).
  • En Paul kwam zelf al met de volgende suggesties voor vragen (ik denk dat we er 1 of 2 moeten kiezen):
  • Welke onderdelen wekken je interesse? (+ welke niet)
  • Welke onderdelen zijn duidelijk? (+ welke niet)
  • Markeer de onderdelen van de site die je mooi vindt.
  • Markeer de onderdelen die voor verbetering vatbaar zijn.

Wat vinden jullie van de methode?

Nu ben ik vooral benieuwd naar jullie mening, so let’s hear it in de reacties. Inhoudelijk commentaar op de ontwerpen mag je nog even voor je houden 😉

  • Bij welk soort deliverable zou de methode goed werken? Conceptontwerpen? Interaction design wireframes? Wellicht zelfs moodboards? Of al werkbare prototypes van websites?
  • Welke vraag/vragen kunnen we het beste aan gebruikers stellen om de ontwerpen van Eduhub te beoordelen?
  • Welke conclusies kunnen we wel en juist niet trekken?
  • Welke andere onderzoeksmethoden zijn nodig om deze methode aan te vullen en er echt wat aan te hebben?

13 gedachten over “Kwantitatieve online evaluatie: nieuwe usability onderzoeksmethode?

  1. Wilco

    Deze methode zou – in iets aangepaste vorm – ook als volgt gebruikt kunnen worden. Het geven van bepaalde specifieke (zoek)opdrachten (“Zoek informatie X”), met de bijbehorende vraag “Via welke weg denk je de informatie te kunnen vinden?”.

    Je zou dan geen gebruik maken van de negatieve punten, want “Via welke weg zou je de informatie NIET kunnen vinden” is m.i. zinloos.

    Eventueel het onderzoek uitbreiden zodat mensen prioriteiten kunnen aangeven (1e = meest waarschijnlijk, 2e = iets minder waarschijnlijk, etc..). Ook zou je de tijd tussen laden pagina en de klik kunnen meten om erachter te komen hoe lang het duurt dat een bezoeker desbetreffend navigatieonderdeel heeft gevonden. Mocht je tijd bij gaan houden moet je er wel rekening mee houden dat als je meerdere opdrachten geeft, de personen bij de 2e (en volgende) zoekopdrachten de layout al kennen en de navigatie veel sneller zullen kunnen vinden.

    Zomaar een quick thought, maar het is al laat dus val me er niet op aan 🙂

    Like

  2. Yvonne van Laarhoven

    Mijn reactie welke ik tevens op marketingfacts heb geplaatst:
    Ik zie er enkel iets in als een mogelijke rapportage tool. Wanneer je beoordelingen uit gebruikerstesten en/of enquetes hebt, kun je deze waarden hangen aan de verschillende onderdelen op de site en zo ‘heatmaps’ creeeren (iemand nog een andere naam hiervoor om verwarring te voorkomen?). Zo heb je een mooie presentatie tool.

    Maar zoals de methode bedoelt is zie ik er niks in.
    Ik heb even het blackboard beoordeeld. Ik wilde aangeven dat ik de menubalk boven duidelijk vindt, dus groen. Maar het kleurgebruik daarvan vond ik niet goed. kortom het is raden naar waarop de de waardering gebasseerd is.
    Het zou kunnen als je vragen erg specifiek gaat stellen, maar dan zie ik de meerwaarde niet meer van deze tool. Omdat je je gebruikers niet de vrijheid geeft een waarde te hangen aan een oordeel (het is positief of negatief). Je moet wel heel specifiek in je vraagstelling zijn wil je bij iedere gebruiker hetzelfde meten. En dan denk ik dat lang niet van enquetes, gebruikerstesten en interviews gewonnen kan worden.

    Like

  3. Marielle Winarto

    De aantrekkelijkheid van deze methode zit in de eenvoud en de snelheid waarmee je gebruikers een concept kunt laten beoordelen. Je kunt zo relatief snel en simpel tot een indruk komen waar knelpunten en sterke punten liggen. De grootste valkuil is dat je dan weliswaar een hoop data hebt, maar deze niet kunt interpreteren.

    Suggesties ter verbetering:

    – Clustering op basis van de gegeven beoordelingen (dus niet als in het datamap-voorbeeld). Punten met een zelfde verdeling aan plussen en minnen horen tot ?©?©n gebied.

    – Met een algemene vraagstelling (“positieve en negatieve punten”) is de methode alleen geschikt om te achterhalen welke onderdelen nader bekeken moeten worden, omdat ze negatief beoordeeld worden of omdat de spreiding tussen verschillende gebruikers groter is dan verwacht.

    – Met specifiekere vragen kom je tot makkelijker interpreteerbare gegevens. Veel vragen uit de standaard usability enqu?™tes kun je zonder al te veel moeite omzetten naar een vorm die je met groene en rode punten in een plaatje kunt laten beantwoorden. Dit kan zelfs heel specifiek (“wat vind je van het kleurgebruik/de leesbaarheid/de relevantie?”)

    – Omdat het een redelijk snelle methode is, kun je behoorlijk specifiek testen. Je test dan met verschillende ontwerpen, die steeds iets verschillen (bijv. menustructuur, lettergrootte, kleurgebruik). Variantie-analyse levert dan effecten en interacties van verschillende manipulaties. Omdat je dan kijkt naar within-subject effecten, heb je minder last van onderlinge verschillen tussen proefpersonen (de ?©?©n zal waarschijnlijk meer punten zetten dan de ander of meer naar groen neigen).

    Deze aanpassingen gaan wel weer ten koste van snelheid en gemak.

    Like

  4. Stefan Wobben

    Ik denk niet dat je een concept kunt beoordelen door de afzonderlijke delen te beoordelen. De som is meer dan het geheel der dingen. Vroegtijdig in het proces neig ik meer naar kwalitatief onderzoek omdat ik dan geinteresseerd ben in het waarom. Ik zoek antwoord op de vraag ‘welk probleem lossen we nu echt op’?
    Ik vraag me af of je dit met deze methode boven water krijgt. Ik zie nu nog iet echt veel toegevoegde waarde.

    Like

  5. Tim

    Hoe betrouwbaar is de informatie die je vergaart wanneer je specifiek een leidende vraag gaat stellen? Wanneer mensen echt moeten letten op iets zijn ze niet meer gewoon “een gebruiker”…

    Like

  6. Paul Veugen

    Yvonne:
    Je hebt gelijk dat je weinig tot geen kwalitatieve input krijgt met deze methode. Ik ben echter erg nieuwsgierig of de methode in een vroege fase van concept onderzoek gebruikt kan worden om voorspellingen te doen over mogelijke drempels of problemen. De resultaten van deze kwantitatieve analyse kunnen bijvoorbeeld gebruikt worden als basis voor een kwalitatief onderzoek.

    Allen: Bedankt voor de input. De format zoals hij nu online staat voor het beoordelen van Blackboard is een eerste concept. Op basis van de feedback die we ontvangen zullen we een testcase maken voor Eduhub.

    Tim: Sturende vragen moeten inderdaad vermeden worden. Wel kun je de gebruiker vragen om specifieke eigenschappen van een concept te beoordelen. De gegevens die je dan verzamelt zijn eenvoudiger te interpreteren, dan wanneer je om een meer algemeen oordeel vraagt.

    Een Plus-Minus-evaluatie bij teksten wordt vaak gecombineerd met een toelichting van de gebruiker op zijn positieve en negatieve beoordelingen. Dat zou in dit geval ook eenvoudig gerealiseerd kunnen worden, door na afloop van de beoordeling per punt om een toelichting te vragen of de gebruiker een categorie (vb vormgeving, duidelijkheid, content, etc?) te laten toewijzen aan ieder punt.
    Ik vraag me echter af of de methode in een zeer basic vorm, door een algemeen oordeel of een oordeel over een deelonderwerp, ook bruikbaar is voor het opsporen van drempels door/voor gebruikers in een vroeg stadium van ontwerp.

    Like

  7. Nieske van Woerden

    Interessante tool, Ruben. Het doet me denken aan onze tool ‘Tag-it’. We zijn hier momenteel ook mee aan het pilotten om te kijken hoe we deze kunnen inzetten voor usability onderzoek. Onze tool stelt gebruikers in staat hun mening te geven door middel van het plakken van (digitale) post-its. Daarnaast voorzien ze de ‘tag’ ook van een emotie (positief, neutraal, negatief). Onze tool is dus meer kwali-gericht, wij stellen zoveel mogelijk open vragen en we kunnen gebruikers ook op elkaars ‘tags’ laten reageren. Echter, als we de resultaten van een aantal mensen samen nemen krijg je toch ook de (meer kwanti) ‘heatmap’ met rode, groene en neutrale stippen.

    Misschien is het leuk als Paul Veugen onze tool ook meeneemt in zijn onderzoek? Ook andere opmerkingen of idee?´n voor pilots met Tag-it zijn natuurlijk welkom. Zie voor meer info onze weblog: http://www.ruigroknetpanel.nl/weblog/482. Verder ben ik benieuwd wat je verder nog tegenkomt met de pilot met jullie tool!

    Like

  8. Ruben Timmerman Berichtauteur

    Wilco: I like it, de vraag “Waar denk je X te vinden” is in ieder geval heel eenduidig. Misschien is een heel concept beoordelen teveel met deze methode. Door het gemak kan het haalbaar zijn om snelle kleine vragen (en dus verbeter iteraties) te doen.

    Yvonne: Ik deel je kritiek, met 1 verschil. Deze tool kan extreem goedkoop zijn en kan voor sommige dingen misschien winnen van enquetes en de andere methoden die je noemt. Dat iets + of – is, is ook een voordeel: je hebt minder te analyseren. Ik ben er ook nog niet uit, maar we moeten oppassen het niet te snel af te schieten (deed ik ook eerst) omdat het niet binnen bestaande toolsets past ofzo :).

    Marielle: goede suggesties, die ik ook deel. Als je een grote gebruikersgroep hebt kun je natuurlijk in 1 keer 20 vragen stellen, maar elke persoon maar 1 vraag stellen om toch veel feedback te krijgen. Misschien kan de tool dus het beste als inspiratietool gebruikt worden: waar moeten we op focussen in “echt” (kwalitatief) usability onderzoek?

    Stefan: OK goede insteek, welk probleem (van de usability onderzoeker) lossen we op? How about: “Welk onderdeel van onze site/template/concept moeten we het eerst aanpakken”? Ik zeg ook nadrukkelijk dat niet wellicht niet de methode is om een heel concept te beoordelen, misschien is het voor andere deliverables beter?

    Ik ben het met je eens dat je vroegtijdig in het proces vooral kwalitatieve feedback nodig hebt. Maar misschien kun je hiermee wel je kwalitatieve feedback toetsen, of bepalen waar je kwalitatieve feedback voor nodig hebt?

    Tim: Dat geldt uiteraard voor elke onderzoeksmethode: het moet wel zuiver zijn. Ik denk dat we het hier simpel moeten houden, dus ook slechts simpele (incomplete) conclusies kunnen trekken.

    Wat mij betreft kan geen enkele usability methode op zichzelfstaand worden ingezet, maar moet er altijd worden getoetst en gewogen om te bepalen wat de methode waard was. Wel top al deze feedback, keep it coming!

    Hebben jullie nog suggesties voor elke vraag ik bij een van de templates zou kunnen stellen?

    Like

  9. Yvonne van Laarhoven

    @Ruben: Ik wil hem ook niet afschieten, online tools zijn wat mij betreft meer dan welkom. Maar voor dit moment, in deze versie zie ik persoonlijk slechts een grafische rapportage tool.
    Een combinatie met Fleck en tag it zie ik overigens graag tegemoet.

    @Paul: Beter lijkt mij dan om de gebruiker meer vrijheid te geven in de toekenning van groen of rood. Bijvoorbeeld als ik een menu positief wil beoordelen, dat ik daaromheen een groen kader kan tekenen.

    Like

  10. Frank

    Hallo,

    Wisten jullie dat Metrixlab een echte (dat wil zeggen taakgestuurden) kwantitatieve usability variant heeft die al voor heel veel opdrachtgevers wordt ingezet? Ik heb er zelf in elk geval hele positieve ervaringen mee opgedaan!

    Like

  11. Pingback: Kwantitatieve evaluatie: Eduhub testcase : Flyers Internet Communicatie Weblog

  12. Robin van den Bosch

    Hallo,

    “Wisten jullie dat Metrixlab een echte (dat wil zeggen taakgestuurden) kwantitatieve usability variant heeft die al voor heel veel opdrachtgevers wordt ingezet? Ik heb er zelf in elk geval hele positieve ervaringen mee opgedaan!”

    Oke intressant!

    Like

Plaats een reactie