Please, enough already!7.01.10
In a December 2009 post (http://www.useit.com/alertbox/anybody-usability.html), useit.com claims that with little knowledge on the subject of usability and after only 3 days of testing, you can typically at least double your conversion rate or other key business metrics.
On the other hand, it also says:
“Many people without a grounding in behavioural user-research principles use bogus methodology and thus get misleading findings. Poor methodology is especially common for eye-tracking studies, and thus most published studies in this area are wrong”.
So, what’s it going to be?
Does this mean today’s sites are all magnificent, offering an optimal user experience and with incredible conversion rates? A quick reality check is all we need to know that’s far from the truth…
My team recently worked on a project for a pure Internet player. Their senior staff, which came from various web disciplines, including usability, changed some elements on a landing page and saw their conversion rates fall with more than 30% in less than a week.
So let’s keep our feet on the ground… Not only are their more and more digital screens, user behaviour – present company included – also changes at a staggering pace.
We need ever more sophisticated techniques to build result-driven interfaces.
There is something to be said for this analogy made by Mr Nielsen, even though I do find it cool. Here’s what he says:
“Usability is like cooking: everybody needs the results, anybody can do it reasonably well with a bit of training, and yet it takes a master to produce a gourmet outcome.”
I think a chef has more than just some basic knowledge about cooking. I also believe one needs more than just a set of guidelines to obtain the same result as a chef.
A chef is no less than a professional of taste who knows all there is to know about a product. It is this in-depth knowledge that enables him to time after time create incredible dishes without needing a recipe.
Usability will always be the type of cuisine anyone can use if he applies regularly updates rules. But it will never be the solution to constantly create efficient screens.
Neuromarketing can be compared to the cuisine based on the fundamentals of taste (what customers want and expect, an in-depth knowledge of products,…). It combines all these fundamentals to obtain a high-quality result, whatever the dish to be made.
Have a nice week
It’s necessary to be careful with eyetracking studies. The Cuil example.15.10.08
An eyetracking study by Think Eyetracking, which has been widely spread on the Internet, announces the death of Cuil. It is based on ocular data.
Let’s take some time to analyze this.
The objective of a user test consists in gathering data on the behaviour of users while they are performing specific tasks on graphic interfaces of which the tester wants to measure the efficiency.
When asked to perform a task, different parts of the user’s brain will be activated. The more the task is linked with an interest or a real need felt by the user, the more attention he will dedicate to the task at hand.
Why is this attention level of test participants so important?
Recent work by the Professor Eric Knudsen (Knudsen, Eric I, 2007), called “Fundamental Components of Attention”, Annual Review of Neuroscience 30(1): 57–78) has identified the four main tasks of the concept ‘attention’
- Attention allows for the storage of relevant data in the working memory. When there is low attention, the stored content will be low as well.
- Attention analyzes the relevance of information stored in the working memory via a process that puts the information that can be found in the interface to the test. In case of low attention, the relevance of the information won’t be evaluated in a thorough manner.
- Attention allows for the choice of new relevant information on the site, based on the content that is already stored in the working memory. This top-down mechanism facilitates the addition of new information, on a recurring basis. This is called endogenous attention. In the case of low attention, one risks not to choose new information.
- Attention automatically filters information found on a site that doesn’t match the frequent stimuli of the brain, the so-called exogenous attention. Again, in the case of low attention, this filter will be weak.
It is equally important to know that the attention I will dedicate to the performance of a task is linked to the interest I have for this task in general. Motivation plays a vital role.
Let’s take an example :
“Let’s say my car broke down. I go on the Internet to look for a company who can come and help me out as soon as possible.”
In this case, the motivation I have will be much higher compared to my level of motivation, when I asked to google this kind of company when I take the metro every single day.
In other words, the behaviour you’re analyzing depends on the attention the user will dedicate to the task you ask him to perform.
And as the level of attention is closely linked to the interest or motivation of the user, his behaviour will also vary in function of the tasks or the users.
If you want to make relevant conclusions, you need to take into account a number of factors. You need:
- users who are interested in or motivated to do the required task.
- a clear task that can activate a knowledge network that is sufficiently precise.
If you can’t meet these two conditions, the generated and analyzed behaviour will automatically be so-called behaviour with a diffuse attention.
In case of the Cuil search engine, the conclusions are based on the behaviour of users who were asked to use Cuil to find information on the keyword “Oasis”.
I have doubts on the motivation or interest of the 30 users. How interested were they in the term “Oasis” and what was the link between this term and the real task performed by the users?
The level of transparency of the task will not allow the users to focus their attention on one type of content or another and to evaluate the relevance of the content found.
The probably behaviour: users will mechanically look at the entire interface (diffuse attention) and won’t focus as much as they would do when they asked to perform a task with a high level of motivation.
This means the results of the Think Eyetracking test shows a usage pattern in diffuse attention mode (almost the entire interface had been visited).
In order to show a behavioural pattern in which the attention was indeed focused, we have done a user test on Cuil, in which we have asked user to test the following scenario:
“You need to go to Barcelona for a business meeting on 15 October. You want to find a four-star hotel near the city centre”.
The users can understand the motivation behind the task. Furthermore, it is a clear and well-defined task that allows them to activate their knowledge needed to compare and search for hotels. In other words: attention is focused.
And, surprise surprise, the results are somewhat different ☺.
It is also important to have a look at the progression of the heat map.
This will show you how the attention evolves over time. Compare for instance the results after 3, 6 and 9 seconds.
On top of this methodological problem, it is impossible to make any conclusions on the efficiency of Cuil based on the heat map and nothing else.
Because one and the same heat map shows just as many diverse types of behaviour. But more on that in the following posts.
Have a good week!
Il est important d’être prudent avec des résultats de eyetracking. Exemple avec Cuil.15.10.08
Une étude d’eyetracking ménée par Think Eyetracking, largement diffusée sur internet, annonce la mort de Cuil sur base de données oculaires.
Prenons le temps d’analyser cela avec un peu plus de recul.
L’objectif d’un test utilisateur est de récolter des données sur le comportement d’utilisateurs, lors de la réalisation de tâches spécifiques, sur des interfaces graphiques dont on souhaite mesurer l’efficacité.
Lorsque l’on demande à un utilisateur de réaliser une tâche, différentes parties de son cerveau vont être activées.
Plus la tâche va être en lien avec un intérêt ou un besoin réel de l’utilisateur, plus l’attention de l’utilisateur va être engagée dans la résolution de la tâche.
Analysons pourquoi le niveau d’attention des participants à un test est primordial.
Dans des travaux récents, le professeur Eric Knudsen (Knudsen, Eric I (2007), “Fundamental Components of Attention”, Annual Review of Neuroscience 30(1): 57–78) a identifié quatre tâches principales de l’attention :
- l’attention permet de stocker les informations pertinentes dans la mémoire de travail (si l’attention est faible, le contenu stocké sera faible).
- l’attention analyse la pertinence des informations qui seront stockées dans la mémoire de travail, au travers d’un processus mettant en compétition les informations présentées dans l’interface (si l’attention est faible, la pertinence des informations sera peu évaluée).
- l’attention permet, à partir des contenus stockés dans la mémoire de travail, de choisir les nouvelles informations pertinentes sur le site. Ce mécanisme top-down permet d’alimenter l’attention de manière récurrente avec de nouvelles informations (attention endogène) (si l’attention est faible, on risque de ne pas choisir de nouvelles informations).
- l’attention filtre automatiquement les informations prises sur le site qui ne correspondent pas aux stimuli fréquents rencontrés par le cerveau (attention exogène) (si l’attention est faible, le filtre sera faible).
Il est aussi important de savoir que l’attention que je vais mettre dans la résolution d’une tâche est fortement liée à l’intérêt que je porte pour cette tâche ou à la motivation de résoudre cette tâche.
Par exemple :
“Ma voiture ne démarre plus et je cherche sur internet une société qui va pouvoir venir dépanner ma voiture le plus rapidement possible”.
Dans cet exemple, la motivation que je vais mettre à chercher une société de ce type va être très différente de celle si on me demande de “Trouver sur Google une société de dépannage” alors que j’utilise le métro tous les jours.
Donc le comportement que tu vas analyser va être fortement dépendant de l’attention que l’utilisateur va mettre dans cette tâche.
Et comme le niveau d’attention est fortement lié à l’intérêt ou la motivation, le comportement va fortement varier en fonction des tâches demandées et des utilisateurs testés.
Pour pouvoir tirer des conclusions pertinentes il faut donc :
- des utilisateurs qui ont un intérêt ou une motivation pour la tâche demandée ;
- une tâche claire permettant d’activer un réseau de connaissance suffisamment précis sur le sujet.
Sans ces deux conditions, les comportements générés et analysés seront des comportements dits à “attention diffuse”.
Dans le cas de l’analyse du moteur de recherche Cuil, les conclusions diffusées sur internet sont basées sur l’analyse du comportement d’utilisateurs a qui l’on a demandé d’utiliser Cuil pour trouver des informations sur le terme “Oasis”.
Je m’interroge sur la motivation ou l’intérêt des 30 testeurs pour le sujet “Oasis” et le lien entre ce terme et une tâche réelle d’utilisateurs.
Dans tous les cas le niveau de clarté de la tâche ne va pas permettre aux utilisateurs de focaliser leur attention sur un contenu ou l’autre et d’en évaluer la pertinence.
Les utilisateurs vont probablement regarder l’entièreté de l’interface de manière mécanique (attention diffuse) et pas du tout dans une optique d’attention focalisée comme se serait le cas avec une motivation importante à réaliser la tâche.
Le résultat de Think Eyetracking montre un pattern d’utilisation de Cuil en mode “attention diffuse” (pour faire simple : presque l’entièreté de l’interface a été visitée).
Afin de te montrer un pattern comportemental en “attention focalisée”, nous avons réalisé un test utilisateurs sur Cuil en demandant à des utilisateurs de réaliser le scénario suivant :
“Vous devez vous rendre à Barcelone pour une réunion professionnelle le 15 octobre. Vous souhaitez trouver un hôtel 4 étoiles près du centre”.
Les utilisateurs testés peuvent s’approprier la motivation et comme la tâche est claire et qu’ils sont capable d’activer les connaissances nécessaires pour la comparaison et la recherche d’hôtels, l’attention sera focalisée.
Tu verras par toi-même que les résultats ne sont pas les mêmes
Il est aussi important de voir la progression de heatmap afin de voir l’évolution de l’attention dans le temps.
Ici je t’ai mis les résultats à 3, 6 et 9 secondes.
En plus de ce problème méthodologique, il est impossible de tirer des conclusions sur l’efficacité de Cuil uniquement sur base de heatmap.
En effet, pour une même heatmap, tu peux avoir beaucoup de comportements différents dont nous analyserons ensemble les composants dans les prochains posts.
Je te souhaite une excellente semaine.
Beyond the five-user assumption.16.07.08
I often talk about the power gurus have over the intellect of professionals working in usability.
By doing so I hope to give back the willingness and eagerness to think, instead of believing everything these gurus tell, without using our own brain and our own critical minds.
Here’s another example of this cerebral anaesthesia: the 5-tester myth…
In 1993, Jakob Nielsen states in a paper that, according to him, 5 testers are enough to identify 80% of ergonomics problems.
A luring statement for people who work in usability because it allows them to put only a very limited number of people in front of a screen. Furthermore, it speeds things up considerably.
A large number of scientists who have conducted studies aimed at measuring the real impact the number of testers has on the performance of a web site, have raised objections against this theory. And companies have also discovered the limits of this myth.
Here’s an example. During a study conducted by Spool & Schroeder in 2001 (fiveusers.pdf), the first five users only revealed 35% of the ergonomics problems of a website. In this same study, the 13th and 15th tester have identified major issues on the website.
Another test used 18 testers. And they have found more than five new obstacles once the number of testers exceeded the magical number 5 (Perfetti&Landesman, 2002).
Laura Faulkner, who is a scientist working at the University of Texas in Austin, has conducted a study in which 60 testers were present (faulkner_brmic_vol35.pdf). The 60 testers were grouped randomly in groups of 5, 10, …
The results are quite revelatory:
- The 12 groups of 5 testers have found between 55 and 85% of the problems.
- By putting people in groups of 10, the minimum percentage of identified problems raises to 80%.
- By making groups of 20 testers, the minimum percentage of identified problems raises to 95%.
Using 15 users will allow for the optimum balance between costs and reliability. You will indeed discover between 90 and 97% of problems. After more than 150 projects, my field experience confirms these different scientific results.
That leaves the question to use techniques allowing you to gather objective data and to avoid subjectivity. We’ll come back to that later…
Have a good week. Marc
5 utilisateurs ne suffisent pas pour réaliser un test16.07.08
Je parle souvent du pouvoir des gourus sur l’intellect des professionnels évoluant dans le domaine de la Usability.
Mon espoir est de redonner à tous l’envie de réfléchir et de ne pas croire tout ce que ces gourus disent sans utiliser votre cerveau et votre sens critique.
Voici encore un exemple parlant de cette anesthésie cérébrale : le mythe des 5 testeurs.
Jakob Nielsen sort un papier en 1993 signalant que, selon lui, avec 5 testeurs 80% des problèmes ergonomiques peuvent être identifiés.
Ce postulat est très attractif pour les gens évoluant dans la Usability car il permet de confronter des écrans à un petit nombre de personnes et rapidement.
Beaucoup de scientifiques ont dénoncé cela après avoir réalisé des études visant à mesurer l’impact réel du nombre de testeurs sur les performances d’un site web. Des entreprises ont également vu les limites de ce mythe.
Par exemple, lors d’une étude réalisée par Spool & Schroeder en 2001(fiveusers.pdf), les 5 premiers utilisateurs n’ont pu révéler que 35% des problèmes ergonomiques d’un site web. Dans cette même étude, les 13e et 15e testeurs ont permis d’identifier des problèmes majeurs sur le site web.
Un autre test réalisé avec 18 testeurs a permis de trouver “more than five new obstacles” après avoir dépassé les 5 testeurs (Perfetti & Landesman, 2002).
Laura Faulkner, une scientifique de l’Université du Texas à Austin a effectué une étude dans laquelle 60 testeurs ont été utilisés (faulkner_brmic_vol35.pdf). Ces 60 testeurs ont été regroupés de manière aléatoire en groupe de 5, 10, ….
Les résultats sont parlants :
- les 12 groupes de 5 testeurs ont trouvés entre 55% et 85% des problèmes.
- En regroupant les personnes par 10, le pourcentage minimum de problèmes identifiés passe à 80%.
- En regroupant les personnes par groupe de 20 utilisateurs, le pourcentage minimum de problèmes identifiés passe à 95%.
Utiliser 15 testeurs vous permettra d’avoir le meilleur équilibre coût/fiabilité. En effet, vous identifierez entre 90 et 97% des problèmes. Après plus de 150 missions réalisées, l’expérience de terrain confirme ces différentes recherches scientifiques.
Reste ensuite à utiliser des techniques permettant de récolter des données objectives et éviter la subjectivité. Nous en reparlons.
Bonne semaine à tous. Marc









