Neurosciences: the natural complement of traditional quantitative and qualitative tests8.01.12
Several times a year, we meet people working in large organizations who have never been informed of the new possibilities of using neurosciences when conducting user tests.
Over time, studies have evolved around two main principles:
- Quantitative tests, whose representativeness allows for an exact and precise research, based on a large number of testers.
- Qualitative tests, whose in-depth explanation allows for a detailed understanding of the behavior of a smaller sample of testers.
The origins of the current studies and techniques can be found in the marketing world and we see that their use in the digital world doesn’t provide the whole picture.
A simple Google search gives a clearer view of the used techniques:
- The so-called rational qualitative techniques: the use of silence, the stimulus of certain subjects, the reformulation of what users say, …
- The so-called projective qualitative techniques: open analogies, Chinese portraits, role-playing, imaginary constructions, … with the aim of putting the imagination and the creativity of the participants to work.
- Quantitative techniques: surveys, panels, questionnaires, …
All these techniques interrogate the 5% of cerebral activities of a participant that are conscious. In other words, with these techniques, participants are asked to use the zone of their brain that is responsible for high-level thinking.
But what about the 95% of non-conscious activities that go on in their brain: their emotional level, their level of commitment, their genuine understanding of what they are reading, their desire to click, …? All these activities constitute the majority of the cerebral activity of a user in front of a screen…
Neurosciences can offer an answer to these questions.
The fundamental principle of neuro-scientific tests is to measure what a facilitator or a human observer is unable to pick up: the real behavior of participants.
This can be compared to the Pareto principle: 80% of the traditional techniques used to evaluate screens can only collect 20% of the real use. The 20% of tests based on neuro-scientific techniques can measure 80% of the behavior.
User statistics are excellent indicators to measure the behavior quantitatively but of course, this requires the site to be online.
With neurosciences, we can:
- Understand the reason-why of behavior that has emerged from user statistics, or
- Predict the behavior on a screen.
Thanks to neurosciences, we can provide an answer to the questions all web managers have:
- Which track do users follow?
- Which zones draw the attention of users?
- Which zones are looked at by users?
- How do they analyze/understand the zones they look at?
- What is the level of complexity of the analyzed zones?
- Which emotions do the zones generate?
- What is the level of commitment in relation to the different zones?
- Which zones make the users act?
- Which zones are memorized/remembered by users?
- What do users verbally say about the zones?
My team has put together a list of 63 different indicators to answer these questions.
- With advanced eye-tracking, we can measure 16 indicators (most eye-tracking analyses in the market only use 2 or 3 basic indicators).
- The 47 other indicators use neuro-scientific techniques, including functional MRI.
Les Neurosciences comme complément naturel des tests quanti et quali classiques8.01.12
Plusieurs fois par an nous sommes confrontés à des personnes au sein des grandes organisations qui n’ont jamais été informées des nouvelles possibilités que proposent les neurosciences lors de la réalisation de tests utilisateurs.
Au fil du temps, les études ont beaucoup évoluées autour de deux grands principes :
- les tests quantitatifs où la représentativité permet de quantifier une recherche de manière exacte et précise sur base d’un grand nombre de testeurs.
- les tests qualitatifs où l’explication en profondeur permet de comprendre en détail certains comportements sur un échantillon plus restreint de testeurs.
Si les origines des études et des techniques actuelles proviennent du monde marketing, leur utilisation dans le monde digital n’est pas suffisante.
Une simple recherche dans Google permet de se rendre compte des techniques proposées :
- techniques qualitatives dites “rationnelles” : utilisation de silence, relances sur un sujet, reformulation des propos des participants, …
- techniques qualitatives dites “projectives” : analogies ouvertes, portraits chinois, jeux de rôles, constructions imaginaires, … visant à faire travailler l’imagination et la créativité des participants.
- techniques quantitatives : questionnaires, panels, sondages, …
Toutes ces techniques interrogent les 5% d’activités cérébrales conscientes d’un participant. En d’autres termes, ces techniques demandent aux participants d’utiliser une zone de leur cerveau responsable de la réflexion de haut niveau.
Mais qu’en est-il des 95% d’activités non-conscientes qui se passent dans leur cerveau : leur niveau émotionnel, leur niveau d’engagement, leur compréhension réelle de ce qu’ils lisent, leur envie de cliquer, … qui représentent la majorité de l’activité cérébrale réelle d’un utilisateur face à un écran?
Les neurosciences servent à répondre à ces questions. En fait le principe fondamental des tests de neurosciences est de mesurer ce qu’un animateur ou observateur humain est incapable de récolter : le comportement réel des participants.
En se calquant sur la loi de Paretto, 80% des techniques classiques utilisées pour évaluer les écrans ne permettent de récolter que 20% de la réalité d’utilisation. Les 20% de tests utilisant des techniques de neurosciences permettent de mesurer 80% des comportements.
Aujourd’hui pour mesurer les comportements de manière quantitative, les statistiques d’utilisation sont d’excellents indicateurs mais demandent bien entendus que le site soit en ligne.
Les neurosciences permettent de mesurer :
- soit le pourquoi d’un comportement observé par les statistiques d’usage
- soit de prédire le comportement sur un écran.
En fait, les neurosciences permettent d’avoir une vue complète sur les questions que tous les responsables web se posent :
- Comment les utilisateurs réalisent les parcours ?
- Quelles zones attirent l’attention des utilisateurs ?
- Quelles sont les zones regardées par les utilisateurs ?
- Comment sont analysées/comprises les zones regardées ?
- Quelle est la complexité/facilité des zones analysées ?
- Quelles émotions génèrent les zones ?
- Quel est le niveau d’engagement des utilisateurs face aux différentes zones ?
- Quelles sont les zones sur lesquelles les utilisateurs agissent ?
- Quelles sont les zones mémorisées/récupérées par les utilisateurs ?
- Que disent verbalement les utilisateurs à propos des zones ?
Mon équipe récolte 63 indicateurs différents pour répondre à ces questions :
- l’advanced l’eyetracking permet d’en mesurer 16 (la majorité des analyses eyetracking que je vois sur le marché utilisent les 2 ou 3 indicateurs basiques).
- les 47 autres indicateurs sont récoltés par des techniques de neurosciences dont l’IRM fonctionnel.
Please, enough already!7.01.10
In a December 2009 post (http://www.useit.com/alertbox/anybody-usability.html), useit.com claims that with little knowledge on the subject of usability and after only 3 days of testing, you can typically at least double your conversion rate or other key business metrics.
On the other hand, it also says:
“Many people without a grounding in behavioural user-research principles use bogus methodology and thus get misleading findings. Poor methodology is especially common for eye-tracking studies, and thus most published studies in this area are wrong”.
So, what’s it going to be?
Does this mean today’s sites are all magnificent, offering an optimal user experience and with incredible conversion rates? A quick reality check is all we need to know that’s far from the truth…
My team recently worked on a project for a pure Internet player. Their senior staff, which came from various web disciplines, including usability, changed some elements on a landing page and saw their conversion rates fall with more than 30% in less than a week.
So let’s keep our feet on the ground… Not only are their more and more digital screens, user behaviour – present company included – also changes at a staggering pace.
We need ever more sophisticated techniques to build result-driven interfaces.
There is something to be said for this analogy made by Mr Nielsen, even though I do find it cool. Here’s what he says:
“Usability is like cooking: everybody needs the results, anybody can do it reasonably well with a bit of training, and yet it takes a master to produce a gourmet outcome.”
I think a chef has more than just some basic knowledge about cooking. I also believe one needs more than just a set of guidelines to obtain the same result as a chef.
A chef is no less than a professional of taste who knows all there is to know about a product. It is this in-depth knowledge that enables him to time after time create incredible dishes without needing a recipe.
Usability will always be the type of cuisine anyone can use if he applies regularly updates rules. But it will never be the solution to constantly create efficient screens.
Neuromarketing can be compared to the cuisine based on the fundamentals of taste (what customers want and expect, an in-depth knowledge of products,…). It combines all these fundamentals to obtain a high-quality result, whatever the dish to be made.
Have a nice week
It’s necessary to be careful with eyetracking studies. The Cuil example.15.10.08
An eyetracking study by Think Eyetracking, which has been widely spread on the Internet, announces the death of Cuil. It is based on ocular data.
Let’s take some time to analyze this.
The objective of a user test consists in gathering data on the behaviour of users while they are performing specific tasks on graphic interfaces of which the tester wants to measure the efficiency.
When asked to perform a task, different parts of the user’s brain will be activated. The more the task is linked with an interest or a real need felt by the user, the more attention he will dedicate to the task at hand.
Why is this attention level of test participants so important?
Recent work by the Professor Eric Knudsen (Knudsen, Eric I, 2007), called “Fundamental Components of Attention”, Annual Review of Neuroscience 30(1): 57–78) has identified the four main tasks of the concept ‘attention’
- Attention allows for the storage of relevant data in the working memory. When there is low attention, the stored content will be low as well.
- Attention analyzes the relevance of information stored in the working memory via a process that puts the information that can be found in the interface to the test. In case of low attention, the relevance of the information won’t be evaluated in a thorough manner.
- Attention allows for the choice of new relevant information on the site, based on the content that is already stored in the working memory. This top-down mechanism facilitates the addition of new information, on a recurring basis. This is called endogenous attention. In the case of low attention, one risks not to choose new information.
- Attention automatically filters information found on a site that doesn’t match the frequent stimuli of the brain, the so-called exogenous attention. Again, in the case of low attention, this filter will be weak.
It is equally important to know that the attention I will dedicate to the performance of a task is linked to the interest I have for this task in general. Motivation plays a vital role.
Let’s take an example :
“Let’s say my car broke down. I go on the Internet to look for a company who can come and help me out as soon as possible.”
In this case, the motivation I have will be much higher compared to my level of motivation, when I asked to google this kind of company when I take the metro every single day.
In other words, the behaviour you’re analyzing depends on the attention the user will dedicate to the task you ask him to perform.
And as the level of attention is closely linked to the interest or motivation of the user, his behaviour will also vary in function of the tasks or the users.
If you want to make relevant conclusions, you need to take into account a number of factors. You need:
- users who are interested in or motivated to do the required task.
- a clear task that can activate a knowledge network that is sufficiently precise.
If you can’t meet these two conditions, the generated and analyzed behaviour will automatically be so-called behaviour with a diffuse attention.
In case of the Cuil search engine, the conclusions are based on the behaviour of users who were asked to use Cuil to find information on the keyword “Oasis”.
I have doubts on the motivation or interest of the 30 users. How interested were they in the term “Oasis” and what was the link between this term and the real task performed by the users?
The level of transparency of the task will not allow the users to focus their attention on one type of content or another and to evaluate the relevance of the content found.
The probably behaviour: users will mechanically look at the entire interface (diffuse attention) and won’t focus as much as they would do when they asked to perform a task with a high level of motivation.
This means the results of the Think Eyetracking test shows a usage pattern in diffuse attention mode (almost the entire interface had been visited).
In order to show a behavioural pattern in which the attention was indeed focused, we have done a user test on Cuil, in which we have asked user to test the following scenario:
“You need to go to Barcelona for a business meeting on 15 October. You want to find a four-star hotel near the city centre”.
The users can understand the motivation behind the task. Furthermore, it is a clear and well-defined task that allows them to activate their knowledge needed to compare and search for hotels. In other words: attention is focused.
And, surprise surprise, the results are somewhat different ☺.
It is also important to have a look at the progression of the heat map.
This will show you how the attention evolves over time. Compare for instance the results after 3, 6 and 9 seconds.
On top of this methodological problem, it is impossible to make any conclusions on the efficiency of Cuil based on the heat map and nothing else.
Because one and the same heat map shows just as many diverse types of behaviour. But more on that in the following posts.
Have a good week!
Il est important d’être prudent avec des résultats de eyetracking. Exemple avec Cuil.15.10.08
Une étude d’eyetracking ménée par Think Eyetracking, largement diffusée sur internet, annonce la mort de Cuil sur base de données oculaires.
Prenons le temps d’analyser cela avec un peu plus de recul.
L’objectif d’un test utilisateur est de récolter des données sur le comportement d’utilisateurs, lors de la réalisation de tâches spécifiques, sur des interfaces graphiques dont on souhaite mesurer l’efficacité.
Lorsque l’on demande à un utilisateur de réaliser une tâche, différentes parties de son cerveau vont être activées.
Plus la tâche va être en lien avec un intérêt ou un besoin réel de l’utilisateur, plus l’attention de l’utilisateur va être engagée dans la résolution de la tâche.
Analysons pourquoi le niveau d’attention des participants à un test est primordial.
Dans des travaux récents, le professeur Eric Knudsen (Knudsen, Eric I (2007), “Fundamental Components of Attention”, Annual Review of Neuroscience 30(1): 57–78) a identifié quatre tâches principales de l’attention :
- l’attention permet de stocker les informations pertinentes dans la mémoire de travail (si l’attention est faible, le contenu stocké sera faible).
- l’attention analyse la pertinence des informations qui seront stockées dans la mémoire de travail, au travers d’un processus mettant en compétition les informations présentées dans l’interface (si l’attention est faible, la pertinence des informations sera peu évaluée).
- l’attention permet, à partir des contenus stockés dans la mémoire de travail, de choisir les nouvelles informations pertinentes sur le site. Ce mécanisme top-down permet d’alimenter l’attention de manière récurrente avec de nouvelles informations (attention endogène) (si l’attention est faible, on risque de ne pas choisir de nouvelles informations).
- l’attention filtre automatiquement les informations prises sur le site qui ne correspondent pas aux stimuli fréquents rencontrés par le cerveau (attention exogène) (si l’attention est faible, le filtre sera faible).
Il est aussi important de savoir que l’attention que je vais mettre dans la résolution d’une tâche est fortement liée à l’intérêt que je porte pour cette tâche ou à la motivation de résoudre cette tâche.
Par exemple :
“Ma voiture ne démarre plus et je cherche sur internet une société qui va pouvoir venir dépanner ma voiture le plus rapidement possible”.
Dans cet exemple, la motivation que je vais mettre à chercher une société de ce type va être très différente de celle si on me demande de “Trouver sur Google une société de dépannage” alors que j’utilise le métro tous les jours.
Donc le comportement que tu vas analyser va être fortement dépendant de l’attention que l’utilisateur va mettre dans cette tâche.
Et comme le niveau d’attention est fortement lié à l’intérêt ou la motivation, le comportement va fortement varier en fonction des tâches demandées et des utilisateurs testés.
Pour pouvoir tirer des conclusions pertinentes il faut donc :
- des utilisateurs qui ont un intérêt ou une motivation pour la tâche demandée ;
- une tâche claire permettant d’activer un réseau de connaissance suffisamment précis sur le sujet.
Sans ces deux conditions, les comportements générés et analysés seront des comportements dits à “attention diffuse”.
Dans le cas de l’analyse du moteur de recherche Cuil, les conclusions diffusées sur internet sont basées sur l’analyse du comportement d’utilisateurs a qui l’on a demandé d’utiliser Cuil pour trouver des informations sur le terme “Oasis”.
Je m’interroge sur la motivation ou l’intérêt des 30 testeurs pour le sujet “Oasis” et le lien entre ce terme et une tâche réelle d’utilisateurs.
Dans tous les cas le niveau de clarté de la tâche ne va pas permettre aux utilisateurs de focaliser leur attention sur un contenu ou l’autre et d’en évaluer la pertinence.
Les utilisateurs vont probablement regarder l’entièreté de l’interface de manière mécanique (attention diffuse) et pas du tout dans une optique d’attention focalisée comme se serait le cas avec une motivation importante à réaliser la tâche.
Le résultat de Think Eyetracking montre un pattern d’utilisation de Cuil en mode “attention diffuse” (pour faire simple : presque l’entièreté de l’interface a été visitée).
Afin de te montrer un pattern comportemental en “attention focalisée”, nous avons réalisé un test utilisateurs sur Cuil en demandant à des utilisateurs de réaliser le scénario suivant :
“Vous devez vous rendre à Barcelone pour une réunion professionnelle le 15 octobre. Vous souhaitez trouver un hôtel 4 étoiles près du centre”.
Les utilisateurs testés peuvent s’approprier la motivation et comme la tâche est claire et qu’ils sont capable d’activer les connaissances nécessaires pour la comparaison et la recherche d’hôtels, l’attention sera focalisée.
Tu verras par toi-même que les résultats ne sont pas les mêmes
Il est aussi important de voir la progression de heatmap afin de voir l’évolution de l’attention dans le temps.
Ici je t’ai mis les résultats à 3, 6 et 9 secondes.
En plus de ce problème méthodologique, il est impossible de tirer des conclusions sur l’efficacité de Cuil uniquement sur base de heatmap.
En effet, pour une même heatmap, tu peux avoir beaucoup de comportements différents dont nous analyserons ensemble les composants dans les prochains posts.
Je te souhaite une excellente semaine.
Beyond the five-user assumption.16.07.08
I often talk about the power gurus have over the intellect of professionals working in usability.
By doing so I hope to give back the willingness and eagerness to think, instead of believing everything these gurus tell, without using our own brain and our own critical minds.
Here’s another example of this cerebral anaesthesia: the 5-tester myth…
In 1993, Jakob Nielsen states in a paper that, according to him, 5 testers are enough to identify 80% of ergonomics problems.
A luring statement for people who work in usability because it allows them to put only a very limited number of people in front of a screen. Furthermore, it speeds things up considerably.
A large number of scientists who have conducted studies aimed at measuring the real impact the number of testers has on the performance of a web site, have raised objections against this theory. And companies have also discovered the limits of this myth.
Here’s an example. During a study conducted by Spool & Schroeder in 2001 (fiveusers.pdf), the first five users only revealed 35% of the ergonomics problems of a website. In this same study, the 13th and 15th tester have identified major issues on the website.
Another test used 18 testers. And they have found more than five new obstacles once the number of testers exceeded the magical number 5 (Perfetti&Landesman, 2002).
Laura Faulkner, who is a scientist working at the University of Texas in Austin, has conducted a study in which 60 testers were present (faulkner_brmic_vol35.pdf). The 60 testers were grouped randomly in groups of 5, 10, …
The results are quite revelatory:
- The 12 groups of 5 testers have found between 55 and 85% of the problems.
- By putting people in groups of 10, the minimum percentage of identified problems raises to 80%.
- By making groups of 20 testers, the minimum percentage of identified problems raises to 95%.
Using 15 users will allow for the optimum balance between costs and reliability. You will indeed discover between 90 and 97% of problems. After more than 150 projects, my field experience confirms these different scientific results.
That leaves the question to use techniques allowing you to gather objective data and to avoid subjectivity. We’ll come back to that later…
Have a good week. Marc
5 utilisateurs ne suffisent pas pour réaliser un test16.07.08
Je parle souvent du pouvoir des gourus sur l’intellect des professionnels évoluant dans le domaine de la Usability.
Mon espoir est de redonner à tous l’envie de réfléchir et de ne pas croire tout ce que ces gourus disent sans utiliser votre cerveau et votre sens critique.
Voici encore un exemple parlant de cette anesthésie cérébrale : le mythe des 5 testeurs.
Jakob Nielsen sort un papier en 1993 signalant que, selon lui, avec 5 testeurs 80% des problèmes ergonomiques peuvent être identifiés.
Ce postulat est très attractif pour les gens évoluant dans la Usability car il permet de confronter des écrans à un petit nombre de personnes et rapidement.
Beaucoup de scientifiques ont dénoncé cela après avoir réalisé des études visant à mesurer l’impact réel du nombre de testeurs sur les performances d’un site web. Des entreprises ont également vu les limites de ce mythe.
Par exemple, lors d’une étude réalisée par Spool & Schroeder en 2001(fiveusers.pdf), les 5 premiers utilisateurs n’ont pu révéler que 35% des problèmes ergonomiques d’un site web. Dans cette même étude, les 13e et 15e testeurs ont permis d’identifier des problèmes majeurs sur le site web.
Un autre test réalisé avec 18 testeurs a permis de trouver “more than five new obstacles” après avoir dépassé les 5 testeurs (Perfetti & Landesman, 2002).
Laura Faulkner, une scientifique de l’Université du Texas à Austin a effectué une étude dans laquelle 60 testeurs ont été utilisés (faulkner_brmic_vol35.pdf). Ces 60 testeurs ont été regroupés de manière aléatoire en groupe de 5, 10, ….
Les résultats sont parlants :
- les 12 groupes de 5 testeurs ont trouvés entre 55% et 85% des problèmes.
- En regroupant les personnes par 10, le pourcentage minimum de problèmes identifiés passe à 80%.
- En regroupant les personnes par groupe de 20 utilisateurs, le pourcentage minimum de problèmes identifiés passe à 95%.
Utiliser 15 testeurs vous permettra d’avoir le meilleur équilibre coût/fiabilité. En effet, vous identifierez entre 90 et 97% des problèmes. Après plus de 150 missions réalisées, l’expérience de terrain confirme ces différentes recherches scientifiques.
Reste ensuite à utiliser des techniques permettant de récolter des données objectives et éviter la subjectivité. Nous en reparlons.
Bonne semaine à tous. Marc












