Il est important d’être prudent avec des résultats de eyetracking. Exemple avec Cuil.

Une étude d’eyetracking ménée par Think Eyetracking, largement diffusée sur internet, annonce la mort de Cuil sur base de données oculaires.

Prenons le temps d’analyser cela avec un peu plus de recul.

L’objectif d’un test utilisateur est de récolter des données sur le comportement d’utilisateurs, lors de la réalisation de tâches spécifiques, sur des interfaces graphiques dont on souhaite mesurer l’efficacité.

Lorsque l’on demande à un utilisateur de réaliser une tâche, différentes parties de son cerveau vont être activées. 

Plus la tâche va être en lien avec un intérêt ou un besoin réel de l’utilisateur, plus l’attention de l’utilisateur va être engagée dans la résolution de la tâche.

Motivation components

Analysons pourquoi le niveau d’attention des participants à un test est primordial. 

Dans des travaux récents, le professeur Eric Knudsen (Knudsen, Eric I (2007), “Fundamental Components of Attention”, Annual Review of Neuroscience 30(1): 57–78) a identifié quatre tâches principales de l’attention :

  1. l’attention permet de stocker les informations pertinentes dans la mémoire de travail (si l’attention est faible, le contenu stocké sera faible).
     
  2. l’attention analyse la pertinence des informations qui seront stockées dans la mémoire de travail, au travers d’un processus mettant en compétition les informations présentées dans l’interface (si l’attention est faible, la pertinence des informations sera peu évaluée).
     
  3. l’attention permet, à partir des contenus stockés dans la mémoire de travail, de choisir les nouvelles informations pertinentes sur le site. Ce mécanisme top-down permet d’alimenter l’attention de manière récurrente avec de nouvelles informations (attention endogène) (si l’attention est faible, on risque de ne pas choisir de nouvelles informations).
     
  4. l’attention filtre automatiquement les informations prises sur le site qui ne correspondent pas aux stimuli fréquents rencontrés par le cerveau (attention exogène) (si l’attention est faible, le filtre sera faible).

Il est aussi important de savoir que l’attention que je vais mettre dans la résolution d’une tâche est fortement liée à l’intérêt que je porte pour cette tâche ou à la motivation de résoudre cette tâche. 

Par exemple :

“Ma voiture ne démarre plus et je cherche sur internet une société qui va pouvoir venir dépanner ma voiture le plus rapidement possible”.

Dans cet exemple, la motivation que je vais mettre à chercher une société de ce type va être très différente de celle si on me demande de “Trouver sur Google une société de dépannage” alors que j’utilise le métro tous les jours.

Donc le comportement que tu vas analyser va être fortement dépendant de l’attention que l’utilisateur va mettre dans cette tâche.

Et comme le niveau d’attention est fortement lié à l’intérêt ou la motivation, le comportement va fortement varier en fonction des tâches demandées et des utilisateurs testés.

Pour pouvoir tirer des conclusions pertinentes il faut donc :

  1. des utilisateurs qui ont un intérêt ou une motivation pour la tâche demandée ;
     
  2. une tâche claire permettant d’activer un réseau de connaissance suffisamment précis sur le sujet.

Sans ces deux conditions, les comportements générés et analysés seront des comportements dits à “attention diffuse”.

Dans le cas de l’analyse du moteur de recherche Cuil, les conclusions diffusées sur internet sont basées sur l’analyse du comportement d’utilisateurs a qui l’on a demandé d’utiliser Cuil pour trouver des informations sur le terme “Oasis”.

CUIL eyetracking hotspot

Je m’interroge sur la motivation ou l’intérêt des 30 testeurs pour le sujet “Oasis” et le lien entre ce terme et une tâche réelle d’utilisateurs. 

Dans tous les cas le niveau de clarté de la tâche ne va pas permettre aux utilisateurs de focaliser leur attention sur un contenu ou l’autre et d’en évaluer la pertinence.

Les utilisateurs vont probablement regarder l’entièreté de l’interface de manière mécanique (attention diffuse) et pas du tout dans une optique d’attention focalisée comme se serait le cas avec une motivation importante à réaliser la tâche.

Le résultat de Think Eyetracking montre un pattern d’utilisation de Cuil en mode “attention diffuse” (pour faire simple : presque l’entièreté de l’interface a été visitée).

Afin de te montrer un pattern comportemental en “attention focalisée”, nous avons réalisé un test utilisateurs sur Cuil en demandant à des utilisateurs de réaliser le scénario suivant :

“Vous devez vous rendre à Barcelone pour une réunion professionnelle le 15 octobre. Vous souhaitez trouver un hôtel 4 étoiles près du centre”.

Les utilisateurs testés peuvent s’approprier la motivation et comme la tâche est claire et qu’ils sont capable d’activer les connaissances nécessaires pour la comparaison et la recherche d’hôtels, l’attention sera focalisée.

Tu verras par toi-même que les résultats ne sont pas les mêmes 😉

Il est aussi important de voir la progression de heatmap afin de voir l’évolution de l’attention dans le temps.

Ici je t’ai mis les résultats à 3, 6 et 9 secondes.

CUIL eyetracking hotspot 3sec

CUIL eyetracking hotspot 6 sec

CUIL eyetracking hotspot 9 sec

En plus de ce problème méthodologique, il est impossible de tirer des conclusions sur l’efficacité de Cuil uniquement sur base de heatmap. 

En effet, pour une même heatmap, tu peux avoir beaucoup de comportements différents dont nous analyserons ensemble les composants dans les prochains posts.

Je te souhaite une excellente semaine.

3 Comments

  • Bonjour!

    J’ai lu votre article avec attention, il m’intéressait tout particulièrement parce que je suis référenceur (donc travaillant énormément par rapport aux résultats de recherche) mais aussi parce que j’exerce cette activité dans une société fabriquant des oculomètres (pour le eye tracking donc).

    Ma question est donc la suivante : la problématique relevée ici, de l’importance de l’implication et de l’intérêt du panel dans un test eye tracking n’est elle pas exacte aussi dans tout autre type de test utilisateur?

    De plus, cette problématique n’est-elle pas générale à tous types d’activités? Je pense en effet que, quoi que l’on fasse il est important d’y voir un intérêt sinon notre engagement risque d’être moindre…

    Merci beaucoup pour cet article très intéressant en tout cas!

  • @Blaise : en effet, le fait de demander aux utilisateurs de réaliser une tâche la plus en phase avec un besoin réel qu’ils peuvent rencontrer dans leur vie est la clé de la qualité des mesures que l’on récolte.

    Il est donc primordial pour n’importe quelle activité de s’assurer que les scénarios utilisateurs soient les plus précis possible et que les utilisateurs soient bien recrutés en fonction des scénarios à réaliser.

    Merci à toi aussi pour ton feedback…

    Se serait cool d’organiser un RDV IRL car nous finalisons notre propre software d’analyse (pas de récolte) des données oculaires car ClearView de Tobii n’est pas assez précis et occulte une série de données primoridiales pour une analyse professionnelle des données eyetracking (par exemple : algorythme de détection de lecture, …)

  • Bonjour Marc, merci beaucoup pour ta réponse!

    Nous avons pour notre part développé des logiciels et un oculomètre permettant la récolte de données oculaires mais aussi leur analyse (fixations oculaires, patterns, cartes de chaleur…) qui est un outil ouvert, polyvalent (utilisable en 2D et 3D sur tous types d’interfaces) et adaptable selon les besoins!

    Si cela t’intéresse, je t’invite à regarder nos vidéos sur dailymotion http://www.dailymotion.com/relevance/search/pertech

    Je te souhaite un bon week end!

Submit a Comment