Skip to main content

026 -- The Haunting of Reviewer 3 (FR)

Il y a quelques années, j'ai découvert le mythe du Reviewer 2 à l'occasion d'une journée costumée organisée par les membres de mon équipe à Inria pour Halloween. Reviewer 2, portraituré dans nos couloirs sous les traits d'un fantôme impassible, c'est l'évaluateur·rice dont le rapport et la note, sévère, réduisent à néant les espoirs d'acceptation des (jeunes) chercheur·ses soumettant à des journaux ou des conférences, souvent en dépit d'une première évaluation positive.

Je repense à ce mythe alors que je participe à la campagne d'évaluation des soumissions à la conférence annuelle d'ADHO qui est organisée à Daejeon cet été. Cette année, l'évaluation par les paires est organisée en double-aveugle, c'est-à-dire qu'en tant qu'évaluateur·rices, nous ne sommes pas censé·es connaître l'identité des auteur·rices de la proposition, et iels ignorent la nôtre. Pour la première fois, je remarque qu'après avoir soumis les évaluations, il m'est possible de voir le détail des autres évaluations qui concernent une soumission que j'ai traitée. Je trouve que ce format est intéressant à plusieurs titres.

Premièrement, il a un intérêt didactique : il contribue potentiellement à l'apprentissage de l'art de l'évaluation. A ma connaissance, savoir faire des évaluations pour les paires est une compétence complètement absente des cursus de formation des chercheur·ses. En général, c'est une expertise qui s'acquiert avec le temps et par l'exposition à l'évaluation, soit lorsque l'on reçoit des évaluations, soit quand on est mis en situation d'en faire. Apprendre à faire de bonnes évaluations prend du temps. A mon avis, l'absence de véritable méthodologie/éthique de l'évaluation dans la formation des chercheur·ses est un problème énorme étant donné que l'ensemble de la structure de production du savoir moderne repose sur la validation des travaux des paires par l'évaluation. Mais c'est une bien trop grande question pour un billet de blog, et je reviens donc à l'intérêt didactique de pouvoir accéder aux évaluations proposées par les autres : si on a la curiosité de les lire (on devrait), ça permet de confronter notre appréciation avec celle d'autres sur un travail pour lequel on n'a pas d'attachement personnel. On peut identifier les points faibles de ses propres évaluations, ou à l'inverse confirmer que signaler une faiblesse de la soumission comme on l'a fait ne relevait pas du pet peeve et que notre observation était légitime.

Deuxièmement, ce format permet de contribuer à l'évaluation... des autres évaluations. L'objectif de l'évaluation en double aveugle est de réduire le risque de biais (typiquement : éviter un a priori négatif ou positif causé par l'affiliation, la nationalité ou l'identité des auteurs) et éviter la peur des représailles (par exemple, ne pas oser faire une évaluation négative pour le papier d'un laboratoire où l'on souhaite être recruté·e par la suite). Mais la configuration en double-aveugle a aussi l'inconvénient de diminuer la responsabilité (accountability) des évaluateur·rices, avec le risque de laisser se développer des comportements inapropriés dans les comptes-rendus. A mon avis, le fait de pouvoir lire les rapports faits par les autres évaluateur·rices permet de repérer ces comportements inapropriés et de les faire connaître au comité scientifique, qui est capable de lever l'anonymat d'un·e évaluateur·rice si nécessaire et d'engager un dialogue avec elui. C'est la même logique avec l'évaluation par les paires telle qu'elle mise en place sur des plateformes comme PubPeer : la publicité de l'évaluation contribue à garantir sa bonne qualité et son équité (même si dans ce cas l'évaluation est complètement ouverte).

Troisièmement, l'accès aux autres rapports d'évaluation permet de prendre le pouls de la qualité scientifique de la conférence et de la communauté scientifique concernée en général. Si, après avoir évalué sérieusement une soumission, j'accède aux autres évaluations et trouve que nos notes et remarques convergent, qu'elles démontrent que (presque) tou·tes les évaluateur·rices ont lu la soumission aussi attentivement que moi, je suis rassurée. A la fin, cela voudra dire qu'il y a de fortes chances que la conférence propose un programme de bonne qualité, rigoureux scientifiquement. Ca contribue donc à construire et alimenter la légitimité de la conférence, au-delà de la seule qualité des propositions soumises et des présentations données. C'est une déception sur ce dernier point qui me conduit à rédiger ce billet.1

Malheureusement, après avoir lu les autres évaluations des papiers que j'ai évalués, je me mets à redouter un nouveau type de Reviewer. Je l'appelerai Reviewer 3. Reviewer 3, c'est l'évaluateur·rice qui donne une note maximale à une soumission qu'iel n'a pas lue et qui laisse un modèle d'IA générative faire l'évaluation et rédiger les commentaires à sa place. Sérieusement ?! On sait pourtant que ces modèles ont une forte tendance à conforter les idées des humains qui interégissent avec eux, ce qui en fait de très très mauvais outils pour l'évaluation critique et scientifique.

Je prends l'exemple d'une des propositions que j'ai évaluées cette année. Voici les notes reçues par la proposition :

  • Reviewer 1 (moi) : 65/100;
  • Reviewer 2 (fidèle à son titre) : 35/100
  • Reviewer 3 : 86/100
  • Reviewer 4 : 80/100

Là, il y a clairement un désaccord entre les paires sur la qualité de la proposition, donc c'est intéressant de regarder le détail des commentaires. Ma note reflète globalement le contenu de mon évaluation : il y a un potentiel dans la proposition et je juge qu'elle devrait être acceptée, mais dans un autre format et avec de sérieux points à améliorer. La note de Reviewer 2 reflète également son appréciation : le caractère scientifique du papier n'est pas avéré, les fondements ne sont pas solides. J'ai été surprise des notes des Reviewers 3 et 4 car je les trouve élevées par rapport à la proposition : c'est bien d'être bienveillant, mais dans un processus d'évaluation, c'est bien de pouvoir situer les propositions de manière pertinente. Les commentaires de Reviewer 4 démontrent qu'iel a lu la soumission, son standard est simplement différement du mien, ce qui est un autre type de problème. Par contre, l'évaluation de Reviewer 3 est problématique.

Les commentaires de Reviewer 3 ont les caractéristiques typiques des contenus générés par un produit comme ChatGPT : homogénéité de la longueur des paragraphes et des formulations, paraphrase excessive du contenu de la soumission et relevé de détails anecdotiques comme s'ils étaient centraux, absence de perspective critique, redondance des formulations. On y lit que la proposition est puissante, correctement fondée, qu'elle sort du lot, voire qu'elle est révolutionnaire -- je sais pourtant qu'elle ne cite que 2 références scientifiques, définit mal son cadre disciplinaire et ne présente pas de conclusions exceptionelles. On y lit aussi que le texte est clair et inhabituellement solide pour une soumission en Humanités Numériques -- ce que je trouve en réalité cynique.

A la lecture de cette évaluation, je me demande surtout "à quoi bon?" A quoi bon participer au processus d'évaluation si c'est pour proposer une évaluation comme ça ? A quoi bon mentir aux auteur·rices de la soumission et les flatter de cette manière ? J'aurais préféré que le Reviewer 3 ne fasse pas son évaluation. Qu'il ou elle s'excuse d'avoir manqué de disponibilités auprès du comité d'organisation et s'abstienne de prétendre avoir fait son travail pour la communauté scientifique.

En fait, je vois deux problèmes majeurs dans cette utilisation bête de l'IA, deux problèmes de fond : c'est mal comprendre l'intérêt pédagogique de l'évaluation, et c'est mal comprendre le rôle des acteur·rices de la recherche.

Sur l'intérêt pédagogique : il y a presque toujours quelque chose à apprendre à la lecture d'un rapport d'évaluation. Des travaux scientifiques pertinents qui ont échapé à notre veille, des pistes de reflexions nouvelles qui peuvent nourrir de futurs travaux, des faiblesses mal identifiées, des bonnes pratiques à améliorer, etc. Cela veut dire que l'évaluation par les paires fait partie intégrante du dialogue scientifique qui permet le développement de la Science. En plus, parmi les papiers soumis à la conférence d'ADHO, il n'y a pas que des chercheur·ses en poste permanent, il y a aussi des jeunes chercheur·ses, des doctorants dont l'apprentissage est loin d'être terminé2 et pour qui répondre au Call for Propositions d'ADHO est un moyen d'apprendre à faire mieux. Signaler les faiblesses (avec bienveillance bien entendu) d'une proposition au lieu de la décrire comme exceptionnelle, c'est contribuer positivement à la formation de ces jeunes chercheur·ses. C'est dommageable qu'à l'inverse des évaluateur·rices semblent ne pas comprendre ce rôle pédagogique.

Comme je l'indiquais dans mon dernier billet qui traitait du manque de regard critique sur l'IA, je m'inquiète de la trajectoire sur laquelle nous place une utilisation irraisonnée de l'IA pour des tâches intellectuelles et de pensée critique qui sont censées être au coeur de la démarche scientifique. Allons-nous gaiement dans la direction d'une pantomime généralisée de la recherche ? Une recherche fondée sur la prétention, la prétention de connaître son cadre théorique, la prétention d'avoir conçu et conduit une expérience, la prétention d'avoir obtenu des résultats, la prétention d'avoir rédigé un article, la prétention d'avoir évalué un article, la prétention d'avoir lu un article ? Où s'arrête-t-on ? Si toutes les étapes de la production scientifique sont sclérosées par des utilisations bêtes comme celles-ci des IA génératives, à quoi bon faire de la recherche ? Si on a des questions, il suffirait plutôt de demander les réponses à Claude ou ChatGPT, non?

REMERCIEMENTS: Mille mercis à Margot Mellet et Mathilde Verstraete, qui m'ont lue avec attention et m'ont signalé quelques unes des trop nombreuses fautes de frappe laissées dans la première version de ce billet.


  1. J'ajouterais volontiers un quatrième point : le fait de ne pouvoir voir les autres évaluations qu'après avoir soumis ma propre évaluation m'a motivée à faire toutes les évaluations qui m'avaient été assignées. 

  2. Dans l'exemple que je prends, il se trouve que l'auteur·rice de la soumission avait mal caché son identité et qu'il m'a été possible de confirmer qu'il s'agissait d'une personne inscrite dans un programme de doctorat et ayant soumis la proposition en tant qu'unique auteur·rice. On est donc bien dans un cas où l'évaluation a un potentiel pédagogique fort.