Skip to main content

025 - A Perfect Job is the New Very Good Job

A little disclaimer for once, because I usually prefer to praise if I name people. I do not know Dan Cohen nor his work, my criticism of his article is not directed against him personally, but rather it takes his text as one example among many of the kind, that develop the same type of discourse and contain the same type of flaws.

Plus tôt cette semaine, mon collègue Louis-Olivier Brassard m'a demandé mon avis sur le dernier billet posté par Dan Cohen, qu'il a intitulé "The Writing Is on the Wall for Handwriting Recognition", ajoutant un sous-titre annonçant la couleur: "One of the hardest problems in digital humanities has finally been solved". J'avais envie de rendre un peu plus public ma lecture critique, donc j'en tire un billet de blog, en français pour une fois.

J'ai lu avec attention cet article car le sujet m'intéresse (forcément), mais je ne cache pas que je débute en général ce genre de lecture avec un a priori négatif. C'est le traitement que je réserve à tous ces postes, de blog ou sur les réseaux sociaux, qui annoncent à tour de bras que l'IA générative a révolutionné ceci ou cela -- ceci et cela étant généralement des problèmes qui ont occupé des chercheur-ses et ingénieur-es depuis des années, et qui donnent lieu à des débats parfois houleux voire insolvables. Tous ces billets contribuent à alimenter l'esbroufe de l'IA générative et à saper notre capacité collective déjà pas mal usée à développer une pensée critique à son endroit.

Le billet de Dan Cohen fait suite à la sortie de la version 3 de Gemini, le modèle d'IA générative de Google, publicisé comme le modèle de Google "le plus intelligent à date" ("our most intelligent model yet" dit Google). Comme à chaque fois qu'un nouveau modèle de ce type sort, plusieurs utilisateurs partagent les résultats de leurs "expérimentations" avec ces modèles. Dan Cohen n'est pas le seul, par exemple Mark Humphries a aussi posté le même jour un billet sur le sujet intitulé sobrement "Gemini 3 Solves Handwriting Recognition and it’s a Bitter Lesson". J'ai beaucoup vu ces deux billets relayés sur BlueSky, salués par des chercheurs que j'estime occuper des place d'autorité dans le domaine de la transcription automatique. Après avoir lu le billet de Dan Cohen, je me suis retrouvée assez agacée de ces relais: je ne suis pas convaincue que le texte ait été bien lu par ceux qui l'ont relayé sur BlueSky.

A mon avis, le problème du billet que Dan Cohen est double: 1) il développe un discours universel sur un outil qu'il n'a testé que sur sélection minime d'exemples qui ne disent presque rien des problèmes que rencontrent les utilisateurs de la transcription automatique sur les documents anciens, 2) sa démonstration tient sur des arguments fallacieux.

Un problème de rigueur scientifique

Sur le premier point tout d'abord. Dan Cohen utilise trois exemples qui ne sont pas du tout représentatifs des défis de la transcription automatique. D'emblée, cela justifierait une note de bas de page à son sous-titre: il dit "l'un des problèmes les plus difficiles des humanités numériques a enfin été résolu", j'ajoute "en ce qui concerne les documents épistollaires rédigés en anglais durant la première moitié du XIXe siècle par des personnalités dont des biographies ont été écrites, voire dont la correspondance à déjà été éditée"1 car c'est ce qu'il a testé. Ca réduit déjà pas mal la portée de ses résultats, non? D'ailleurs, étant donné que le modèle ne parvient pas à transcrire le troisème exemple, on pourrait même ajouter que cela ne concerne en plus que les documents dont la mise en page est simple.2

Ce premier point est vraiment problématique parce qu'il s'agit d'un texte publié par une personne qui a une autorité scientifique et qui devrait donc faire preuve de rigueur scientifique, même si ce texte n'est qu'une newsletter et pas un article ou un ouvrage édité. J'attendrais de cette rigueur scientifique qu'on se limite à tirer des conclusions sur ce que l'on a réussi à démontrer au lieu de jouer les Cassandre avec des (sous-)titres tape-à-l'oeil. On peut avoir la conviction que Gemini est capable de traiter avec succès bien d'autres cas que ceux présentés par Dan Cohen, mais cela relève de la croyance, pas de la démonstration scientifique. Je pense que c'est un sujet qui doit être discuté plus largement, dans un contexte où l'IA nous est messianiquement servie à toutes les sauces, mais Marcello Vitali-Rosati en parle bien dans son dernier billet ou encore, sous un autre angle et qui sort des usages par le monde académique, il y a le récent travail d'Hamilton Mann.

Il se trouve que le jour où Louis-Olivier m'a demandé de lire le texte de Dan Cohen, j'avais aussi lu celui de Sunayani Bhattacharya qui a formé ses élèves du Saint Mary’s College en Californie à l'analyse de texte avec Voyant Tools et qui traite aussi de transcription automatique au détour de son billet. Elle explique que, dans l'optique de proposer une ouverture vers le Sud Global à ses étudiant-es, elle les a fait travailler sur des textes en Bengali (même si aucun ne sait parler ou lire le Bengali). Je trouve l'exercice intéressant et prometteur tel qu'elle le présente. Après avoir développé chez ses élèves une familiarité avec ce à quoi ressemble les textes de presse correctement édités dans Voyant Tools, elle leur a montré ce qu'on obtient quand on tente de faire tourner Voyant Tools sur des textes directement sortis d'un logiciel d'OCR. Ces textes contiennent énormément de bruit et parfois n'utilisent même pas les bons jeux de caractères. Cela lui permet de donner un exemple très concret à ses étudiant-es des limites des infrastructures logicielles dès qu'il s'agit de traiter de textes en langues indiennes. Elle conclut en redisant l'utlité de donner aux étudiant-es une meilleure idée de ce à quoi ressemblent les biais anglophones dans la technologie quand on est sur le terrain. Dans un texte comme celui dont je discute dans ce billet, ce biais anglophone (et j'ajouterai même moderniste) saute aux yeux.

Une démonstration bancale

Maintenant, concernant le deuxième point, il suppose de regarder d'un peu plus près ce que Dan Cohen nous dit et les exemples qu'il donne. Il y a des imprécisions qui doivent être relevées, mais aussi des extraits qui ne correspondent pas aux affirmations qui sont faites dans le billet.

Une imprécision qui commence justement par la question de la précision des modèles. J'en ai déjà parlé dans un précédent billet car il me semble que c'est l'un des sujets où les chercheurs font le plus preuve de paresse: de quelle précision on parle, et quelles sont les limites de ces mesures de précision ? Dan Cohen affirme que "les meilleurs logiciel d'HTR ont du mal à atteindre 80% de précision". Comme il clarifie que cela signifie 2 mots faux tous les 10 mots, déjà on s'aperçoit qu'il nous parle de taux d'erreur au mot et non au caractère. Un tel taux d'erreur ne dit rien de la lisibilité du texte puisqu'une seule erreur suffit pour que le mot soit compté comme faux. Dans une phrase comme "the hardest problem in digtial humaities has finolly beeen sol ved", un mot sur deux contient une faute, pourtant il me semble que la phrase est parfaitement lisible.3 Pour mettre les choses en perspective, le taux de précision au caractère dans cette phrase, lui, est de 90.77% (d'après un logiciel comme KaMI). En plus de cette imprécision de départ, l'affirmation de Dan Cohen sur les difficultés des logiciels traditionnels me semble fause. Je ne vois pas sur quelle source il se base. Pour des documents comme ceux qu'il teste, on est bien au-delà des 80% de précision, y compris au mot, et ce avec plusieurs modèles et plusieurs logiciels.

Comme cette affirmation m'a surprise, j'ai voulu regarder si vraiment le modèle de Transkribus avait fait autant de fautes que ça. Bien sûr, il a fait des erreurs. Quand on regarde le document source, on voit que certaînes sont compréhensibles dans un contexte zero-shot: lorsque Boole trace deux "l" à la suite, son deuxième "l" ressemble à un "e" avec une boucle très très petite. C'est ce qui explique que la prédiction de Transkribus contient des erreurs sur "tell" (lu "tele") sur la page de gauche, et "All" (lu "Ale") sur la page de droite. Pour savoir quelle était vraiment l'ampleur des erreurs de Transkribus, j'ai fait ma propre transcription de la double page, ligne par ligne (en suivant l'ordre des lignes tiré de la segmentation dans Transkribus, et en m'aidant un peu de la lecture proposé par Gemini4). Quand je calcule le taux de précision sur cet extrait, j'obtiens une précision au caractère d'environ 95% et une précision au mot de 88%.5 Largement perfectible donc, mais on n'est pas dans une situation catastrophique comme le laisse supposer le préambule.

Maintenant, si on regarde la transcription de Gemini, on s'aperçoit qu'il y a en fait aussi des erreurs, alors que Dan Cohen nous dit "Gemini transcribed the letter perfectly". Par exemple, Gemini transcrit, sur la page de droite, "occasionally by",6 en générant comme précision complémentaire dans une section de notes que "On the right page (line 8), the handwriting becomes very scribbled. It appears to say 'take a long walk occasionally try & once or twice...' or possibly 'occasionally by & once or twice...'." Donc Gemini, échoue ici à proposer de lire une césure qui fait pourtant sens et préfère ajouter un mot dans sa transcription. Le problème ce n'est pas que Gemini n'ai pas fait une transcription parfaite bien sûr, mais plutôt que Dan Cohen l'affirme sans relever cette erreur.

On a le même problème dans le deuxième exemple, où Gemini met en forme le mot "transmitted" pour signaler qu'il est barré dans la source alors que ce n'est pas le cas. Le texte généré par Gemini ne laisse pas de doute vis-à-vis de l'aspect du texte dans la source, et invente une intention de la part de l'auteur: "In the second line of the body, the word 'transmitted' is crossed out in the original text, but the sentence is grammatically incomplete without it (or a similar verb). It is likely the author meant to replace it to avoid repetition with the word 'transmitting' appearing a few lines later but forgot to insert the new word." Alors que cette erreur était plus facile à repérer, Dan Cohen nous dit pourtant encore une fois: "Another perfect job."

Le coup de grâce à mon avis vient avec le troisième exemple. Gemini n'en propose pas de transcription complète, et génère, après quelques lignes, un message indiquant que le texte est illisible au-delà d'un certain point. Cela permet à Dan Cohen d'en conclure: "Gemini does the right thing here: rather than venture a guess like a sycophantic chatbot, it is candid when it can’t interpret a section of the letter." Personnellement, je m'étouffe en lisant ça, vu les erreurs déjà notées dans les deux exemples précédents. Au contraire de ce qu'affirme Dan Cohen, il n'y a pas de candeur ici, mais plutôt une effet pervers de ce que j'imagine être un calibrage du modèle en fonction de son taux de perplexité. Dans les deux premiers exemples, on peut imaginer que la perplexité du modèle face à certains passages difficiles conduit à la génération d'une note et/ou d'un insert entre crochets, mais n'empêche pas la génération d'une transcription fausse. Elle passe d'autant plus inaperçue que les explications générées en notes sonnent bien, même si elles sont fausses. On n'a donc pas affaire à un robot candide, mais à un chatbot arnaqueur, un presti-générateur, qui trouve une porte de sortie lorsque la situation est trop grosse pour une feinte subtile. Et à mon avis il serait vraiment temps que les utilisateurs de ces logiciel intègrent cette réalité, en ayant la main d'autant moins légère quand ils contrôlent ce que génèrent ces outils.

Je n'ai pas encore lu le billet de Mark Humphries que je mentionnais tout au début, mais j'aurais peut-être l'occasion de revenir encore sur le sujet. A vrai dire, ce que je trouve vraiment vraiment dommage avec ces publications, issues du monde académique, qui contribuent à alimenter l'hystérie autour de l'IA générative, c'est qu'elle me donne l'impression que décidément ce n'est même pas de la part de la communauté scientifique que viendra le Salut. En tant que citoyenne et jeune chercheuse, cela m'inquiète beaucoup.

EDIT: 2025-12-01: Petites corrections et ajout de notes d'une note supplémentaire en bas de page.


  1. Je donne cette précision sur l'édition des biographies et des correspondances car elle me semble importante: Dan Cohen n'a pas pris des documents dont on est sûr qu'ils soient inédits. Etant donné que les modèles d'IA générative sont entraînés à partir de tout ce qui peut être trouvé sur le Web, cela veut dire que ces lettres ont peut-être d'une manière ou d'une autre, fait partie des lots utilisés pour l'entraînement. Par exemple, sur le site des Archives du University College of Cork, d'où est tirée la numérisation de la lettre de Boole, on trouve le texte suivant dans le champ description: "Boole in Cork to Maryann. He is in a very depressed mood, life has become monotonous with only his work adding interest to the day. He enjoys playing the piano but 'it would be better with someone else to listen and to be listened to'. He is also very annoyed by [Cropers] dedicating his book to him without first asking for permission - 'I cannot help feeling that he has taken a great liberty' - and speaks in strong terms of [Cropers] 'pretensions to high morality'. He invites and urges Maryann to visit him as soon as their mother's health would allow. He feels the climate would do her good." Ce sont des éléments de contexte qui peuvent aider, y compris un modèle, au moment de transcrire. 

  2. Je ne dis pas "mise en page standard", parce que le phénomène qui est illustré par le troisième exemple, le fait de réécrire sur la même feuille après l'avoir tournée à 90°, correspond à une pratique qu'on retrouve au moins jusqu'au milieu du XXe siècle. 

  3. Par lisible, je veux dire qu'on n'a pas besoin de savoir quelle était la phrase de départ pour comprendre ce qu'on aurait du lire dans les erreurs. J'admets par contre qu'en fonction de la familiarité avec le texte ou de la langue ou de la nature des erreurs, cette lisibilité peut varier. Si jamais vous trouvez quand même cette phrase illisible, il faut la lire comme ceci: "the hardest problem in digital humanities has finally been solved". Il y avait 1 inversion de lettres dans "digital", une lettre manquante dans "humanities", une lettre substituée par une autre dans "finally", un lettre en trop dans "been" et une séparation inappropriée dans "solved". 

  4. Je développe très rapidement sur le point de la mise en page. Dans la transcription de Gemini, il y a des compléments d'informations qui suggèrent que le modèle a bien identifié à quelle page correspond telle ou telle partie du texte. Dans la transcription de Transkribus, ce n'est pas le cas, mais je pense que c'est parce que Dan Cohen a seulement utilisé la page de test de modèles de transcription de Transkribus. S'il avait utilisé la version complète de Transkribus, je suis sûre que le modèle aurait aussi parfaitement identifié la mise en page en double page. Pour ce qui concerne la transcription ligne par ligne, on n'a plus cette information dans la transcription de Gemini, qui génère le texte en continu. 

  5. Parmi les erreurs de Transkribus, on peut aussi noter l'utilisation d'un "в" (le v cyrillique) pour transcrire le "B" de la côte du document, et d'un "р" (le r cyrillique) pour transcrire le "P" qui suit. Ce sont des erreurs qui nous échappent quand on fait un contrôle visuel rapide, qui ne gêne pas la lecture par les humains, mais qui font baisser la précision calculée automatiquement puisque qu'un в n'est pas un B et un р n'est pas un P, ni d'ailleurs un p (see what I did here?). 

  6. Transkribus l'avait transcrit "occasion by".