DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA donne la bonne réponse — mais pas pour les bonnes raisons

Trois papiers qui soulèvent la même question : est-ce que l'IA raisonne vraiment, ou fait-elle semblant ?

            May 25, 2026
          

Journée chargée aujourd'hui — 285 papiers au compteur, beaucoup de benchmarks, quelques théories. J'ai passé ma matinée à tamiser pour vous épargner le bruit. Ce qui est ressorti, ce n'est pas une percée spectaculaire. C'est quelque chose de plus insidieux : trois équipes différentes, trois domaines différents, et la même conclusion inconfortable sur ce que l'IA comprend vraiment.

Les histoires du jour

              01 / 03
            

Un bon score de diagnostic ne veut pas dire que l'IA a bien raisonné

Un médecin peut trouver le bon diagnostic pour de mauvaises raisons — une IA aussi, et c'est presque impossible à voir avec les métriques habituelles.

Imaginez un concours de cuisine où le candidat est noté uniquement sur la photo du plat final. Il peut tricher sur la recette, sauter des étapes, improviser — si l'assiette est belle, il passe. C'est exactement le problème que l'équipe derrière DDX-TRACE a mis en évidence avec les IA médicales. Leur benchmark teste 211 cas de neuroradiologie réels, annotés par des médecins. Le principe : l'IA doit jouer le rôle d'un médecin qui reçoit un patient. Elle demande elle-même les examens d'imagerie qu'elle veut voir, met à jour son diagnostic au fur et à mesure, et finit par localiser la lésion. Les images sont cachées jusqu'à ce qu'elles soient demandées. Le résultat est inconfortable : certains modèles arrivent au bon diagnostic final — mais sans avoir demandé les examens que les médecins considèrent essentiels. D'autres demandent les bons examens mais les interprètent mal une fois reçus. Deux modèles avec le même score de diagnostic final peuvent avoir suivi des trajectoires radicalement différentes. Pourquoi ça compte ? Parce que dans un contexte clinique, la démarche compte autant que la conclusion. Une IA qui trouve la bonne réponse sans le bon raisonnement est un outil fragile : elle échouera dès que le cas sera légèrement différent du schéma qu'elle reconnaît. Le hic : le benchmark ne couvre pour l'instant que la neuroradiologie, avec 211 cas. C'est rigoureux, mais étroit. Et les modèles spécialisés en médecine ne se comportent pas forcément mieux que les généralistes. Il y a clairement du travail.

Glossaire

VLM (Vision-Language Model) — Un modèle d'IA capable de traiter à la fois du texte et des images — il peut lire une question et analyser une radio en même temps.

diagnostic différentiel — La liste des diagnostics possibles qu'un médecin garde en tête et qu'il affine au fur et à mesure des examens.

Source: DDX-TRACE: A Benchmark for Medical Diagnostic Trajectories in VLMs

              02 / 03
            

Seize IA regardent le même problème — mais ne le résolvent pas de la même façon

Seize grands modèles de langage traitent les mêmes informations face au même problème — puis divergent complètement au moment de répondre.

Prenez seize personnes différentes, montrez-leur la même scène de circulation. Elles regarderont probablement les mêmes éléments — le feu rouge, la voiture qui double. Mais elles prendront des décisions différentes. C'est, en gros, ce qu'une équipe de chercheurs a découvert en comparant 16 modèles de langage allant de 1,5 milliard à 72 milliards de paramètres, sur 800 problèmes de raisonnement issus de quatre benchmarks. La mesure utilisée — appelée CKA, une façon de comparer si deux réseaux de neurones traitent les informations de façon similaire — révèle quelque chose de paradoxal. Les modèles convergent davantage sur les problèmes qu'ils ratent tous ensemble (CKA = 0,897) que sur ceux qu'ils résolvent (CKA = 0,830). Autrement dit : quand l'IA se trompe, elle se trompe de la même manière. Quand elle réussit, elle y arrive par des chemins différents. Plus étonnant encore : avant de prendre une décision, les représentations internes des modèles se ressemblent beaucoup (CKA = 0,875). Après la décision, elles divergent radicalement (CKA = 0,274). Les modèles s'accordent sur « ce qu'ils voient » — mais pas sur « ce qu'ils en font ». Pourquoi ça compte ? Si deux modèles s'accordent sur une réponse, on a tendance à penser que c'est bon signe. Cette étude suggère que l'accord peut simplement refléter une erreur partagée, pas une compréhension partagée. Le hic : les benchmarks utilisés sont académiques — maths scolaires, questions de bon sens, vrai/faux. On ne sait pas si ces résultats tiennent sur des tâches plus ouvertes. Et les chercheurs eux-mêmes admettent ne pas savoir encore si cette convergence vient de l'architecture ou de l'entraînement. La question reste ouverte.

Glossaire

CKA (Centered Kernel Alignment) — Une mesure mathématique qui quantifie à quel point deux réseaux de neurones représentent l'information de façon similaire en interne, indépendamment de leurs réponses finales.

représentation interne — La façon dont un réseau de neurones encode une information dans ses couches intermédiaires — ce qu'il « voit » avant de produire une réponse.

Source: Convergence Without Understanding: When Language Models Agree on Representations but Disagree on Reasoning

              03 / 03
            

On peut empoisonner la mémoire d'une IA via une simple conversation

Si vous pouviez glisser un faux souvenir dans la tête d'un assistant IA au fil d'une conversation ordinaire — sans accès spécial, sans pirater quoi que ce soit — que feriez-vous faire ?

Imaginez un assistant qui prend des notes de vos échanges et s'en souvient la prochaine fois. Maintenant imaginez que quelqu'un, en posant les bonnes questions, puisse glisser de fausses notes dans ce carnet — sans que vous ne le voyiez. C'est ce qu'on appelle une attaque par injection de mémoire, et c'est plus accessible qu'on ne le croit. Les agents IA dotés de mémoire — ces assistants qui retiennent les conversations passées pour mieux vous aider — peuvent être manipulés via des interactions normales. Un utilisateur malveillant crée des échanges qui insèrent des enregistrements falsifiés dans la mémoire de l'agent. À la requête suivante, l'agent pioche dans cette mémoire empoisonnée et produit des réponses nuisibles — sans que rien n'indique qu'il a été compromis. L'équipe derrière MemAudit propose un système d'audit après coup. Il combine deux signaux : un score d'influence contrefactuelle — on mesure ce qui se passe si on retire un souvenir suspect, et si l'output change significativement, c'est louche — et une analyse de cohérence structurelle entre les souvenirs. Les souvenirs empoisonnés créent des incohérences détectables. Sur GPT-4o, les résultats sont nets : le taux de succès des attaques passe de 70 % à 0 % pour les tâches de questions-réponses, et de 83,3 % à 0 % pour les tâches de raisonnement. Sans accès à des étiquettes de « poison connu » — l'audit travaille à l'aveugle. Le hic : les tests ne couvrent qu'un seul type d'attaque sur un seul modèle. On ne sait pas encore si ça tient face à des attaques plus sophistiquées, ni si les résultats se généralisent à d'autres architectures. Un premier pas sérieux, mais pas un bouclier universel.

Glossaire

agent IA avec mémoire — Un système d'IA qui stocke des informations sur les conversations passées pour personnaliser ses réponses futures — à la façon d'un assistant qui se souvient de vos préférences.

attaque par injection de mémoire — Une manipulation où un utilisateur malveillant insère de faux souvenirs dans la base de mémoire d'un agent IA via des interactions normales, pour en corrompre le comportement ultérieur.

Source: MemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection

La vue d'ensemble

Ces trois papiers posent la même question par des chemins différents : est-ce qu'on mesure les bonnes choses ? DDX-TRACE montre qu'un bon score de diagnostic peut masquer un raisonnement cliniquement défaillant. L'étude sur la convergence montre que des modèles qui semblent traiter l'information de façon similaire divergent précisément là où ça compte — au moment de décider. MemAudit rappelle qu'un agent qui « se souvient » peut être corrompu par n'importe qui avec un peu de patience et aucun accès privilégié. Ce qui les relie, c'est une même limite de nos outils d'évaluation actuels : on mesure les sorties, pas les trajectoires. Ces trois équipes suggèrent que la façon dont une IA arrive à une réponse est au moins aussi importante que la réponse elle-même. C'est un chantier ouvert, et franchement, on n'en est qu'au début.

À surveiller

La question à surveiller dans les prochaines semaines : est-ce que ces résultats sur le raisonnement médical vont pousser les équipes qui développent des outils cliniques à adopter des métriques de trajectoire plutôt que de simple précision ? La conférence ACL 2025 en juillet sera un bon baromètre — plusieurs soumissions portent sur l'évaluation des processus de raisonnement. Et du côté de la sécurité des agents, je serais curieux de voir si des attaques plus sophistiquées que MINJA mettent à genoux MemAudit ou si le principe tient.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe