DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA qui répond sans regarder, et celle qui vous protège

Trois papiers qui posent la même question : est-ce que l'IA comprend vraiment ce qu'elle observe ?

            June 08, 2026
          

Journée dense aujourd'hui — 724 papiers disponibles, ce qui m'a pris la matinée pour en sortir trois qui valent vraiment votre attention. Deux diagnostics et une vraie avancée technique. Je vous propose de commencer par le plus inconfortable.

Les histoires du jour

              01 / 03
            

Quand l'IA répond juste sans regarder l'image

Cachez l'image à un modèle d'IA censé la décrire — il continue de répondre correctement dans 20 à 40 % des cas.

Imaginez un étudiant qui passe un examen avec photo. Vous flouez l'image progressivement, jusqu'à la rendre complètement illisible. Il continue de répondre juste. C'est exactement ce que des chercheurs ont découvert en testant trois grands modèles de vision — Qwen2.5-VL et LLaVA, pour les nommer — sur douze benchmarks différents. Le résultat est inconfortable : entre 20 et 40 % des réponses restent correctes même quand l'image est totalement supprimée. Sur des sujets médicaux, certains modèles ne perdent que 10 % de précision sans image. Ils ne voient pas — ils devinent. Et ils devinent bien, parce qu'ils ont appris que certaines questions appellent toujours certaines réponses, peu importe ce qu'il y a devant eux. Les chercheurs ont disséqué ces modèles couche par couche, comme un scanner. Ils ont trouvé deux goulots d'étranglement. D'abord dans les couches intermédiaires : l'information visuelle ne remonte pas correctement depuis l'encodeur. Ensuite dans les dernières couches : le peu de signal visuel qui survit est écrasé par les habitudes linguistiques du modèle — ce qu'il a appris à dire, indépendamment de ce qu'il voit. Le problème de fond ? La plupart des benchmarks actuels récompensent la bonne réponse sans vérifier si elle est visuellement fondée. On mesure le résultat, pas la raison. Le hic, et il est de taille : ce travail est un diagnostic, pas un remède. Les auteurs n'ont pas de solution technique à proposer. Ils ont cartographié l'étendue du problème — ce qui est déjà utile, parce qu'on ne peut pas corriger ce qu'on n'a pas mesuré. Mais pour l'instant, on sait que le problème est là. Structurel. Et répandu.

Glossaire

benchmark — Un jeu de tests standardisé qui permet de comparer les performances de différents modèles IA sur les mêmes questions.

encodeur — La partie du modèle qui transforme l'image en une représentation numérique que le reste du système peut traiter.

couches du modèle — Les étapes de traitement successives à l'intérieur d'un réseau de neurones — comme des filtres empilés, chacun affinant l'information.

Source: Diagnosing Visual Ignorance in Vision-Language Models

              02 / 03
            

98% des sites vous manipulent — une IA pour les débusquer

98 % des sites web que vous visitez contiennent au moins un piège d'interface conçu pour vous faire cliquer là où vous ne voulez pas.

Vous connaissez la case pré-cochée pour recevoir la newsletter, le bouton « Refuser tout » camouflé en gris pâle dans un coin, la pop-up qui se rouvre si vous ne cliquez pas au bon endroit. Ce sont des dark patterns — des pièges d'interface délibérément conçus pour contourner votre intention. Pas des bugs. Des choix. Des chercheurs ont analysé 485 sites web réels. Le chiffre est brutal : 98 % d'entre eux contiennent au moins un de ces pièges. Vous ne visitez presque jamais un site qui joue franc jeu. Leur réponse s'appelle DPAgent. C'est un système multi-agents IA qui s'intercale entre vous et l'interface — un peu comme un ami méfiant qui regarde par-dessus votre épaule avant que vous cliquiez. Il analyse la page, identifie les manipulations, et peut réécrire l'interface pour en retirer les pièges. Les chiffres : 91 % des pièges détectés, 77 % des interfaces réparées. Ce qui est nouveau dans ce papier, c'est aussi la menace qu'il nomme : « l'IA de grooming ». Autrement dit, des interfaces maintenant conçues pour tromper non plus les humains, mais les agents IA qui vous assistent. La manipulation monte en niveau d'abstraction. Une course aux armements commence. Le hic : DPAgent est un prototype académique, pas une extension de navigateur disponible la semaine prochaine. Les conditions de test ne reproduisent pas exactement le terrain réel — des sites qui se mettent à jour toutes les heures, des pièges qui changent selon votre profil. Et les résultats n'ont pas encore été validés par des évaluateurs indépendants. C'est prometteur. Ce n'est pas encore un outil.

Glossaire

dark pattern — Une technique de conception d'interface qui exploite les automatismes des utilisateurs pour les amener à effectuer des actions qu'ils n'ont pas voulues consciemment.

multi-agents IA — Un système composé de plusieurs IA spécialisées qui collaborent, chacune prenant en charge une étape du problème.

Source: DPAgent-in-the-Middle: Agentic Defense and Repair Against AI-Groomed Deceptive Patterns

              03 / 03
            

Des vidéos de deux heures, enfin comprises par une IA

Répondre à des questions précises sur un film de deux heures — en ne relisant que 2 % du contenu.

Imaginez qu'on vous demande, après un film de deux heures, de retrouver exactement ce qui s'est passé à la minute 43. La plupart d'entre nous prendraient des notes structurées plutôt que d'essayer de tout garder en tête. Les grands modèles IA, jusqu'ici, tentaient de tout ingérer en même temps — ce qui revenait à regarder le film avec des centaines de pensées simultanées. Ça marchait mal sur les longues vidéos. MemDreamer, développé par une équipe dont les résultats paraissent cette semaine sur arXiv, change d'approche. Le système sépare clairement deux tâches : percevoir (regarder et prendre des notes en temps réel) et raisonner (aller chercher les bons passages au bon moment, comme un archiviste). La mémoire est organisée en trois niveaux — les grands chapitres d'un côté, les scènes au milieu, les détails et personnages en bas — avec des liens qui indiquent quels éléments sont liés entre eux. Les résultats sont concrets. Sur LVBench, le test de référence pour les vidéos longues, MemDreamer améliore les scores de 12,5 points de pourcentage sans changer le moteur sous le capot. Sur Qwen3VL, on passe de 63,6 % à 84,8 %. La distance avec un expert humain tombe à 3,7 points. Et pendant ce temps, le modèle ne traite activement que 2 % du contexte total — il retrouve les bonnes notes plutôt que de tout relire. Le hic : ces tests sont standardisés, dans des conditions contrôlées. Les vraies vidéos — une réunion Zoom chaotique, un livestream qui dérive, un documentaire sans chapitrage — sont plus imprévisibles. Et ces scores ne disent rien sur la compréhension du sous-texte, de l'émotion ou du contexte culturel. C'est un vrai pas en avant. Pas la fin du chemin.

Glossaire

LVBench — Un benchmark spécialisé dans la compréhension de vidéos longues — plusieurs dizaines de minutes à plusieurs heures — conçu pour tester la capacité des IA à relier des événements distants dans le temps.

modèle de langage multimodal (MLLM) — Un modèle IA capable de traiter ensemble du texte, des images et de la vidéo, pas seulement du texte.

Source: MemDreamer: Decoupling Perception and Reasoning for Long Video Understanding via Hierarchical Graph Memory and Agentic Retrieval Mechanism

La vue d'ensemble

Ces trois papiers posent, chacun à leur manière, la même question : est-ce que l'IA est réellement ancrée dans ce qu'elle observe, ou est-ce qu'elle flotte au-dessus ? Le diagnostic sur la vision le dit explicitement — les modèles confondent « produire la bonne réponse » et « comprendre ce qu'ils voient ». MemDreamer tente d'y répondre en forçant une séparation nette entre perception et raisonnement, ce qui donne des résultats mesurables. DPAgent retourne ces mêmes outils contre les interfaces qui nous manipulent — et révèle au passage qu'une nouvelle guerre commence, entre IA offensives et IA défensives. Ce qui m'intéresse dans ces trois travaux pris ensemble, c'est que le débat ne porte plus sur la taille des modèles ni sur la vitesse de calcul. Il porte sur la fiabilité du lien entre ce qu'une IA perçoit et ce qu'elle produit. C'est plus subtil, plus difficile à mesurer — et probablement plus important pour la suite.

À surveiller

À surveiller cet automne : la conférence ICCV sera un bon thermomètre pour voir si les approches de visual grounding commencent à tenir leurs promesses hors des conditions de labo. Sur DPAgent, la vraie question est de savoir si un outil similaire peut fonctionner directement dans un navigateur sans ralentir l'expérience utilisateur — une équipe quelque part y travaille certainement. Et sur MemDreamer, j'aimerais voir les résultats sur des vidéos non-scriptées et non-découpées : le vrai test sera là.

Pour aller plus loin

Merci de m'avoir lu. Bonne semaine — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe