DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Les IA voient juste, mais répondent faux : trois preuves.

Aujourd'hui, la recherche en IA montre que savoir et répondre correctement sont deux choses très différentes.

            June 01, 2026
          

Bonne journée. Pas une journée spectaculaire côté annonces, mais une journée dense côté recherche fondamentale — le genre de papiers qui ne font pas de bruit mais qui comptent vraiment. Je vous propose trois histoires qui tournent toutes autour du même constat : nos modèles d'IA ont un écart troublant entre ce qu'ils traitent en interne et ce qu'ils font avec. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

Les IA savent qu'une personne est une femme, mais écrivent « homme ».

Le modèle voit une infirmière au genre ambigu, son réseau interne note « féminin » — et il répond quand même « homme ».

Imaginez un traducteur qui comprend parfaitement un mot dans sa tête, mais écrit systématiquement le mauvais mot sur le papier. C'est exactement ce qu'une équipe de chercheurs vient de documenter dans quatre grands modèles de vision-langage — ces IA capables d'analyser une image et d'en parler. Leur protocole : montrer aux modèles environ 900 images générées par IA représentant des personnes au genre délibérément ambigu, dans 15 métiers différents — fleuriste, programmeur, infirmière, avocat. Puis demander : « Cet individu est-il un homme ou une femme ? » Résultat attendu : une réponse incertaine, ou un partage à peu près équilibré. Résultat réel : les modèles répondent presque systématiquement « homme ». Mais voici où ça devient franchement fascinant. Ces chercheurs ont développé un outil appelé LALS — une sorte de stéthoscope pour écouter ce qui se passe à l'intérieur du réseau neuronal. À l'intérieur, les modèles encodent bien une association féminine. L'information est là. Elle est traitée. Puis, au moment de produire une réponse, quelque chose l'écrase. Ce phénomène — des représentations internes qui disent une chose, une sortie qui en dit une autre — s'appelle le « découplage ». Et c'est un problème sérieux, parce que les méthodes habituelles pour auditer un modèle regardent ce qu'il produit, pas ce qu'il pense. Le hic, et il est important : l'étude porte sur quatre modèles, environ 900 images synthétiques, et un seul vérificateur humain. Aucun test statistique formel n'est décrit. C'est une direction de recherche prometteuse — pas une conclusion définitive. Mais le signal est suffisamment net pour qu'on y revienne.

Glossaire

modèle de vision-langage — Un programme d'IA capable d'analyser une image et de répondre à des questions en langage naturel à son sujet.

réseau neuronal — La structure interne d'un modèle d'IA, organisée en couches successives qui transforment une entrée (image, texte) en sortie.

découplage — Situation où ce qu'un modèle traite en interne diffère de ce qu'il produit en sortie — comme penser une chose et en dire une autre.

LALS — Latent Association Leaning Score : un outil qui projette les activations internes du modèle dans l'espace du texte pour mesurer les associations implicites de genre.

Source: Vision-Language Models Suppress Female Representations Under Ambiguous Input

              02 / 03
            

Quand l'IA répond « oui » alors qu'elle devrait dire « je ne peux pas voir ».

Posez une question spatiale à une IA avec une vue partiellement bloquée — elle répondra avec autant de confiance que si elle voyait parfaitement.

Imaginez un chirurgien qui, avant d'opérer, affirmerait « je vois parfaitement » même avec un bandeau sur les yeux. Problématique, non ? C'est à peu près ce qu'une équipe de recherche vient de documenter avec les modèles de vision-langage face à des questions spatiales. L'équipe a construit un banc de test appelé SpatialUncertain, dans des environnements 3D simulés. Deux types de perturbations ont été testées : l'occultation — un objet cache la cible — et l'ambiguïté de perspective — la caméra est mal positionnée pour répondre à la question. Dans les deux cas, la bonne réponse serait : « Je ne peux pas savoir avec cette vue. » Huit modèles ont été évalués, dont GPT-4o, GPT-5-mini, et deux modèles Gemini. Résultats : sous occultation, la précision moyenne tombe à 30 %. Sous ambiguïté de perspective, elle passe en dessous de 10 %. Et quand on demande aux modèles quelle vue supplémentaire leur permettrait de répondre correctement, ils performent au niveau du hasard. Ce qui rend ça cliniquement intéressant : donner plus d'informations visuelles aide sous occultation — mais aggrave les choses sous ambiguïté de perspective. Le modèle devient plus confiant dans sa mauvaise réponse. Le hic : tout se passe en simulation. On ne sait pas encore si ces comportements se reproduisent à l'identique dans des environnements réels. Et le prompting structuré — formuler la question différemment — améliore un peu les résultats, mais au prix d'un nouveau défaut : l'IA refuse de répondre même quand elle le devrait. Jeter le bébé avec l'eau du bain, en somme.

Glossaire

occultation — Situation où un objet bloque partiellement ou totalement la vue sur la cible — comme regarder derrière une boîte.

ambiguïté de perspective — Situation où l'angle de vue rend une réponse spatiale impossible à déterminer avec certitude, même si l'image semble claire.

prompting structuré — Technique consistant à formuler la question posée au modèle d'une façon particulière pour influencer la qualité ou le type de réponse obtenue.

Source: Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

              03 / 03
            

L'IA voit le geste du basketteur, mais pas pourquoi il l'a fait.

Sur un match de basket, une IA reconnaît la passe à 73 % — mais comprendre pourquoi elle a été faite ? 5 %.

Vous regardez un match de basket. Un joueur passe la balle à gauche. Vous avez vu le geste. Mais avez-vous compris pourquoi il l'a fait ? Et sauriez-vous, tout seul, collecter tous les indices dispersés dans le match pour reconstituer la stratégie de l'équipe ? Une équipe de recherche a construit SVI-Bench pour poser exactement cette question aux IA. Le banc de test utilise environ 35 000 heures de matchs diffusés — basket, football, hockey — avec cinq sources de données croisées : vidéo, actions annotées, commentaires d'experts, rapports de match, statistiques. Puis il évalue les modèles sur neuf tâches organisées en quatre niveaux cognitifs, de la perception simple à la synthèse stratégique autonome. Résultat : un mur de compétence très net. Sur les tâches de perception — « qu'est-ce que ce joueur vient de faire ? » — les meilleurs modèles atteignent 73 % de précision. Pas mal. Mais dès qu'il faut raisonner sur les causes, simuler des scénarios alternatifs, ou — pire — aller chercher soi-même les preuves dispersées dans 1,8 million de clips vidéo, la précision tombe à 5 %. De 74 % à 5 %. Un gouffre de 69 points entre voir et comprendre. Ce n'est pas une question de puissance de calcul. C'est une question de structure cognitive : nos modèles sont bons pour reconnaître des patterns, médiocres pour raisonner sur les causes, et quasi-nuls pour agir de façon autonome et stratégique. Le hic : les vérités terrain pour les tâches causales viennent des commentateurs sportifs, pas d'experts indépendants. Et les « forts baselines » testés ne sont pas nommés précisément dans le papier. À garder en tête.

Glossaire

synthèse stratégique autonome — Capacité à rassembler soi-même des preuves dispersées dans de larges corpus pour répondre à une question complexe, sans que les sources soient préalablement identifiées.

baseline — Modèle de référence utilisé comme point de comparaison pour évaluer les progrès d'un nouveau système.

Source: SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence

La vue d'ensemble

Ces trois papiers disent la même chose par trois chemins différents : nos modèles d'IA ont un écart troublant entre ce qu'ils traitent et ce qu'ils produisent. Sur le genre, ils encodent « féminin » mais sortent « homme ». Sur la perception spatiale, ils répondent avec confiance quand ils devraient admettre ne pas voir. Sur la compréhension vidéo, ils reconnaissent l'action mais ratent le sens. Ce n'est pas un problème de puissance brute. C'est un problème de cohérence cognitive. Nous avons construit des systèmes exceptionnels pour reconnaître des patterns, et nous leur demandons maintenant de douter, de raisonner, et d'agir avec discernement. Ce n'est pas la même chose. La bonne nouvelle : ces trois équipes produisent des bancs de test rigoureux avec des métriques précises pour mesurer ces manques. Avant de résoudre un problème, il faut savoir le mesurer honnêtement. Aujourd'hui, on commence à y arriver.

À surveiller

À surveiller dans les semaines qui viennent : les conférences ACL et ICML de l'été 2026 devraient apporter une masse de papiers sur l'incertitude et la calibration des modèles — exactement les thèmes de nos deux premières histoires. La question ouverte que j'aimerais voir répondue : est-ce qu'on peut corriger le découplage interne/externe sur le genre sans casser la performance générale du modèle ? Personne ne sait encore.

Pour aller plus loin

Merci de m'avoir lu — prenez soin de vous. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe