DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Vos agents IA ont de vrais problèmes — les voici

Trois études cette semaine pour voir précisément où les agents IA coincent, et ce que ça coûte de les en sortir.

            June 09, 2026
          

Journée dense en benchmarks — je sais, dit comme ça c'est peu vendeur. Mais ces trois papiers sont en fait des radiographies : ils montrent, chiffres à l'appui, ce que nos agents IA savent vraiment faire et ce qu'ils ratent encore. J'ai sélectionné les trois qui m'ont semblé les plus honnêtes sur l'état des lieux.

Les histoires du jour

              01 / 03
            

Un modèle open-source rivalise presque avec GPT pour gérer le cloud

Un apprenti qui regarde un expert, puis s'entraîne seul des milliers de fois : c'est exactement ce qu'Alibaba a fait avec son agent cloud.

Alibaba a publié cette semaine une expérience simple en apparence : peut-on former un modèle open-source à une tâche très précise — administrer une interface cloud complexe — au point de rivaliser avec les meilleurs modèles propriétaires ? La réponse est : presque. Leur agent, AliyunConsoleAgent-32B, réussit 63,5 % des tâches dans leur benchmark maison. Le meilleur modèle propriétaire, Gemini 3 Pro Preview, obtient 65,3 %. Deux points d'écart. Et leur modèle coûte 92 % moins cher à faire tourner. Comment ont-ils fait ? En deux temps. D'abord, ils ont laissé de grands modèles propriétaires effectuer les tâches, et ont enregistré chaque action — comme un apprenti qui observe un expert avant de prendre le relais. C'est la distillation : on apprend par imitation. Ensuite, ils ont lâché leur modèle sur une vraie console cloud, avec un système de récompense binaire : mission réussie ou non. C'est du renforcement — l'IA apprend par l'expérience, pas par les livres. En production, l'agent a audité 54 000 procédures d'administration et trouvé 4 399 erreurs réelles, acceptées par les équipes d'Alibaba. Le hic : le benchmark est fait maison, sur la console d'Alibaba. Ce n'est pas neutre — c'est leur terrain, leurs règles. Et les deux points d'écart avec les modèles propriétaires ne sont pas statistiquement significatifs : les auteurs le disent eux-mêmes (p > 0,05). Donc soyons prudents. C'est très encourageant. Mais ce n'est pas encore une victoire officielle sur terrain neutre.

Glossaire

distillation — Technique qui consiste à entraîner un modèle plus petit en lui faisant imiter les réponses d'un modèle plus grand et plus coûteux.

renforcement (GRPO) — Méthode d'entraînement où le modèle apprend par essais et erreurs : il est récompensé quand il réussit une tâche, pénalisé quand il échoue.

modèle open-source — Modèle d'IA dont les poids sont publics et que n'importe qui peut faire tourner sur ses propres serveurs, contrairement aux modèles propriétaires accessibles uniquement via API.

Source: AliyunConsoleAgent: Training Web Agents in Real-World Cloud Environments via Distillation and Reinforcement Learning

              02 / 03
            

GPT-5 échoue à 83 % des tâches de navigation dans une pièce

Un enfant de trois ans traverse une cuisine sans se cogner. GPT-5 échoue à 83 % du même exercice dans un simulateur.

Imaginez que vous demandez à quelqu'un de retrouver vos clés dans l'appartement, de vous guider jusqu'à un café, ou de ranger le salon en évitant les obstacles. Tâches banales pour un humain. Pour les meilleurs modèles d'IA actuels, c'est une catastrophe. SpatialWorld, c'est le travail d'une équipe de chercheurs qui ont construit 760 tâches réparties dans 8 environnements simulés différents : maison virtuelle, rue urbaine, espace de travail, jeux vidéo. Le modèle voit uniquement ce que verrait une caméra à hauteur des yeux — pas de carte, pas de vue du dessus. Il doit explorer, se souvenir, planifier, agir. GPT-5, le meilleur du classement, réussit 17,4 % des tâches. Le meilleur modèle open-source, Qwen-3.5, plafonne à 14,1 %. Soyons honnêtes : c'est accablant. Mais il y a quelque chose de plus subtil que le chiffre brut. Les chercheurs ont observé une dissociation étrange : les modèles qui réussissent le mieux les tâches ne sont pas toujours les plus efficaces dans leur trajectoire. Comprendre ce qu'on vous demande, et exécuter la solution proprement, sont deux compétences séparées — et l'IA peine sur les deux à la fois. Le hic : ces simulations, aussi soignées soient-elles, restent des décors propres. Pas de lumière variable, pas d'objets qui traînent au mauvais endroit, pas d'imprévu. Les 17 % de réussite dans un appartement virtuel seraient probablement encore inférieurs dans un appartement vrai. Le fossé avec le monde physique réel reste entier.

Glossaire

raisonnement spatial — Capacité à comprendre et manipuler des relations dans l'espace : distances, orientations, obstacles, trajectoires.

POMDP — Cadre mathématique qui modélise une situation où l'agent ne voit qu'une partie de l'environnement — comme une caméra qui ne montre que ce qui est devant soi.

taux de succès de tâche (TSR) — Pourcentage de tâches complétées avec succès par rapport au total des tâches testées.

Source: SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

              03 / 03
            

En IA scientifique, ce sont les données qui font la différence, pas le cerveau

Un excellent médecin qui n'a accès qu'à Wikipédia ne peut pas rivaliser avec un confrère qui a les dossiers complets — et c'est exactement ce que cette étude démontre pour l'IA.

Une équipe de chercheurs a posé une question inconfortable : dans une tâche d'évaluation scientifique complexe — estimer la valeur commerciale d'un médicament en développement — qu'est-ce qui compte le plus ? La qualité du modèle ? Les outils de raisonnement ? Ou les données auxquelles il a accès ? Ils ont testé trois configurations du même agent, Claude Opus 4.8, maintenu constant. Version A : le modèle seul, avec recherche web classique. Version B : même modèle, mais équipé d'un manuel de procédure, d'un vérificateur d'erreurs, et d'un agent jouant l'avocat du diable pour challenger ses conclusions. Version C : tout ça, plus l'accès à une base de données propriétaire très complète sur les essais cliniques et les médicaments en développement. De A à B, les améliorations sont réelles mais modestes — la précision des recommandations passe de 0,80 à 0,89. Mais de B à C, le saut est spectaculaire : la qualité de décision informée passe de 2,57 à 7,43. Les outils de raisonnement ne font pas grand-chose si les faits de base manquent. C'est la leçon centrale : l'intelligence ne remplace pas l'accès à l'information. Un modèle très habile avec des données lacunaires reste un modèle très habile avec des données lacunaires. Le hic — et les auteurs le reconnaissent à leur crédit : le benchmark de référence vient de la même base propriétaire que la condition C. Il y a une circularité dans l'évaluation. Les résultats sont convaincants dans leur logique, mais pas entièrement indépendants. À garder en tête.

Glossaire

distillation (dans ce contexte) — Ici utilisé au sens large : simplification d'un processus complexe d'évaluation en étapes outillées et vérifiables.

avocat du diable (agent) — Agent IA dont le rôle est de challenger activement les conclusions d'un autre agent, pour réduire les biais de confirmation.

couverture de données (R_gold) — Pourcentage des informations de référence nécessaires que l'agent peut effectivement retrouver dans ses sources disponibles.

Source: AI Scientists Are Only as Good as Their Evidence: A Stratified Ablation of Proprietary Data and Reasoning Skills in Drug-Asset Valuation

La vue d'ensemble

Ces trois papiers parlent de la même chose sous des angles différents : on pousse les agents IA dans des tâches réelles et spécialisées, et on commence à voir exactement où ça coince. Alicloud montre qu'on peut combler l'écart avec les géants propriétaires en formant très spécifiquement un modèle sur son domaine — mais ça demande du travail, de la data, et ça ne tient que sur ce domaine précis. SpatialWorld rappelle que même les meilleurs modèles sont aveugles dès qu'on leur demande de naviguer dans l'espace — une compétence qu'on tient pour acquise chez n'importe quel enfant. Et l'étude pharma dit une chose simple mais importante : toute l'ingéniosité du monde ne compense pas l'absence des bonnes données. Ensemble, ces trois résultats suggèrent que la prochaine bataille n'est pas 'quel modèle est le plus intelligent en général', mais 'quel agent est le plus fiable sur quelle tâche précise, avec quelle information'. C'est une question d'ingénierie autant que de science. Et c'est sain.

À surveiller

Surveillez les évaluations indépendantes des agents cloud dans les semaines qui viennent — AliyunConsoleAgent a besoin d'un test sur terrain neutre pour confirmer ses chiffres. Sur le raisonnement spatial, la question ouverte reste entière : est-ce un problème de données d'entraînement, d'architecture, ou les deux ? Une conférence comme NeurIPS fin 2026 devrait apporter des éléments de réponse. Et sur la question des données propriétaires en IA scientifique, attendez-vous à voir d'autres études du même type dans le domaine juridique et médical — le sujet est brûlant.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe