DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Robot, clics, science : trois visages de l'IA en 2026

Parce que comprendre ce que l'IA fait vraiment — et ce qu'elle rate — est devenu une compétence de base.

            May 19, 2026
          

Trois papiers ce matin, chacun sur un sujet différent en apparence. Mais en les lisant l'un après l'autre, j'ai eu l'impression qu'ils racontaient la même histoire — celle d'une technologie qui impressionne dans un cadre bien défini, et qui déraille dès qu'on lui demande du jugement. Voilà ce que je vous propose aujourd'hui.

Les histoires du jour

              01 / 03
            

Un robot IA a fabriqué du graphène sans aide humaine

Un laboratoire vide, un bras robotique, et un modèle de langage qui décide seul quoi faire à chaque étape — et qui produit du graphène.

Une équipe de chercheurs a présenté Qumus, un système robotique autonome capable de fabriquer des matériaux à l'échelle atomique. Leur démonstration : créer du graphène — une feuille de carbone d'un seul atome d'épaisseur, l'un des matériaux les plus convoités en électronique — sans aucune intervention humaine. Et pas seulement le graphène : Qumus a aussi assemblé des transistors nanométriques, des composants fondamentaux de l'électronique moderne. Comment ça marche ? Imaginez une cuisine avec plusieurs cuisiniers spécialisés qui se coordonnent : un chef de projet, un responsable de labo, un expert dispositifs, un agent d'exécution. Qumus fonctionne exactement comme ça — plusieurs agents IA se répartissent les tâches, planifient, exécutent, observent le résultat via caméra, et corrigent les erreurs en boucle fermée. Si l'échantillon ne ressemble pas à ce qu'il devrait être, le système s'ajuste tout seul. Pourquoi ça compte ? Fabriquer des matériaux quantiques est aujourd'hui l'une des tâches les plus exigeantes en recherche : des heures de préparation, des techniciens très qualifiés, une précision au nanomètre. Si l'IA peut absorber cette partie — même partiellement — le rythme de la découverte scientifique pourrait changer de nature. Le hic, et il est important : c'est une démonstration de faisabilité, pas une validation rigoureuse. Les chercheurs ne donnent aucun taux de succès statistique, aucune comparaison avec un technicien humain, et ils qualifient eux-mêmes leurs expériences en conditions réelles de « préliminaires ». C'est un vrai premier pas. Ce n'est pas encore une preuve que le labo sans humain est pour demain.

Glossaire

graphène — Matériau formé d'une seule couche d'atomes de carbone arrangés en réseau hexagonal, extrêmement résistant et conducteur électrique.

transistor nanométrique — Composant électronique de taille infime (quelques nanomètres) qui sert de commutateur dans les circuits intégrés.

boucle fermée — Processus où le système observe lui-même le résultat de ses actions et s'ajuste en conséquence, sans intervention extérieure.

Source: Qumus: Realization of An Embodied AI Quantum Material Experimentalist

              02 / 03
            

GPT ne clique pas là où vous cliquez

Vous avez refait votre site. GPT vous dit que les utilisateurs cliqueront là. Dans la moitié des cas, il se trompe.

Des chercheurs ont conduit une étude sur 12 interfaces différentes, avec 3 431 vrais participants. Le principe : un test de premier clic — on montre une page, on pose une question (« où cliqueriez-vous pour trouver les tarifs ? »), et on mesure où les gens cliquent vraiment. Ensuite, on pose exactement les mêmes questions à GPT-4.1 et GPT-5.2. Résultat : dans 53 % des tâches, la répartition des clics de GPT était statistiquement différente de celle des humains réels. Pas légèrement — significativement. Pensez-y comme quelqu'un qui ne conduit jamais mais vous explique comment vous allez naviguer en ville. Il connaît les noms des rues, il peut décrire le plan — mais il ne ressent pas l'hésitation devant un panneau mal placé, ni l'attraction instinctive vers un bouton qui ressort visuellement. Ce qui aggrave la situation : les chercheurs ont essayé toutes les techniques habituelles pour améliorer GPT. Ils lui ont donné des personas (« imagine que tu es un utilisateur de 50 ans »), lui ont demandé de raisonner étape par étape avant de répondre, ont fait varier les paramètres de génération. Rien n'a amélioré la précision. Pire : ces techniques ont rendu les réponses de GPT plus crédibles sans les rendre plus justes — un écart entre apparence et réalité particulièrement dangereux pour une équipe produit. Le hic à retenir : beaucoup d'équipes utilisent déjà des participants synthétiques pour économiser du temps. Cette étude leur dit que ça peut conduire à de mauvaises décisions de design — pas que l'IA soit inutile en UX, mais qu'elle ne remplace pas les vrais clics de vrais humains.

Glossaire

test de premier clic — Méthode de test utilisateur où l'on mesure sur quel élément d'une interface une personne clique en premier pour accomplir une tâche donnée.

persona — Profil fictif d'utilisateur utilisé en design pour guider les décisions — ici, donné à GPT pour lui faire simuler un comportement humain spécifique.

participants synthétiques — Réponses générées par une IA pour remplacer de vrais participants humains dans une étude, afin de réduire les coûts et délais.

Source: What Would GPT Click: Practical Effects of Human-AI Behavioral Misalignment and the Cost of Synthetic Participants in User Experience

              03 / 03
            

L'IA chercheur : ce qu'elle fait bien, ce qu'elle invente

Pour 15 dollars, une IA peut écrire un article scientifique complet. Le problème : elle invente des résultats et ne le dit pas.

Des chercheurs ont publié ce qui ressemble à un guide de terrain : que peut faire l'IA à chaque étape d'un projet de recherche — de l'idée initiale à la publication — et à quel moment faut-il absolument garder un humain dans la boucle ? Leur réponse, après avoir analysé les systèmes disponibles jusqu'en avril 2026, est nette. L'IA est fiable pour les tâches structurées : chercher des articles, reformuler une section, vérifier une bibliographie, générer du code à partir d'un algorithme connu. Voyez-la comme un assistant très rapide pour tout ce qui ressemble à de la recherche dans des archives bien rangées. Mais là où ça décroche, c'est sur la nouveauté. Les grands modèles de langage — GPT, Gemini et leurs cousins — ont tendance à fabriquer des résultats quand ils sont sous pression scientifique. Ils ratent des erreurs cachées dans le code expérimental. Ils ne reconnaissent pas fiablement ce qui est vraiment original dans un domaine. Je simplifie, mais c'est le constat central. Le chiffre qui fait réfléchir : des systèmes entièrement automatisés peuvent produire des articles pour 15 dollars, mais ces articles ne franchissent pas les comités de lecture des grandes revues. Et les auteurs notent quelque chose de particulièrement inquiétant — plus un pipeline est automatisé, plus ses erreurs deviennent difficiles à détecter. L'automatisation n'élimine pas les défaillances, elle les dissimule. Le hic méthodologique : c'est une revue de littérature sans protocole méta-analytique formel. Les conclusions sont prudentes et cohérentes avec l'état du domaine — mais ce sont des observations organisées, pas des mesures expérimentales.

Glossaire

pipeline automatisé — Enchaînement d'étapes informatiques exécutées sans intervention humaine, où la sortie de chaque étape devient l'entrée de la suivante.

comité de lecture — Processus par lequel des experts évaluent anonymement un article scientifique avant qu'il soit publié dans une revue.

grand modèle de langage — Système d'IA entraîné sur d'immenses volumes de texte pour produire et comprendre le langage naturel — GPT, Gemini ou Claude en sont des exemples.

Source: AI for Auto-Research: Roadmap & User Guide

La vue d'ensemble

Ces trois histoires semblent parler de sujets très différents. Mais elles disent toutes la même chose, et je pense qu'il vaut la peine de le nommer clairement. L'IA excelle quand elle opère dans un cadre vérifiable : Qumus réussit à fabriquer du graphène parce que chaque étape est observable en temps réel. Elle échoue quand le critère de succès est humain et subjectif : GPT rate les clics parce qu'il ne ressent pas la friction d'une interface. Elle devient dangereuse quand elle simule une compétence qu'elle n'a pas vraiment : les systèmes de recherche automatisés s'effondrent précisément là où « correct » ne peut pas être vérifié mécaniquement — et ils le font sans prévenir. Ce n'est pas un hasard. C'est une limite structurelle de l'IA actuelle. Demandez-lui de reproduire, elle est remarquable. Demandez-lui de juger ce qui est nouveau, humain, ou subtil — elle bloque, ou pire, elle invente. Voilà le vrai tableau de bord de la recherche en ce moment.

À surveiller

Du côté du test utilisateur, je serai curieux de voir si la communauté design et produit s'empare de l'étude sur les clics — c'est le genre de résultat qui circule vite dans les équipes UX et qui peut changer des pratiques concrètes. Pour Qumus, la vraie question ouverte est celle-ci : est-ce que le système reproduit ses résultats de manière fiable sur d'autres matériaux, ou est-ce une démonstration calibrée pour le graphène ? Une publication de suivi avec des données statistiques propres serait décisive.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe