DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

Voir comme un humain, s'organiser, et apprendre à oublier

Parce que la prochaine frontière de l'IA, ce n'est plus la performance brute — c'est le contrôle de ce qui se passe dedans.

            June 04, 2026
          

Soyons honnêtes : aujourd'hui, la pile de papiers ressemble davantage à une journée de brainstorming collectif qu'à une journée de grandes découvertes — beaucoup de frameworks conceptuels, peu d'expériences avec de vrais chiffres. J'ai fait le tri pour vous et gardé trois histoires qui méritent votre attention : une sur la vision par ordinateur, une sur la coordination d'agents IA, une sur la mémoire des modèles. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

L'IA apprend à regarder une photo comme vous, pas comme un inventaire

Quand vous regardez une photo de repas entre amis, vous ne listez pas mentalement les 37 fourchettes sur la table.

Votre cerveau fait naturellement le tri entre ce qui compte et ce qui est juste là. Les systèmes de vision par ordinateur, eux, ont longtemps eu le réflexe inverse : tout lister. Ces systèmes construisent ce qu'on appelle un graphe de scène — une carte des objets dans une image et de leurs relations ("chien assis sur canapé", "femme regarde par la fenêtre"). Le problème, c'est que les systèmes classiques produisent des graphes beaucoup trop denses : trop d'objets, trop de relations, dont beaucoup sont techniquement vrais mais humainement non pertinents. Le système en aval qui doit utiliser cette carte se noie dans les détails. L'équipe de chercheurs a eu une idée simple : entraîner ces systèmes avec des légendes écrites par des humains sous leurs propres photos. Si une personne décrit spontanément une scène, elle signale implicitement ce qui lui semble important. Ces descriptions servent de boussole pendant l'entraînement pour apprendre au modèle à ne retenir que l'essentiel. Ils ont testé cette approche sur quatre architectures existantes — IMP, NeuralMotifs, Graph R-CNN, VCTree — et un jeu de données appelé Visual Genome, qui contient des milliers d'images annotées. Les graphes produits sont plus proches des descriptions humaines, mesurés par une métrique appelée distance d'édition de graphe : une façon de compter combien d'ajustements il faudrait pour passer d'un graphe à l'autre. Le hic : l'amélioration est comparée aux annotations humaines du même dataset. On ne sait pas encore si ces graphes "plus humains" sont vraiment plus utiles dans des applications concrètes — reconnaissance de scènes, assistance aux personnes malvoyantes, robotique. C'est un vrai pas en avant sur la mesure, mais le test du monde réel reste à venir.

Glossaire

graphe de scène — Une représentation structurée d'une image sous forme de réseau : les nœuds sont les objets détectés, les arêtes sont les relations entre eux ("au-dessus de", "à côté de", "tient").

distance d'édition de graphe — Une mesure qui compte le nombre minimum d'ajouts, suppressions ou modifications nécessaires pour transformer un graphe en un autre — plus la distance est faible, plus les deux graphes se ressemblent.

Source: Human-like scene graph generation and evaluation

              02 / 03
            

Quand plusieurs agents IA travaillent ensemble, ça tourne vite au chaos

Imaginez un chantier avec dix corps de métier, aucun chef de chantier, et pas de planning partagé — l'électricien pose des câbles là où le plombier va creuser.

C'est exactement le problème qui émerge quand on déploie plusieurs agents IA dans une même organisation. Un agent IA, c'est un programme autonome capable d'accomplir des tâches : rédiger un email, interroger une base de données, déclencher une commande. Quand on en met dix ou vingt en parallèle sans coordination, ils se marchent dessus. Deux agents modifient la même donnée en même temps. Une action en enclenche une autre par accident. Et si quelque chose tourne mal, impossible de savoir lequel est responsable. L'article propose un cadre appelé Agentic Traffic Control — ATC — qui s'inspire, comme son nom l'indique, de la circulation routière. Cinq couches de coordination sont proposées : des signaux qui régulent qui agit quand, des voies séparées pour éviter les interférences entre agents, des règles de priorité aux carrefours, et un journal d'audit pour tracer chaque action. Deux modèles architecturaux s'opposent. Le feu tricolore : un orchestrateur central décide de tout, c'est prévisible et contrôlé, mais ça peut bloquer si le centre est lent. Le rond-point : les agents négocient localement entre eux, c'est plus résilient et plus rapide, mais plus difficile à auditer. Il faut être honnête sur ce que c'est : un papier de framework conceptuel, sans une seule expérience contrôlée ni un seul chiffre de performance. Les auteurs citent cinq systèmes en production qui appliqueraient ces principes, mais aucune donnée n'est fournie pour le vérifier. C'est une carte routière utile pour structurer la réflexion — mais le travail empirique reste entièrement à faire.

Glossaire

agent IA — Un programme autonome capable de percevoir son environnement, de prendre des décisions et d'effectuer des actions pour atteindre un objectif, souvent en utilisant un modèle de langage comme moteur de raisonnement.

orchestrateur — Dans un système multi-agents, le composant central qui décide quel agent fait quoi, dans quel ordre, et qui résout les conflits.

Source: Agentic Traffic Control: Orchestrating AI Agents Across Enterprise Systems

              03 / 03
            

Peut-on apprendre à une IA à oublier ce qu'elle sait ?

Imaginez qu'on vous demande d'oublier tout ce que vous savez sur Harry Potter — mais en laissant intact le mot "magie", l'idée d'une école, le concept de baguette.

C'est exactement ce que cherche à faire le machine unlearning — qu'on pourrait traduire par désapprentissage machine. Et le sujet s'impose pour des raisons très pratiques : un grand modèle de langue est entraîné sur des milliards de pages du web, livres inclus. Des auteurs demandent que leurs œuvres soient retirées. Des personnes veulent que leur nom disparaisse. Comment faire oublier à un modèle ce qu'il a appris, sans tout réentraîner depuis zéro — une opération qui coûterait des millions de dollars et des semaines de calcul ? Ce dépôt sur Zenodo ne présente pas de nouvelles recherches — soyons clairs là-dessus. C'est un outil interactif qui visualise les travaux de Ronen Eldan et Mark Russinovich de Microsoft Research, publiés en 2023. Leur méthode : traiter les associations mémorisées par un modèle comme des arêtes dans un graphe de connaissances. Pour faire oublier Harry Potter, on coupe chirurgicalement les arêtes qui relient ce nom à ses attributs spécifiques — Poudlard, Voldemort, le Choixpeau — sans abîmer les connexions voisines. Comme effacer une entrée dans un dictionnaire en faisant attention à ne pas déchirer les pages autour. Le hic, et il est de taille : ces méthodes sont dites "approchées". L'oubli n'est pas garanti. Posez la bonne question autrement, reformulez légèrement, et le modèle peut retrouver ce qu'on lui a demandé d'oublier. Personne ne sait encore comment vérifier de façon fiable qu'un modèle a vraiment oublié quelque chose — et pas juste appris à ne pas y répondre directement. La question est ouverte, et elle est importante.

Glossaire

machine unlearning — Ensemble de techniques visant à supprimer l'influence d'une partie des données d'entraînement sur un modèle déjà entraîné, sans avoir à tout réentraîner depuis le début.

graphe de connaissances — Une représentation des informations sous forme de réseau : les nœuds sont des entités (personnes, lieux, concepts), les arêtes sont les relations entre elles.

Source: Who's Harry Potter? An interactive walk through approximate unlearning in LLMs

La vue d'ensemble

Ces trois histoires partagent un fil qu'il vaut la peine de tirer. Les systèmes d'IA deviennent plus capables — mais la question qui émerge, ce n'est plus seulement "est-ce que ça marche ?" C'est : "est-ce qu'on comprend et contrôle ce qui se passe à l'intérieur ?" Un modèle qui voit une image comme un humain, c'est un modèle qu'on a réussi à aligner sur des préférences humaines implicites. Des agents qui se coordonnent sans se bloquer, c'est une infrastructure d'IA qui commence à ressembler à une organisation qu'on peut auditer. Un modèle qui peut oublier, c'est un modèle dont le contenu devient, au moins en théorie, modifiable après coup. Le point commun : on parle de légitimité, de traçabilité, de correction. La prochaine frontière de l'IA ne sera peut-être pas "faire mieux" — mais "faire de façon qu'on comprend, qu'on peut corriger, et qu'on peut tenir responsable." Et pour ça, franchement, le chantier est encore vaste.

À surveiller

Le vrai test pour l'unlearning sera de voir émerger une méthode d'évaluation standardisée — une façon de prouver qu'un modèle a vraiment oublié, pas seulement appris à contourner la question. Du côté des agents, les grandes conférences de l'automne (NeurIPS 2026) devraient commencer à accueillir les premières études empiriques sur la coordination multi-agent à grande échelle. Et la question que j'aimerais voir adressée d'ici la fin de l'année : est-ce qu'un graphe de scène plus humain améliore vraiment les applications concrètes — ou c'est juste plus joli sur le papier ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe