DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA apprend sans s'en souvenir — et on commence à savoir comment

Trois papiers sur ce que les IA comprennent vraiment, ce qu'elles inventent, et ce qu'elles pourraient détecter à votre place.

            May 17, 2026
          

Soyons honnêtes : c'est une journée creuse. Sur 89 papiers disponibles, la majorité sont des préprints Zenodo sans données, sans expériences, et parfois sans lecteurs — certains affichent littéralement zéro téléchargement. J'ai quand même trouvé trois sujets qui méritent votre attention. Deux sont du travail solide, un troisième est une revue de littérature utile même si elle ne produit pas de résultats propres. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

Comment les IA apprennent sans réapprendre : les circuits cachés qu'on commence à voir

Vous donnez trois exemples à ChatGPT, et il résout un quatrième problème qu'il n'a jamais vu — mais personne ne savait vraiment comment.

Imaginez un musicien qui, après avoir entendu un motif deux fois dans une conversation, est capable de le continuer sans jamais l'avoir répété. C'est exactement ce que font les grands modèles de langage quand vous leur donnez des exemples en début de conversation — ce qu'on appelle l'apprentissage en contexte. Jusqu'ici, on savait que ça marchait. On ne savait pas trop pourquoi. L'étude identifie des structures appelées 'têtes d'induction' — des sous-circuits à l'intérieur du réseau de neurones qui se forment d'un coup, lors d'une transition brutale pendant l'entraînement, un peu comme quand une pâte à pain passe soudainement de collante à élastique. Ces têtes d'induction scannent ce qu'elles ont déjà vu dans la conversation et projettent ce qui devrait venir ensuite. Les auteurs affirment que ces circuits implémentent quelque chose qui ressemble à de l'inférence bayésienne — c'est-à-dire qu'ils maintiennent une sorte de statistique implicite de ce qui est probable. Pourquoi ça compte ? Parce que comprendre comment une IA raisonne — et pas seulement ce qu'elle produit — est le premier pas pour savoir quand lui faire confiance et quand ne pas le faire. C'est tout l'objet du champ dit d'interprétabilité mécaniste, porté notamment par des équipes comme Anthropic. Le hic : ce papier n'est accessible que sous forme de métadonnées Zenodo. Les chiffres annoncés — une amélioration de l'efficacité par 3, une validation sur des tâches de traduction et d'arithmétique — ne sont pas vérifiables dans le texte disponible. Les travaux originaux sur les têtes d'induction viennent d'Anthropic en 2022 ; il faut lire ce papier avec prudence jusqu'à ce qu'il soit soumis à une vraie revue par les pairs.

Glossaire

apprentissage en contexte — Capacité d'un modèle de langage à résoudre un nouveau problème après avoir vu quelques exemples placés directement dans la conversation, sans ré-entraînement.

têtes d'induction — Sous-circuits dans un réseau de neurones transformeur qui détectent des motifs répétés dans le texte et les prolongent — mécanisme clé de l'apprentissage en contexte.

interprétabilité mécaniste — Champ de recherche qui vise à comprendre ce qui se passe à l'intérieur d'un réseau de neurones, circuit par circuit, plutôt que de se contenter d'observer ses sorties.

Source: Mechanistic Interpretability of In-Context Learning in Transformers

              02 / 03
            

Un filtre anti-hallucination pour les robots qui prennent des décisions

Un robot médical qui agit sur une information inventée par son propre système de perception — voilà exactement le problème que ce papier essaie de boucher.

Pensez à une brigade de cuisine. Le commis reçoit des ingrédients, les passe au chef, le chef cuisine. Maintenant imaginez que le commis invente parfois des ingrédients qui n'existent pas — et les pose quand même sur le plan de travail. Le chef, lui, fait confiance à ce qu'il reçoit. Résultat : une catastrophe au moment du service. C'est exactement le problème que pose ce papier pour les agents IA dotés d'une architecture BDI — pour Beliefs, Desires, Intentions, soit un modèle classique de robot autonome qui perçoit, forme des croyances, fixe des intentions, et agit. Quand on branche un grand modèle de langage comme capteur de perception — pour lire un document, interpréter une image, analyser une conversation — ce capteur peut halluciner. Et une hallucination qui entre dans les croyances de l'agent devient une intention, puis une action. Les auteurs, en s'appuyant sur l'interpréteur abstrait BDI de Rao et Georgeff, proposent une porte de vérification — qu'ils appellent Φ — positionnée entre perception et engagement de croyance. Leur système HADD (Hallucination-Aware Deliberation Design) intercepte les sorties douteuses du capteur LLM et les convertit en erreurs traçables et auditables, plutôt que de les laisser contaminer la délibération. C'est une contribution architecturale propre, avec un problème bien défini et une réponse structurée. Le hic : pas d'expérimentation rapportée ici. On ne sait pas encore si HADD ralentit l'agent, dans quelles proportions il attrape les vraies hallucinations, ni sur quels benchmarks il a été testé. C'est une proposition de design, pas encore un système évalué.

Glossaire

architecture BDI — Modèle d'agent autonome organisé autour de trois composants : Beliefs (ce que l'agent croit vrai), Desires (ses objectifs), et Intentions (les plans qu'il s'est engagé à exécuter).

hallucination — Quand un modèle de langage produit une information fausse présentée comme vraie — un fait inventé, un raisonnement incorrect, une référence inexistante.

HADD — Hallucination-Aware Deliberation Design — architecture proposée dans ce papier pour intercepter les sorties douteuses d'un LLM avant qu'elles n'entrent dans le système de croyances d'un agent autonome.

Source: Extending the BDI Abstract Interpreter for Stochastic Sensors

              03 / 03
            

Cinq médicaments en même temps : l'IA peut-elle détecter les interactions dangereuses ?

Passé cinq médicaments simultanés, le nombre de combinaisons possibles dépasse ce que n'importe quel médecin peut garder en tête — et c'est là que les accidents arrivent.

Si vous prenez cinq médicaments différents, il y a dix paires à surveiller. Dix médicaments, c'est quarante-cinq paires. Quinze médicaments — courant chez les patients âgés avec plusieurs maladies chroniques — c'est cent cinq paires. Les systèmes d'alerte actuels dans les hôpitaux sont des listes de règles fixes, construites manuellement : ils ratent les combinaisons rares, sonnent trop souvent pour les interactions bénignes, et ignorent la biologie propre du patient. Cette revue de littérature passe en revue comment l'apprentissage automatique change la donne. Les approches les plus prometteuses combinent des réseaux de neurones capables de lire des structures moléculaires, des graphes qui représentent les interactions connues entre substances, et des données de patients réels — dossiers électroniques, prescriptions, hospitalisations. L'idée n'est pas de remplacer le pharmacien mais de lui signaler ce que ses outils actuels ne voient pas : une interaction rare entre deux molécules que personne n'avait encore combinées, ou un risque amplifié chez un patient avec une insuffisance rénale. Maintenant, le hic — et il est important. Ce papier est une revue narrative : il décrit la littérature existante, il n'apporte pas de nouvelles données. Aucun chiffre de performance n'est rapporté ici. Et les revues narratives ont un biais connu : on tend à citer les succès, moins les échecs. Le vrai test de ces systèmes, c'est leur validation prospective dans un vrai service hospitalier — et ça, on en est encore loin pour la majorité des modèles décrits. Je simplifie : l'IA pour les interactions médicamenteuses, c'est prometteur sur le papier, très partiel en pratique.

Glossaire

polypharmacie — Prise simultanée d'au moins cinq médicaments par un même patient — fréquente chez les personnes âgées ou atteintes de maladies chroniques multiples.

interaction médicamenteuse — Modification de l'effet d'un médicament causée par la présence d'un autre — pouvant amplifier la toxicité, réduire l'efficacité, ou produire un effet inattendu.

revue narrative — Article qui résume et interprète la littérature existante sur un sujet, sans protocole systématique de sélection des études ni nouvelles données originales.

Source: ARTIFICIAL INTELLIGENCE–BASED PREDICTION OF DRUG–DRUG INTERACTIONS IN POLYPHARMACY PATIENTS: CURRENT ADVANCES AND FUTURE PERSPECTIVES

La vue d'ensemble

Ces trois papiers parlent, chacun à leur façon, du même problème central : on construit des systèmes d'IA de plus en plus autonomes — des agents qui perçoivent, raisonnent, et agissent — sans encore comprendre ni contrôler ce qui se passe à l'intérieur. Le travail sur les têtes d'induction dit : on commence à cartographier les circuits. Le papier HADD dit : en attendant de comprendre, voici comment barricader les points d'entrée dangereux. Et la revue sur les médicaments dit : dans le domaine médical, où l'enjeu est direct, on a besoin des deux — des modèles qu'on comprend et des garde-fous qu'on peut auditer. Ce qui me frappe, c'est que la recherche en IA sérieuse se déplace vers le *comment* et le *pourquoi*, pas seulement le *combien*. C'est un signe de maturité. Ça prend du temps. Et franchement, c'est une bonne nouvelle.

À surveiller

La conférence ICML 2026 (juillet) sera un bon baromètre pour voir si les travaux sur l'interprétabilité mécaniste avancent au-delà des préprints non-évalués. Sur le front médical, la question ouverte qui m'intéresse : verra-t-on en 2026 une première validation prospective d'un système de détection d'interactions médicamenteuses dans un service hospitalier réel ? Ce serait le vrai signal.

Pour aller plus loin

Journée creuse, mais honnête — c'est parfois ce que la science ressemble de l'intérieur. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe