DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA résout des maths en attente depuis 56 ans

Aujourd'hui, une machine prouve des théorèmes, panique sous la pluie, et apprend à maîtriser Excel.

            May 23, 2026
          

Trois histoires ce matin, et franchement l'une d'elles m'a arrêté net. Des problèmes mathématiques ouverts depuis des décennies, résolus par une machine pour quelques centaines de dollars. Le reste du tableau est plus nuancé — mais c'est justement là que ça devient intéressant.

Les histoires du jour

              01 / 03
            

Une IA résout des problèmes de maths ouverts depuis des décennies

Deux problèmes posés en 1970 par le mathématicien Paul Erdős, que personne n'avait réussi à résoudre en 56 ans — une machine vient de les prouver.

Commençons par ce qui s'est passé. Une équipe de Google DeepMind a construit un système appelé AlphaProof Nexus, qui combine un grand modèle de langage — Gemini 3.1 Pro — avec un outil de vérification formelle appelé Lean. Lean, c'est un peu comme un juge de cuisine très strict : il ne valide aucune étape d'une recette si elle n'est pas rigoureusement justifiée. Le modèle propose des étapes de démonstration, Lean vérifie chacune, et si ça coince, le système recommence. Résultat : sur 353 problèmes mathématiques ouverts listés par Erdős — des questions posées à la communauté scientifique mondiale depuis parfois des décennies — l'agent en a prouvé 9, dont deux restaient sans réponse depuis 1970. Il a aussi résolu 44 conjectures sur une liste de 492 publiées dans une base de données de séquences mathématiques célèbre. Le coût ? Quelques centaines de dollars d'inférence par problème. Pourquoi ça compte ? C'est la première fois qu'un système automatisé contribue de façon vérifiable à des mathématiques ouvertes de haut niveau. Ce n'est pas une démonstration déjà connue retrouvée dans un corpus d'entraînement — Lean s'assure que chaque preuve est formellement correcte. Le hic, et il est de taille : 9 sur 353, c'est 2,5 %. Les 344 problèmes restants n'ont pas bougé. L'équipe note aussi qu'aucun test statistique rigoureux ne compare les variantes de l'agent entre elles — les conclusions sont en partie post-hoc. Un vrai pas en avant, mais pas une machine qui « fait des maths » au sens général du terme. Pas encore.

Glossaire

vérification formelle — Processus automatique qui vérifie qu'une démonstration mathématique est correcte pas à pas, sans tolérer aucune ambiguïté.

conjecture — Affirmation mathématique que l'on croit vraie mais qui n'a pas encore été prouvée.

inférence — Le fait de faire tourner un modèle d'IA pour produire un résultat — par opposition à l'entraînement initial du modèle.

Source: Advancing Mathematics Research with AI-Driven Formal Proof Search

              02 / 03
            

Quand il pleut ou qu'il fait sombre, l'IA perd ses repères spatiaux

Donnez à un modèle d'IA une image floue ou prise sous la pluie — il perd 20 points de précision sur des tâches de raisonnement spatial.

Voici le problème : presque tous les systèmes d'IA visuels sont évalués sur des images parfaites, bien éclairées, nettes. Mais une caméra embarquée dans une voiture autonome, un drone ou un robot d'entrepôt ne voit jamais le monde aussi proprement. Une équipe de chercheurs a construit SpaceDG, un banc de test qui simule neuf types de dégradation — flou de mouvement, faible luminosité, pluie, brouillard, distorsion optique, artefacts de compression — et a soumis 25 modèles de vision-langage à ces conditions. Imaginez que vous essayez de compter des objets sur une photo prise à travers un pare-brise mouillé : c'est exactement ce qu'on demande aux modèles. Le chiffre qui frappe : une dégradation visuelle fait chuter la précision de raisonnement spatial de 20,9 points en moyenne. Pour donner un repère, les humains eux-mêmes perdent environ 21 points dans les mêmes conditions — 80 % en clair, 59 % sous dégradation. Les machines partagent notre fragilité. Bonne nouvelle : un modèle de 8 milliards de paramètres entraîné spécifiquement sur ces données dégradées monte à 66 % de précision, devançant GPT et Gemini sur ce banc de test. Pourquoi ça compte ? Si vous travaillez sur des systèmes qui voient le monde réel — conduite autonome, robotique, imagerie médicale mobile — ce résultat vous dit que la robustesse visuelle n'est pas acquise, même pour les meilleurs modèles du marché. Le hic : le benchmark est construit uniquement à partir de scènes d'intérieur. Les extérieurs, les environnements industriels, les contextes médicaux — tout ça reste à tester. C'est un avertissement utile, pas encore un diagnostic complet.

Glossaire

modèle de vision-langage — Système d'IA capable de comprendre à la fois des images et du texte, et de répondre à des questions sur ce qu'il voit.

raisonnement spatial — Capacité à répondre à des questions sur la position, la distance ou l'orientation d'objets dans une scène.

banc de test (benchmark) — Ensemble standardisé de tâches permettant de comparer les performances de plusieurs systèmes sur un même pied d'égalité.

Source: SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

              03 / 03
            

Un entraînement ciblé double les capacités d'un agent IA sur Excel

Un modèle d'IA qui réussissait 12 % des tâches complexes sur Excel en réussit 23 % après un entraînement ciblé — doublé, mais encore loin du compte.

Voilà une histoire qui vous parle si vous avez déjà souffert d'une feuille de calcul récalcitrante. Des chercheurs ont appliqué une technique d'apprentissage par renforcement — pensez à un apprenti cuisinier qui reçoit un retour immédiat après chaque plat raté — pour entraîner un modèle d'IA à effectuer des tâches complexes dans Microsoft Excel. Le modèle exécute des actions dans un vrai environnement Excel, reçoit une récompense si le résultat final est correct, et ajuste son comportement en conséquence. Les données d'entraînement ont été collectées automatiquement en scrapant des forums en ligne pour trouver des problèmes réels de tableur avec leurs solutions. Sur SpreadsheetBench — 912 tâches vérifiées par des experts — le score passe de 12 % à 23,4 %. Sur un second jeu de données spécialisé en finance et supply chain, de 8,4 % à 17,2 %. Pourquoi ça compte ? Ça illustre quelque chose d'important sur la direction que prend l'IA dite agentique : les modèles généralistes ont un plafond sur les tâches très structurées, et un entraînement spécialisé — même avec un petit modèle de 4 milliards de paramètres — peut faire la différence. Le hic, soyons honnêtes : 23 %, c'est mieux que Microsoft Copilot (20 %), mais ChatGPT Agent est à 45,5 % sur le même test. Le doublement est réel, le chemin restant aussi. Et les chercheurs n'ont pas publié de séparation claire entre données d'entraînement et de test, ce qui m'invite à lire ces chiffres avec un peu de prudence.

Glossaire

apprentissage par renforcement — Méthode d'entraînement où un modèle apprend par essais et erreurs, en recevant des récompenses quand ses actions mènent au bon résultat.

agent — Système d'IA capable d'effectuer des actions dans un environnement de manière autonome pour atteindre un objectif.

paramètres — Les réglages internes d'un modèle d'IA — plus il y en a, plus le modèle est généralement capable, mais aussi coûteux à faire tourner.

Source: Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

La vue d'ensemble

Regardez les trois histoires ensemble et vous voyez un fil conducteur. L'IA progresse le plus vite quand elle peut vérifier ses propres erreurs — Lean qui refuse une preuve fausse, Excel qui renvoie un résultat incorrect, un benchmark qui mesure les bonnes et mauvaises réponses sans ambiguïté. C'est précisément là où le renforcement et la vérification formelle font la différence. En revanche, SpaceDG nous rappelle que la robustesse dans le monde réel — sous la pluie, dans le flou, dans la nuit — est encore un chantier ouvert. On ne peut pas jeter le bébé avec l'eau du bain : les progrès sont réels, mesurables, parfois spectaculaires. Mais ils sont étroits. Chaque avancée fonctionne dans son périmètre, sur ses données, dans ses conditions. La généralisation, elle, reste le vrai problème non résolu — et c'est là que se jouera la suite.

À surveiller

Pour les preuves mathématiques, la question ouverte est simple : est-ce qu'AlphaProof Nexus peut s'attaquer à des problèmes du niveau des Conjectures du Millénaire — les sept grands problèmes à un million de dollars chacun ? Ce serait un test de passage autrement plus exigeant. Sur la robustesse visuelle, gardez un œil sur CVPR 2026 cet été : c'est là que les benchmarks de ce type trouvent leur audience et leurs critiques les plus sérieuses. Et pour les agents sur tableur, la question pratique reste entière : à quel seuil de performance un utilisateur réel commence-t-il à faire confiance à la machine ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe