All digests
General publicFRArtificial Intelligencedaily

[Artificial Intelligence] L'IA apprend votre corps, vos équipes, et ses propres limites

DeepScience — Artificial Intelligence
DeepScience · Artificial Intelligence · Digest quotidien

L'IA apprend votre corps, vos équipes, et ses propres limites

Aujourd'hui, la recherche en IA touche à votre poignet, à la façon dont les machines collaborent, et à ce qu'elles ne savent toujours pas faire en médecine.
May 24, 2026
Deux cent quatre-vingt-dix papiers disponibles aujourd'hui — c'est une journée dense. J'ai passé la matinée à trier pour vous, et trois histoires ont vraiment retenu mon attention. Une sur ce que votre montre connectée pourrait bientôt savoir de vous, une sur la mémoire des équipes d'IA, et une sur ce qui se passe quand on demande à un modèle de langage de jouer au médecin. Allez c'est parti.
Les histoires du jour
01 / 03

Un modèle entraîné sur un trillion de minutes de données de montres connectées

Un trillion de minutes. Soit environ deux millions d'années de pouls, de pas et de sommeil enregistrés — et une équipe vient de tout utiliser pour entraîner un seul modèle.

Imaginez qu'on donne à un apprenti cuisinier non pas une recette, mais l'ensemble des repas préparés dans tous les restaurants du monde pendant deux millions d'années. C'est à peu près ce qu'une équipe de Google et DeepMind a fait — mais avec des données corporelles. Ils ont collecté plus d'un trillion de minutes d'enregistrements de capteurs portables auprès de cinq millions de personnes dans plus de cent pays : fréquence cardiaque, oxygène dans le sang, température, accélération, altitude. Avec ça, ils ont construit SensorFM, un modèle de fondation pour la santé portable. Un modèle de fondation — c'est une base apprenante généraliste, comme GPT a d'abord appris à lire avant d'apprendre à traduire. Sauf qu'ici, au lieu de mots, le modèle lit des signaux corporels. Une fois cette base construite, quelques exemples suffisent pour lui enseigner une tâche précise : détecter un risque métabolique, estimer la qualité du sommeil, évaluer un état de santé mentale. Sur 35 tâches différentes, testées sur près de 14 000 personnes dans trois études indépendantes, les chercheurs observent des améliorations allant de 10 à 70 % par rapport aux méthodes classiques. Le modèle suit des lois d'échelle prévisibles — plus de données et de capacité égalent plus de performance. Un agent de santé personnelle associé a été validé par 1 860 évaluations de cliniciens, jugé plus pertinent et plus sûr que les alternatives. Le hic : ces résultats viennent d'une équipe interne à Google, sur des données majoritairement propriétaires. La reproductibilité externe reste à démontrer. Et passer du laboratoire à un usage clinique validé prend des années, pas des semaines. C'est un vrai pas en avant — mais vous n'allez pas recevoir un diagnostic médical de votre Fitbit demain matin.

Glossaire
modèle de fondationUn modèle entraîné sur de très grandes quantités de données non étiquetées, qui peut ensuite être adapté à des tâches spécifiques avec peu d'exemples supplémentaires.
lois d'échelleRelations mathématiques prévisibles montrant que les performances d'un modèle augmentent régulièrement avec la quantité de données et la taille du modèle.
few-shot learningCapacité d'un modèle à apprendre une nouvelle tâche à partir de très peu d'exemples étiquetés, grâce à la connaissance déjà acquise.
02 / 03

Des équipes d'IA qui apprennent mieux sans chef de mémoire central

Et si chaque membre d'une équipe gardait sa propre mémoire, plutôt que tout centraliser dans un registre commun — les résultats seraient-ils meilleurs ?

Imaginez une cuisine de restaurant où toutes les commandes passent obligatoirement par un seul serveur central qui retient tout. Ça fonctionne, mais c'est un goulot d'étranglement : s'il se trompe ou oublie, tout le monde trinque. Une équipe de chercheurs a proposé l'inverse : donner à chaque cuisinier sa propre mémoire, et le laisser apprendre de ses erreurs de façon autonome. C'est l'idée de DECENTMEM, un système de mémoire décentralisée pour des équipes d'agents IA qui collaborent sur des tâches complexes — calcul, code, questions-réponses, navigation. Chaque agent dispose de deux tiroirs. Le premier stocke ce qui a déjà bien fonctionné, pour l'exploiter. Le second garde des tentatives moins éprouvées mais potentiellement utiles, pour l'exploration. Un juge automatique — lui aussi un modèle de langage — réévalue en continu quels souvenirs méritent d'être conservés. Les gains mesurés sont nets : jusqu'à 23,8 % de meilleures performances que le meilleur système centralisé comparable, et jusqu'à 49 % de tokens en moins — ce qui se traduit directement en coût de calcul réduit. Le système a été testé sur cinq benchmarks, avec cinq modèles de base différents, dont Qwen3 et Gemma4. Les équipes les plus autonomes — où les agents collaborent sans structure hiérarchique fixe — bénéficient le plus de l'approche. Le hic : les expériences ne rapportent pas d'intervalles de confiance ni de tests statistiques formels, donc les chiffres sont à prendre avec prudence. Et les benchmarks restent des environnements contrôlés. On ne sait pas encore comment ce système se comporte dans des déploiements réels, avec leurs imprévus habituels.

Glossaire
agent IAProgramme autonome capable de percevoir un environnement, de raisonner et de prendre des décisions pour accomplir une tâche.
tokenUnité de base que traitent les modèles de langage — approximativement un mot ou une partie de mot. Moins de tokens = moins de calcul = moins de coût.
benchmarkJeu de tests standardisé qui permet de comparer les performances de différents modèles sur des tâches identiques.
03 / 03

DeepSeek conseille sur le cancer du sein — et diverge des médecins spécialistes

Quand on soumet un dossier de cancer du sein à DeepSeek, ses recommandations ne correspondent pas à celles des spécialistes réunis en concertation.

Quand un médecin hésite sur la meilleure stratégie face à un cancer du sein, il peut réunir ses collègues en réunion de concertation pluridisciplinaire — plusieurs spécialistes qui pèsent ensemble toutes les options à partir du dossier complet du patient. C'est la référence clinique actuelle. Une équipe a eu l'idée de soumettre les mêmes cas à DeepSeek, le modèle de langage développé en Chine qui a beaucoup fait parler de lui début 2025. Résultat : les recommandations de l'IA divergent de celles de l'équipe médicale. Pas sur tous les cas, mais suffisamment pour que les auteurs concluent clairement qu'une validation professionnelle est indispensable avant tout usage clinique. C'est un résultat modeste, mais honnête et utile. Il ne dit pas que DeepSeek est dangereux — il dit que les modèles de langage généralistes, même très capables, ne sont pas encore des conseillers médicaux autonomes fiables. La raison probable : ils apprennent à partir de textes généraux, pas de guidelines cliniques actualisées ni de la subtilité d'un dossier patient réel avec ses particularités. Le hic est double. D'abord, sur les limites de l'IA elle-même : les modèles de langage peuvent produire des recommandations plausibles en apparence mais incorrectes dans un contexte clinique précis — c'est exactement ce qu'on appelle hallucination au sens large. Ensuite, sur les limites de cette étude : nous n'avons pas accès aux détails méthodologiques complets. Nombre de cas comparés, critères de divergence, types de pathologies — rien de tout ça n'est précisé dans l'abstract disponible. Soyons honnêtes : c'est une indication sérieuse, pas une preuve définitive. Mais c'est précisément le type de vérification qu'il faut multiplier.

Glossaire
réunion de concertation pluridisciplinaire (RCP)Réunion où plusieurs médecins spécialistes (oncologue, chirurgien, radiologue, etc.) discutent ensemble du meilleur traitement pour un patient, conformément aux recommandations nationales.
hallucinationTendance d'un modèle de langage à produire des affirmations confiantes mais factuellement incorrectes ou inadaptées au contexte.
La vue d'ensemble

Ces trois histoires ne parlent pas du même sujet en surface — la santé portable, la mémoire des agents, la cancérologie. Mais elles posent collectivement la même question : à quel stade peut-on faire confiance à ces systèmes, et dans quel contexte ? SensorFM montre que l'IA peut extraire des signaux de santé utiles à partir de quantités de données que l'humain ne pourrait jamais traiter manuellement. DECENTMEM montre que les architectures multi-agents deviennent plus efficaces quand on distribue la mémoire plutôt que de la centraliser. Et l'étude sur DeepSeek rappelle que même un modèle performant sur des benchmarks généraux peut diverger dangereusement d'un expert humain dans un domaine où l'erreur coûte cher. Ce que ça dit collectivement : la recherche en IA avance sur les capacités, mais le vrai travail restant concerne la fiabilité dans des contextes à enjeux réels. Les gains de performance sont mesurables. Les garanties de comportement en dehors des benchmarks le sont beaucoup moins. C'est là que se joue la prochaine étape — pas dans la vitesse, dans la robustesse.

À surveiller

À surveiller dans les semaines qui viennent : les essais cliniques qui comparent formellement les recommandations d'IA à celles de médecins humains sur des cohortes larges — c'est rare, coûteux, mais indispensable pour sortir du flou actuel. Du côté des agents multi-agents, la conférence ICML 2026 en juillet sera un bon thermomètre pour voir si les gains de DECENTMEM tiennent hors des benchmarks standardisés. Et pour SensorFM, la question ouverte que j'aimerais voir répondue : est-ce que ces lois d'échelle tiennent quand on sort des populations occidentales surreprésentées dans les données d'entraînement ?

Pour aller plus loin
Merci de m'avoir lu — à demain. — JB
DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io