DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Votre téléphone sait-il quand vous avez besoin d'aide ?

Parce que les algorithmes apprennent à lire notre détresse dans nos gestes numériques — et ça soulève autant de questions que d'espoirs.

            June 01, 2026
          

Deux cent quatre-vingts papiers disponibles aujourd'hui. J'ai lu, trié, et jeté beaucoup. Il reste trois histoires très différentes — un agent IA qui surveille des survivants du cancer, un test en règle des LLM comme outils de dépistage psychiatrique, et un bandeau de tête à 40 euros qui analyse votre sommeil. Aucune n'est parfaite. Toutes méritent votre attention.

Les histoires du jour

              01 / 03
            

Un agent IA détecte quand un survivant du cancer a besoin de soutien

Les survivants du cancer n'ouvrent pas leur journal de bord précisément quand ils en auraient le plus besoin — c'est ça, le paradoxe.

Imaginez un survivant du cancer qui traverse une mauvaise nuit. Il ne va pas ouvrir son appli de suivi émotionnel — c'est précisément dans ces moments-là qu'on n'écrit rien. Les chercheurs derrière PULSE appellent ça le « paradoxe du journal » : les données manquent là où elles auraient le plus de valeur. Leur réponse, c'est de ne plus attendre que la personne appuie sur un bouton. PULSE analyse en continu les données passives du smartphone : mouvements, habitudes d'utilisation, fragments de journal quand ils existent. L'originalité est dans l'architecture. Plutôt qu'un algorithme figé qui reçoit un rapport et crache une réponse, l'équipe a construit un agent raisonnant — un LLM (un grand modèle de langage, la technologie derrière ChatGPT) équipé de huit outils spécialisés pour interroger vos données de téléphone. Pensez à un détective qui étudie votre dossier en posant une question après l'autre, plutôt qu'un expert qui reçoit un tableau Excel et s'arrête là. Résultat sur cinquante survivants du cancer : une précision équilibrée de 0,743 pour détecter le désir d'un soutien émotionnel, contre 0,52 à 0,60 pour les approches classiques d'apprentissage automatique. Pourquoi ça compte ? Les survivants du cancer affichent des taux de dépression et d'anxiété nettement plus élevés que la population générale, mais les systèmes de soins ne les captent pas entre les consultations. Un outil capable d'intervenir proactivement — avant que la crise s'installe — changerait la donne clinique. Le hic est sérieux : l'étude porte sur cinquante personnes. C'est un prototype, pas un dispositif médical. Chaque analyse prend environ 45 secondes, ce qui limite l'usage en temps réel. Et la question de ce qu'on fait avec l'alerte — qui contacte qui, et quand — n'est pas encore résolue. La direction est là. Le chemin reste long.

Glossaire

LLM — Grand modèle de langage : un système d'IA entraîné sur d'immenses corpus de texte, capable de comprendre et de générer du langage naturel.

précision équilibrée — Mesure de performance qui tient compte des classes déséquilibrées : ici, les moments de détresse sont rares, donc une précision classique serait trompeuse.

Source: PULSE: Agentic Investigation with Passive Sensing for Proactive Intervention in Cancer Survivorship

              02 / 03
            

Les LLM ratent le dépistage psychiatrique — mais pas pour les raisons qu'on croit

Le modèle voit les symptômes. Il voit aussi que vous « gérez bien ». Et il décide que ça suffit.

On confie de plus en plus aux LLM des tâches de dépistage psychologique. Mais savent-ils vraiment lire une détresse ? Une équipe a posé la question frontalement, avec une méthode rigoureuse. Cinq grands modèles — dont GPT-4.1 Mini et GPT-5 Mini — ont été testés sur 555 entretiens réels. Chaque participant avait répondu à un entretien de vie (pas un questionnaire à cases à cocher) et avait reçu un diagnostic de référence établi par des cliniciens. Les modèles devaient détecter : trouble anxieux, dépression majeure, PTSD, ou tout trouble mental. La précision varie de 0,49 à 0,86 selon le modèle et le trouble ciblé. Mais le chiffre le plus honnête, c'est le coefficient de corrélation de Matthews — une mesure qui pénalise les faux positifs et les faux négatifs ensemble. Il ne dépasse jamais 0,38 dans cette étude. Pour mettre ça en perspective : 0 signifie que le modèle prédit au hasard, 1 qu'il est parfait. Nous sommes très loin du compte. Mais le vrai enseignement n'est pas dans les chiffres. L'analyse des erreurs révèle un biais structurel : quand un modèle rate une anxiété ou un PTSD, ce n'est pas parce qu'il n'a pas vu les symptômes. C'est parce qu'il a aussi vu que la personne « s'en sortait bien », avait du soutien social, ou des stratégies d'adaptation — et il a conclu que ça suffisait. Comme un médecin qui dirait : « Oui, vous toussez depuis trois semaines, mais vous avez bonne mine. » Le hic est double. Ce biais n'est pas uniforme : les femmes sont plus souvent mal diagnostiquées que les hommes pour la dépression. Et l'analyse détaillée des raisonnements n'a porté que sur un seul modèle — on ne sait pas si les autres font les mêmes erreurs pour les mêmes raisons. Franchement, personne ne sait encore.

Glossaire

coefficient de corrélation de Matthews — Mesure de la qualité d'un classifieur binaire qui tient compte à la fois des vrais positifs, vrais négatifs, faux positifs et faux négatifs ; 0 = hasard, 1 = parfait.

PTSD — Trouble de stress post-traumatique : trouble anxieux qui survient après un événement traumatisant, caractérisé par des reviviscences, une hypervigilance et un évitement.

faux négatif — Cas où le modèle dit « pas de trouble » alors qu'il y en a un — l'erreur la plus dangereuse en dépistage clinique.

Source: When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

              03 / 03
            

Un moniteur de sommeil open-source à 40 euros : prometteur, mais à confirmer

Suivre son sommeil avec précision coûte normalement une nuit en laboratoire et des centaines d'euros — cette équipe a fait tenir ça dans un bandeau imprimé en 3D à 37,80 euros.

La polysomnographie — l'examen hospitalier qui fait référence pour analyser le sommeil — coûte cher, nécessite une nuit en clinique, et branche une vingtaine d'électrodes sur votre crâne. Ce n'est pas ce qu'on fera à domicile pendant six mois pour suivre l'évolution d'une dépression. Une équipe a publié les plans complets d'OSSMM : un bandeau de tête imprimé en 3D, dont les électrodes sont taillées dans le même matériau conducteur que les ceintures pectorales des montres de sport de fitness. Coût total des matériaux : 37,80 euros. Le système capte des signaux électriques faibles depuis le cuir chevelu, les transmet sans fil, et un algorithme d'apprentissage automatique classifie votre nuit en quatre phases — éveil, sommeil léger, sommeil profond, REM (le sommeil avec les rêves). Précision obtenue : 77,6 %, avec un F1 macro de 0,770. Ce n'est pas parfait, mais c'est comparable à certains appareils grand public vendus dix fois plus cher. Pourquoi ça compte pour la santé mentale ? Le lien entre troubles du sommeil, dépression et anxiété est solide. Mais les chercheurs peinent à collecter des données de qualité à domicile sur de longues périodes, sans ruiner leurs budgets. Un outil open-source sous 40 euros change l'équation. Le hic est sérieux, et il faut le dire clairement. L'étude entière repose sur une seule personne — un des chercheurs de l'équipe eux-mêmes — sur quinze nuits. Et les étiquettes de référence ne viennent pas d'une polysomnographie hospitalière, mais d'un autre appareil grand public dont l'accord avec le gold standard est lui-même limité. On valide un outil imparfait contre un autre outil imparfait. Les futurs tests sur de vraies cohortes pourraient donner des résultats très différents. Mais les plans sont publiés, et c'est déjà quelque chose.

Glossaire

polysomnographie — Examen de référence pour l'analyse du sommeil, réalisé en laboratoire, qui enregistre simultanément l'activité cérébrale, oculaire, musculaire et cardiaque.

REM — Rapid Eye Movement : phase du sommeil associée aux rêves, caractérisée par des mouvements oculaires rapides et une activité cérébrale intense.

F1 macro — Moyenne des scores F1 de chaque classe ; utile quand les classes sont déséquilibrées, comme ici où les phases de sommeil profond sont moins fréquentes que l'éveil.

Source: OSSMM: An Open-Source Sleep Monitor and Modulator

La vue d'ensemble

Trois histoires, trois approches — mais le même fil rouge. La recherche en santé mentale apprend à lire des signaux que les gens n'émettent pas consciemment : les mouvements du téléphone d'un survivant du cancer, les mots d'un entretien de vie ordinaire, les micro-signaux électriques d'un crâne qui dort. C'est une évolution réelle, et elle mérite d'être prise au sérieux. Mais ce que cette semaine montre surtout, c'est le poids des limites honnêtes. Cinquante patients ici, un seul sujet là, des MCC à 0,38 pour les LLM psychiatriques. Ces chiffres ne sont pas des bugs — ils sont des signaux. Ils indiquent que nous sommes encore en phase de construction d'outils, pas de déploiement à l'échelle. Ce qui manque partout : des cohortes larges et diversifiées, des populations qui ne ressemblent pas aux chercheurs qui construisent les outils, et des cliniciens qui co-conçoivent les systèmes plutôt que de les valider après coup. La direction est bonne. Le chemin, lui, est encore long — et l'honnêteté sur ce point est elle-même un progrès.

À surveiller

Pour OSSMM, l'étape décisive sera un test sur une vraie cohorte multi-participants — sans ça, les résultats restent anecdotiques. Pour PULSE, la question ouverte est celle du déploiement responsable : qui reçoit l'alerte, et avec quelle formation ? Sur le front LLM-psychiatrie, aucun essai clinique randomisé n'est annoncé à court terme, mais la question des biais de genre dans le dépistage automatique mérite d'être posée à chaque nouvel outil du genre — c'est une variable que la communauté commence à peine à mesurer sérieusement.

Pour aller plus loin

Merci de m'avoir lu. À demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe