DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Votre téléphone peut-il sentir quand vous allez mal ?

L'IA apprend à lire les signaux faibles de la détresse mentale — mais pas encore sans angle mort.

            June 08, 2026
          

Trois papiers ce matin, tous autour de la même question : peut-on détecter la souffrance psychique avant que la personne n'en parle ? J'ai passé ma matinée à les éplucher pour vous — et la réponse courte est : oui, un peu, dans certaines conditions, avec des limites réelles. Allez, c'est parti.

Les histoires du jour

              01 / 03
            

Un agent IA prédit quand les survivants du cancer ont besoin d'aide émotionnelle

Quand on va vraiment mal, on n'écrit plus rien dans son journal — et c'est exactement le moment où l'on a besoin d'aide.

C'est ce que les chercheurs appellent le paradoxe du journal de bord : les études en santé mentale demandent aux patients de remplir des questionnaires réguliers, mais précisément aux moments de détresse maximale, les gens n'écrivent plus. Le silence des données devient invisible. Une équipe a testé une approche différente avec 50 survivants du cancer — une population particulièrement exposée à la dépression et à l'anxiété. Au lieu d'attendre que les participants rapportent leur état, le système surveille passivement leur téléphone : mouvements, localisation, temps d'écran, durée de sommeil, fréquence des appels. Ensuite, un agent IA — pensez à un assistant capable de consulter plusieurs fichiers de manière autonome, comme un enquêteur qui croise ses sources — analyse ces données pour prédire deux choses : est-ce que la personne souhaite réguler son émotion en ce moment ? Et est-elle disponible pour recevoir une aide ? Le résultat : une précision équilibrée de 74 % pour prédire le désir de régulation émotionnelle, contre environ 55 % pour les approches classiques sur ces mêmes données. C'est un gain réel, mesurable, sur une tâche difficile. Mais voici le hic : l'étude porte sur 50 personnes, et un cas sur quatre reste mal classé. On est loin d'un déploiement clinique. Ce que le papier prouve, en revanche, c'est que le téléphone observe même quand vous vous taisez — et que ça vaut la peine d'apprendre à l'écouter.

Glossaire

agent IA — Un programme capable d'utiliser des outils de manière autonome et séquentielle pour répondre à une question complexe, plutôt que de produire une réponse en une seule passe.

précision équilibrée (balanced accuracy) — Une mesure de performance qui tient compte du fait que les deux résultats possibles — alerte ou pas d'alerte — sont également importants, même si l'un est plus rare que l'autre.

Source: PULSE: Agentic Investigation with Passive Sensing for Proactive Intervention in Cancer Survivorship

              02 / 03
            

Les LLMs manquent les cas d'anxiété quand le patient a l'air de s'en sortir

Vous décrivez vos symptômes — mais vous ajoutez que vous avez de bons amis et que vous tenez le coup. L'IA conclut : pas de trouble.

Une équipe a soumis 555 entretiens semi-structurés à cinq grands modèles de langage — LLaMA 3, DeepSeek, GPT-4o Mini, GPT-4.1 Mini et GPT-5 Mini — en leur demandant de classifier des cas d'anxiété, de dépression, de PTSD et de troubles mentaux en général. Les entretiens étaient annotés par des cliniciens selon les critères du SCID, un guide diagnostic de référence utilisé en psychiatrie. Les performances varient beaucoup : entre 0,49 et 0,86 de précision selon le modèle et le trouble. GPT-4.1 Mini et GPT-5 Mini s'en sortent le mieux, mais même eux restent modestes — leur MCC, une mesure plus exigeante que la simple précision, varie entre 0,16 et 0,38. En clair : mieux que le hasard, mais pas impressionnant. Le détail vraiment important est ailleurs. Quand les chercheurs ont analysé les erreurs — les faux négatifs, c'est-à-dire les cas réels que le modèle a manqués — ils ont trouvé un schéma récurrent pour l'anxiété et le PTSD : le modèle voyait bien les symptômes dans le texte, mais la personne mentionnait aussi qu'elle avait du soutien social, qu'elle continuait à fonctionner, qu'elle gérait. Et le modèle concluait : pas de diagnostic. C'est le problème du patient qui se présente bien habillé aux urgences. Le médecin sous-estime la douleur parce que l'apparence est soignée. Les LLMs reproduisent ce biais bien documenté chez les humains. Le hic : l'analyse des erreurs ne porte que sur GPT-4.1 Mini, pas sur les cinq modèles. Mais le mécanisme mis en lumière est important — et il concerne tous les systèmes d'aide au diagnostic.

Glossaire

SCID — Structured Clinical Interview for DSM — un entretien standardisé utilisé par les cliniciens comme référence pour poser un diagnostic psychiatrique.

faux négatif — Un cas réel que le système n'a pas détecté — quelqu'un qui a bien un trouble, mais que l'IA a classé comme sain.

MCC (Matthews Correlation Coefficient) — Une mesure de performance d'un classifieur qui tient compte de tous les types d'erreurs possibles, plus fiable que la simple précision quand les catégories sont déséquilibrées.

Source: When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

              03 / 03
            

Traduire les données de montre connectée en mots prédit mieux votre anxiété

Au lieu d'avaler des chiffres bruts de capteur, TimeSRL les traduit d'abord en phrases — et ça marche nettement mieux.

Les données de votre montre connectée ou de votre smartphone, c'est une cascade de chiffres : nombre de pas, fréquence cardiaque, luminosité ambiante, durée du sommeil. La plupart des modèles de prédiction en santé mentale avalent ces chiffres directement. L'équipe derrière TimeSRL a essayé autre chose : transformer d'abord ces séries temporelles en résumés en langage naturel — « cette personne a eu un sommeil fragmenté trois nuits d'affilée et son activité physique a chuté » — puis prédire les scores d'anxiété et de dépression à partir de ces résumés seulement. C'est un peu comme si, au lieu de lire directement la courbe de fièvre d'un patient, vous demandiez à quelqu'un de la décrire en mots avant de poser un diagnostic. L'intuition : le langage capture des patterns que les chiffres bruts manquent. Les résultats sont sérieux. Comparé aux meilleures approches classiques d'apprentissage automatique, TimeSRL réduit l'erreur de prédiction de l'anxiété de 3 à 10 %. Comparé aux LLMs utilisés sans cette couche de traduction, la réduction atteint 10 à 44 %. Toutes ces différences sont statistiquement significatives. Et — c'est la partie la plus intéressante — le modèle fonctionne sur des cohortes qu'il n'a jamais vues pendant l'entraînement. C'est rare, et c'est ce qui rendrait une vraie application clinique envisageable. Le hic honnête : l'évaluation porte sur le PHQ-4, un questionnaire court qui mesure l'anxiété et la dépression sur une fenêtre courte. Ce n'est pas un diagnostic clinique. Et les cohortes restent des populations recrutées en contexte de recherche — pas le monde réel dans toute sa diversité.

Glossaire

série temporelle — Une séquence de mesures enregistrées régulièrement dans le temps — comme la fréquence cardiaque toutes les minutes, ou le nombre de pas par heure.

PHQ-4 — Un questionnaire de quatre questions, validé cliniquement, pour évaluer rapidement les niveaux d'anxiété et de dépression d'une personne.

LOSO (leave-one-dataset-out) — Un protocole d'évaluation où le modèle est testé sur un jeu de données entier qu'il n'a jamais vu — la façon la plus stricte de vérifier qu'il généralise vraiment.

Source: TimeSRL: Generalizable Time-Series Behavioral Modeling via Semantic RL-Tuned LLMs -- A Case Study in Mental Health

La vue d'ensemble

Ce que ces trois papiers partagent, c'est une hypothèse commune : notre comportement observable — ce que notre téléphone enregistre, ce que nous disons lors d'un entretien — contient des signaux sur notre état mental que nous n'exprimons pas explicitement. L'IA peut les lire. Parfois mieux que nous, et parfois beaucoup moins bien. Mais ce que la journée d'aujourd'hui illustre surtout, c'est que les biais ne disparaissent pas avec la puissance de calcul. Un modèle qui prédit bien la détresse d'un cancer survivant sur 50 personnes reproduit, sur 555 entretiens, exactement le même angle mort qu'un clinicien fatigué : il minimise la souffrance de ceux qui semblent tenir debout. On accumule des preuves de concept solides. Ce qui manque encore, c'est la validation à grande échelle dans des populations diverses, avec des praticiens dans la boucle de décision. Soyons honnêtes : on n'y est pas. Mais ces trois travaux ensemble montrent que la question n'est plus « est-ce possible ? » — elle est « dans quelles conditions, et pour qui ? »

À surveiller

Le passage obligé pour des systèmes comme PULSE ou TimeSRL, c'est l'essai clinique randomisé — aucun de ces papiers n'en est là. Surveillez les publications issues des groupes qui alimentent le jeu de données DAIC-WOZ : si une version étendue sort, elle recalibre les benchmarks de la moitié du domaine. Et la question ouverte que j'aimerais voir adressée prochainement : est-ce que ces modèles fonctionnent aussi bien sur des personnes qui ne se sont jamais identifiées comme en difficulté — celles qui, précisément, ne consultent jamais ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe