DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Votre voix, votre téléphone, vos mots : l'IA écoute.

Trois équipes tentent de détecter la dépression sans vous le demander — voici jusqu'où elles sont arrivées, et ce que ça coûte.

            May 25, 2026
          

Deux cent soixante-dix-neuf papiers cette semaine dans le domaine santé mentale — c'est une des journées les plus denses que j'aie vues depuis un moment. J'ai passé la matinée à trier pour vous en garder trois qui méritent vraiment votre attention. Le fil conducteur : peut-on confier à une machine le travail de repérer une souffrance psychique, sans poser la question directement ?

Les histoires du jour

              01 / 03
            

Trente secondes de voix suffisent à signaler une dépression, dit cette IA.

Pas ce que vous dites — comment vous le dites : c'est là que se cache le signal.

Une équipe de la société Sonde Health a entraîné un système d'IA sur plus de 64 000 enregistrements audio de 34 000 personnes différentes. L'objectif : détecter dépression et anxiété uniquement à partir de la voix, sans analyser les mots. Imaginez que votre voix est comme une météo. Ce qui intéresse le modèle, ce n'est pas le bulletin — ce que vous annoncez — mais le ciel lui-même : les nuages, la pression, les micro-variations de température. L'IA capte ces signaux physiques — rythme, fréquences, textures sonores — que vous ne contrôlez pas consciemment. Trente secondes d'enregistrement suffisent à l'inférence. Résultat sur 5 000 sujets de test : 71 % de sensibilité et de spécificité — le modèle identifie correctement sept cas sur dix, dans les deux sens. Ajoutez des signaux linguistiques par-dessus — les mots prononcés, analysés par un modèle de type BERT — et les performances augmentent encore. Le hic, et il est sérieux. Les étiquettes de référence sont des auto-questionnaires — le PHQ-9 pour la dépression, le GAD-7 pour l'anxiété. Le modèle apprend à prédire ce que les gens disent d'eux-mêmes, pas un diagnostic posé par un médecin. Et les données sont propriétaires : impossible de vérifier de façon indépendante. Franchement, 71 % dans ce contexte, c'est encourageant. Mais entre « encourageant » et « déployable en clinique », il reste un gouffre. Personne ne sait encore si ce signal tient dans une autre population, ou sur la durée.

Glossaire

PHQ-9 — Questionnaire d'auto-évaluation de la dépression en 9 questions, très répandu en médecine générale et en recherche.

GAD-7 — Questionnaire d'auto-évaluation de l'anxiété généralisée en 7 questions, souvent utilisé en parallèle du PHQ-9.

Sensibilité / spécificité — Deux mesures de performance d'un test : la sensibilité évalue sa capacité à repérer les vrais cas positifs, la spécificité sa capacité à ne pas classer à tort des gens sains comme malades.

BERT — Modèle de langage entraîné sur de grands corpus de texte, capable d'analyser le sens des mots en contexte.

Source: Voice Biomarkers for Depression and Anxiety

              02 / 03
            

Quand les patients cancer n'écrivent plus, l'IA lit leur téléphone à leur place.

Le moment où un patient a le plus besoin d'aide est souvent celui où il est le moins capable de le signaler.

Des chercheurs travaillant sur les survivants du cancer ont nommé ce phénomène le « paradoxe du journal » : ces patients sont censés remplir des auto-évaluations quotidiennes sur leur humeur, mais c'est précisément quand leur détresse est la plus forte qu'ils arrêtent de le faire. Le silence dans les données ne signifie pas que tout va bien — c'est souvent le signe contraire. Leur solution s'appelle PULSE. Au lieu d'attendre que le patient écrive quelque chose, le système lit les traces passives de son smartphone — déplacements, rythme des appels, luminosité de l'écran, fréquence de frappe. Pensez à un médecin qui lirait votre montre connectée plutôt que de vous demander comment vous dormez. Un agent IA parcourt ensuite ces données en autonomie : il choisit quels capteurs consulter, sur quelle fenêtre temporelle, et compare le tout à la ligne de base personnelle du patient. Sur 50 survivants du cancer, ce système atteint une précision équilibrée de 0,74 pour prédire quand quelqu'un souhaite réguler ses émotions — contre 0,52 à 0,60 pour les méthodes classiques d'apprentissage automatique. L'essentiel du gain vient de l'architecture « agentique » — le fait que l'IA décide elle-même quoi chercher — plutôt que du type de données utilisées. Le hic : 50 participants, c'est petit. La population est spécifique — survivants anglophones, dans une étude longitudinale déjà existante. Est-ce que ça tient pour d'autres troubles, d'autres cultures, d'autres contextes ? Question ouverte. Un vrai pas, mais un petit.

Glossaire

Précision équilibrée (balanced accuracy) — Mesure de performance qui tient compte des deux types d'erreurs — faux positifs et faux négatifs — particulièrement utile quand les cas positifs et négatifs ne sont pas en nombre égal dans les données.

Architecture agentique — Approche où un modèle d'IA prend lui-même des décisions sur quelles informations consulter et dans quel ordre, plutôt que de suivre une séquence fixe prédéfinie.

Source: PULSE: Agentic Investigation with Passive Sensing for Proactive Intervention in Cancer Survivorship

              03 / 03
            

Les LLM dépistent mal la psychiatrie — et se trompent plus souvent sur les femmes.

Dites à un LLM que vous dormez mal, que vous êtes épuisé, mais que vous avez quand même des amis — et il conclura souvent que tout va bien.

Une équipe de chercheurs américains a soumis 555 entretiens cliniques semi-structurés à cinq grands modèles de langage — LLaMA 3, DeepSeek, GPT-4o Mini, GPT-4.1 Mini et GPT-5 Mini — pour tester leur capacité à dépister anxiété, dépression, PTSD, ou tout trouble mental actif. Ces entretiens avaient été validés par le SCID, l'outil de référence en psychiatrie clinique. Imaginez un filtre à café : le modèle tente de séparer ce qui est « positif » de ce qui ne l'est pas. Sauf que le filtre se bouche quand il rencontre des informations contradictoires — quelqu'un qui décrit clairement des symptômes, mais aussi un bon soutien social ou une vie professionnelle préservée. Dans ces cas, le LLM tend à conclure « tout va bien », là où le clinicien aurait posé un diagnostic. Les scores MCC — une mesure de discrimination qui va de −1 à +1, où 0 signifie un résultat aléatoire — vont de 0,16 à 0,38 selon les modèles et les troubles. Faible à modeste. GPT-4.1 Mini et GPT-5 Mini s'en sortent le mieux en cohérence. Et le constat le plus inquiétant : les modèles classifient mieux la dépression chez les hommes que chez les femmes, de façon systématique. Les auteurs n'expliquent pas encore pourquoi. Le hic : l'échantillon est à 77,8 % blanc, rendant toute conclusion sur les biais raciaux impossible. Et les performances restent trop faibles pour envisager un usage clinique autonome. Soyons honnêtes — ces outils ne sont pas prêts.

Glossaire

SCID — Entretien clinique structuré pour le DSM, considéré comme l'étalon-or du diagnostic psychiatrique en recherche.

MCC (Matthews Correlation Coefficient) — Mesure de la qualité d'un classifieur binaire qui tient compte des quatre types de résultats possibles ; un score de 0 équivaut à un tirage aléatoire, un score de 1 à la perfection.

PTSD — Trouble de stress post-traumatique — trouble anxieux qui peut se développer après une expérience traumatisante.

Source: When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

La vue d'ensemble

Ces trois études ne parlent pas de la même chose en surface — voix, smartphone, entretiens cliniques — mais elles posent toutes la même question : peut-on confier à une machine le travail de repérer une souffrance psychique ? Ce qu'elles nous disent collectivement, c'est qu'on s'approche du possible tout en découvrant la complexité. Les signaux acoustiques fonctionnent sur des dizaines de milliers de personnes, mais les étiquettes restent auto-déclarées. Les agents IA battent les algorithmes classiques, mais sur 50 personnes. Les LLM ratent les cas protégés et traitent différemment hommes et femmes. Ce n'est pas une raison de jeter le bébé avec l'eau du bain. C'est une raison de poser clairement les conditions de progrès : validation externe par des équipes indépendantes, cohortes plus diverses, transparence sur les données d'entraînement. La recherche avance sur de vrais problèmes cliniques. Mais elle avance sans filet — et souvent plus vite que les garde-fous ne se mettent en place.

À surveiller

Ce qu'il faudra surveiller dans les semaines qui viennent : une validation indépendante des biomarqueurs vocaux sur une cohorte non-propriétaire — c'est la prochaine étape nécessaire, et elle n'a pas encore eu lieu. Sur le biais de genre dans les LLM psychiatriques, la question ouverte est simple mais importante : est-ce un artefact des données d'entraînement, ou les descriptions symptomatiques elles-mêmes diffèrent-elles entre hommes et femmes de façon que les modèles ne gèrent pas ? La réponse changerait complètement les correctifs à apporter.

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe