DeepScience — Mental Health

DeepScience · Mental Health · Digest quotidien

Voix, ondes cérébrales, téléphone : trois nouvelles façons de lire la santé mentale

Parce que les outils IA pour dépister la dépression et l'anxiété progressent vite — mais leurs angles morts aussi.

            June 02, 2026
          

Journée dense aujourd'hui : 281 papiers à trier, un café de trop, et trois histoires qui valent vraiment le détour. Elles parlent toutes de la même ambition — détecter les troubles mentaux plus tôt, plus objectivement — mais chacune arrive par un chemin différent. Je vous explique pourquoi ça compte, et où ça accroche encore.

Les histoires du jour

              01 / 03
            

Les IA qui dépistent les troubles psy ont un sérieux problème de biais

Présentez à un grand modèle de langage quelqu'un qui décrit clairement une anxiété sévère — il pourrait vous répondre 'pas de trouble détecté', simplement parce que la personne mentionne qu'elle a des amis.

Une équipe a soumis 555 entretiens cliniques réels — des conversations enregistrées avec des patients — à cinq grands modèles de langage : LLaMA 3, DeepSeek, GPT-4o Mini, GPT-4.1 Mini et GPT-5 Mini. La tâche : identifier anxiété, dépression majeure, PTSD. Les diagnostics de référence avaient été établis par des cliniciens humains via un protocole structuré, le SCID. Les résultats sont honnêtement décevants. La précision oscille entre 0,49 — à peine mieux qu'un tirage à pile ou face — et 0,86 selon le modèle et le trouble. Mais la vraie mesure de qualité, le coefficient de corrélation de Matthews (MCC), qui punit à la fois les faux positifs et les faux négatifs, ne dépasse jamais 0,38. C'est faible. Pourquoi ? Imaginez un jury qui, face à un accusé au casier chargé, prononce l'acquittement parce qu'il se tient bien à l'audience. C'est un peu ce que font ces modèles. Quand les transcriptions mentionnent que la personne « fonctionne normalement » ou « a du soutien social », les IA tendent à conclure « pas de trouble » — même quand les symptômes cliniques sont explicitement présents dans le texte. Le contexte protecteur écrase le signal clinique. Il y a aussi un biais de genre documenté : les modèles détectent mieux la dépression chez les hommes que chez les femmes. Personne n'explique encore pourquoi. Le hic : l'analyse fine du raisonnement des modèles n'a été faite que sur GPT-4.1 Mini. Et aucun de ces modèles n'était entraîné spécifiquement pour la psychiatrie. Ce ne sont pas encore des outils cliniques — ce sont des indicateurs de ce qu'il faudra corriger pour en faire un.

Glossaire

MCC (Matthews Correlation Coefficient) — Une mesure de qualité d'un classifieur qui tient compte à la fois des erreurs 'faux positif' et 'faux négatif' — plus robuste que la simple précision quand les classes sont déséquilibrées.

SCID — Structured Clinical Interview for DSM Disorders : un entretien diagnostique standardisé conduit par un clinicien, utilisé comme référence dans la recherche psychiatrique.

zero-shot — Un modèle utilisé en zero-shot reçoit une instruction mais aucun exemple d'entraînement spécifique à la tâche — il généralise depuis ce qu'il a appris au préalable.

Source: When Symptoms Are Not Enough: Evidence-Weighting Patterns in Large Language Model Psychiatric Screening

              02 / 03
            

Détecter la dépression sur un EEG sans jamais entraîner l'IA sur des cerveaux malades

Et si, pour reconnaître un cerveau en souffrance, il suffisait d'avoir appris à la perfection ce à quoi ressemble un cerveau qui va bien ?

C'est le pari d'une équipe de chercheurs avec leur système SGC (Score-Guided Classification). L'idée est contre-intuitive : plutôt que d'entraîner une IA sur des EEG de patients dépressifs — ce qui demande des données sensibles, difficiles à collecter — on entraîne d'abord le modèle uniquement sur des cerveaux sains. Comme un plombier qui connaît le plan d'une maison normale jusque dans ses moindres détails. Quand il visite une maison et que quelque chose cloche, il le voit immédiatement — pas parce qu'il a vu mille maisons abîmées, mais parce qu'il connaît la norme par cœur. Chaque signal EEG d'un nouveau patient reçoit alors un « score d'anomalie » : à quel point ce cerveau s'éloigne-t-il de la norme saine ? Ce score, combiné à un classifieur, produit un diagnostic. Sur deux jeux de données publics (Mumtaz2016 et MODMA), la précision annoncée atteint 95,19 %. Le système résout aussi un problème pratique souvent ignoré : les électrodes EEG ne sont pas placées de la même façon d'un hôpital à l'autre. Un module spécifique gère ces configurations différentes, ce qui ouvre la voie à un usage multi-centres. Le hic — et il est important — 95 % sur des datasets contrôlés en laboratoire, c'est très différent de 95 % dans un service psychiatrique réel. Les patients prennent des médicaments, ont des comorbidités, dorment mal. L'équipe n'a pas encore testé ça. Ce résultat est un plancher de départ, pas une promesse clinique.

Glossaire

EEG (électroencéphalogramme) — Enregistrement de l'activité électrique du cerveau via des électrodes posées sur le crâne — indolore, non invasif, et assez peu coûteux.

Score d'anomalie — Une valeur calculée par le modèle qui mesure à quel point un signal s'écarte du comportement attendu d'un système sain — plus le score est élevé, plus le signal est atypique.

VQ-VAE / DDPM — Deux types de réseaux génératifs utilisés ici pour modéliser la structure et la distribution des signaux EEG normaux — les détails techniques importent peu, l'idée est qu'ils apprennent des représentations compactes de 'comment ça devrait ressembler'.

Source: Beyond Augmentation: Score-Guided Pathological Prior for EEG-based Depression Detection

              03 / 03
            

Votre téléphone peut-il estimer votre anxiété, même si l'IA ne vous connaît pas ?

Un téléphone enregistre silencieusement des dizaines de signaux chaque jour — mais les convertir en une estimation fiable d'anxiété, sur n'importe quelle population, reste un casse-tête.

TimeSRL, développé par une équipe de chercheurs, s'attaque au problème numéro un des outils de santé mentale numériques : la généralisation. Un modèle entraîné sur des étudiants américains ne fonctionne pas sur des travailleurs japonais. Les données de capteurs passifs — rythme d'activité, qualité du sommeil, fréquence d'utilisation du téléphone — varient tellement d'une population à l'autre que les modèles s'effondrent dès qu'on change de contexte. L'astuce de TimeSRL : plutôt que d'analyser directement les chiffres bruts, une première étape les traduit en langage naturel. C'est comme demander à un interprète de transformer les statistiques d'un match en récit (« l'équipe a dominé les vingt premières minutes, puis s'est effondrée ») avant de demander à un commentateur si les joueurs étaient en forme. En transformant les chiffres en descriptions narratives, le modèle peut raisonner sur des patterns universels plutôt que sur des valeurs spécifiques à une population. Les résultats, testés en laissant toujours un dataset de côté lors de l'entraînement (protocole LOSO), sont solides : jusqu'à 44 % de réduction de l'erreur de prédiction d'anxiété par rapport aux autres approches LLM, et 3 à 10 % par rapport aux méthodes ML classiques. Le hic : le système prédit des scores PHQ-4 — quatre questions sur l'anxiété et la dépression. C'est un proxy utile pour la recherche, pas un diagnostic clinique. Et les données de capteurs passifs posent des questions de vie privée que ce papier ne traite pas. Je simplifie un peu — mais l'enjeu de consentement est réel.

Glossaire

PHQ-4 — Un questionnaire de quatre questions validé cliniquement pour évaluer rapidement les niveaux d'anxiété et de dépression — il donne un score, pas un diagnostic.

LOSO (Leave-One-Study-Out) — Protocole d'évaluation où le modèle est entraîné sur toutes les populations sauf une, puis testé sur cette population inconnue — c'est le test de généralisation le plus rigoureux.

Capteurs passifs — Données collectées automatiquement par un smartphone sans action de l'utilisateur : accéléromètre, GPS, luminosité ambiante, fréquence des appels, etc.

Source: TimeSRL: Generalizable Time-Series Behavioral Modeling via Semantic RL-Tuned LLMs -- A Case Study in Mental Health

La vue d'ensemble

Ces trois papiers racontent une tension centrale dans la recherche en santé mentale numérique : on veut des outils fiables, mais la fiabilité se gagne à des niveaux très différents. Au niveau biologique, le travail sur l'EEG montre que les progrès techniques sont réels — on peut maintenant s'affranchir des données de patients pour entraîner un détecteur de dépression. C'est un vrai pas en avant. Mais le déploiement clinique reste une autre histoire. Au niveau conversationnel, les LLMs comme dépisteurs psychiatriques ont des performances modestes et des biais documentés par genre. Le chantier est ouvert, pas abandonné. Et entre les deux, les données passives du téléphone offrent peut-être un pont scalable — si on résout les questions de vie privée et si on accepte que « prédire un score PHQ-4 » n'est pas « diagnostiquer ». Ce qui relie les trois : personne ne cherche plus un modèle universel. On cherche des systèmes honnêtes sur leurs limites. C'est peut-être le vrai progrès du mois.

À surveiller

Deux choses à surveiller dans les prochaines semaines. D'abord, les biais de genre dans les LLMs psychiatriques : est-ce un problème de données d'entraînement ou de structure des prompts ? Plusieurs équipes travaillent dessus et une réponse changerait beaucoup la façon d'utiliser ces outils. Ensuite, les essais cliniques sur les thérapies numériques (DTx) devant la FDA en 2026 — leurs résultats diront si les scores PHQ améliorés sur une appli se traduisent en mieux-être réel.

Pour aller plus loin

Merci de m'avoir lu jusqu'ici — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe