DeepScience — Artificial Intelligence

DeepScience · Artificial Intelligence · Digest quotidien

L'IA sait détecter les hackers, mais ignore vos abonnements SaaS

Trois papiers qui montrent où l'IA excelle, où elle bloque, et pourquoi la qualité des données médicales est plus subtile qu'il n'y paraît.

            June 05, 2026
          

J'ai épluché 95 papiers ce matin — et franchement, la plupart sont soit des guides pratiques, soit des frameworks théoriques sans une seule mesure. Mais trois sujets valent vraiment votre temps. Soyons directs : c'est une journée de résultats solides mélangés à beaucoup de bruit. Je vous livre les trois qui tiennent debout.

Les histoires du jour

              01 / 03
            

Les IA de cybersécurité résistent bien mieux aux hackers qu'avant

Un attaquant modifie légèrement un virus pour tromper le détecteur — le modèle tient bon à 91 %. Sans protection, il tombait à 71 %.

Imaginez un videur de boîte de nuit. Sans formation spécifique, il reconnaît les habitués mais se fait berner par un déguisement un peu soigné. C'est exactement le problème des systèmes de détection d'intrusion classiques face aux attaques dites « adversariales » — des attaques conçues pour passer sous le radar. Une équipe de chercheurs a publié GUARDML, un pipeline — c'est-à-dire une chaîne d'étapes automatisées — qui combine trois couches : une représentation intelligente des données réseau brutes, une couche de robustesse contre la manipulation, et des « garde-fous » légers intégrés à la sortie. Le résultat est mesuré sur trois tâches : détecter des intrusions réseau, classifier des malwares, et repérer du phishing. Les modèles de type Transformer — la même famille d'architecture que les grands modèles de langage — surpassent les approches classiques basées sur des arbres de décision de 4 à 11 points de F1. Le F1 est une note de 0 à 1 qui équilibre les faux positifs et les faux négatifs. Avec les garde-fous activés, le système maintient un taux de détection de 0,91 même lorsqu'un attaquant essaie activement de le tromper — contre 0,71 sans protection. Et ce surcoût ne pèse que 7 à 9 % de latence supplémentaire, ce qui est négligeable en production. Le hic : ce papier ne teste que des environnements de laboratoire. Les attaques réelles sont souvent plus complexes, plus contextuelles, et les faux positifs — les alertes inutiles — ont un coût humain réel pour les équipes de sécurité. Un résultat prometteur, pas une solution clé en main.

Glossaire

Transformer — Architecture de réseau de neurones capable de traiter des séquences longues en pesant l'importance relative de chaque élément — la même base technique que GPT ou BERT.

F1 — Score entre 0 et 1 qui combine précision (peu de fausses alertes) et rappel (peu de menaces manquées) en une seule mesure.

attaque adversariale — Modification délibérée et subtile d'un fichier ou d'un flux réseau pour tromper un modèle d'IA sans que la modification soit visible pour un humain.

Source: Machine Learning for Modern Cybersecurity: Trend-Driven Architectures, Threat Models, and Quantitative Evaluation

              02 / 03
            

En médecine, « pas de pneumonie » n'est pas la même chose que « pneumonie »

Un compte rendu médical dit « absence de pneumothorax » — l'IA lit « pneumothorax ». Ce problème, personne ne le voyait venir.

Quand vous cuisinez avec une recette mal rédigée — « ne pas ajouter trop de sel » traduit par « ajouter du sel » — le plat rate. C'est exactement ce qui arrive quand on entraîne une IA médicale sur des comptes rendus mal interprétés. Une équipe a extrait un sous-ensemble de la base de données MultiCaRe, qui regroupe des cas cliniques publiés dans la littérature médicale, pour créer un jeu de données centré sur la radiographie thoracique. Leur problème : les rapports médicaux contiennent des négations — « on n'observe pas de pleurésie », « absence de cardiomégalie » — et un programme naïf qui cherche le mot « pleurésie » va cocher la mauvaise case. Pour corriger ça, ils ont développé un pipeline de traitement du langage — NLP — capable de comprendre la négation. Sur 16 pathologies thoraciques, dont la pneumonie, l'emphysème, la tuberculose ou le COVID-19, le système extrait une étiquette binaire : présent ou absent, en tenant compte du contexte grammatical. Le jeu de données résultant pèse 34,7 Mo compressé. Il est disponible publiquement, ce qui est précieux : les données médicales annotées sont rares et souvent inaccessibles. Le hic — et il est important : les auteurs ne publient pas les métriques de validation de leur pipeline de négation. On ne sait pas combien de fois il se trompe encore. C'est un premier pas utile, mais avant d'entraîner un modèle clinique là-dessus, une validation externe indépendante s'impose.

Glossaire

NLP (traitement du langage naturel) — Ensemble de techniques permettant à un ordinateur de lire, interpréter et traiter du texte écrit en langage humain.

étiquette binaire — En machine learning, un label qui ne peut prendre que deux valeurs : 0 (absent) ou 1 (présent).

pipeline — Chaîne d'étapes de traitement automatiques qui se succèdent, chaque sortie servant d'entrée à l'étape suivante.

Source: Curated Thoracic Subset from MultiCaRe for Multi‑Label Chest X‑Ray Disease Classification

              03 / 03
            

Combien coûte Slack ? Demandez à un LLM : il se trompe souvent

Vous demandez le prix d'un abonnement logiciel à un chatbot — il vous cite un tarif de l'an dernier avec une totale confiance.

Un modèle de langage ne navigue pas sur Internet en temps réel. Il a appris sur des données figées à un moment précis — sa « date de coupure » — et depuis, les prix ont changé, les offres ont évolué, des produits ont disparu. Ça ressemble au voyageur qui revient de six mois en Antarctique et vous cite les prix à la pompe de l'hiver dernier avec une assurance totale. Une équipe de comparedge.com a constitué un jeu de données de référence en juin 2026 : huit produits SaaS vérifiés manuellement sur les pages officielles des éditeurs. Ils ont ensuite interrogé 14 grands modèles de langage sur ces mêmes prix, en autorisant une tolérance de ±15 %. Le résultat — les modèles montrent une « précision variable » — est délibérément vague dans la publication, le classement détaillé étant hébergé sur Kaggle. Ce qu'on retient : la variance est significative, et même avec une tolérance de 15 %, plusieurs modèles se trompent sur des produits courants. Soyons honnêtes sur les limites de ce papier lui-même : huit produits, c'est minuscule. La source est commerciale. Et les résultats complets ne sont pas dans la publication. C'est moins un papier de recherche qu'un exercice de communication. Mais le problème qu'il pointe est réel, lui : utiliser un LLM pour prendre une décision d'achat ou comparer des offres logicielles sans vérifier les sources primaires, c'est jouer à la roulette. La confiance que projette un chatbot n'est pas corrélée à sa fraîcheur.

Glossaire

LLM (grand modèle de langage) — Système d'IA entraîné sur de grandes quantités de texte pour générer et comprendre du langage naturel — ChatGPT, Claude ou Gemini en sont des exemples.

date de coupure (knowledge cutoff) — La date à laquelle les données d'entraînement d'un modèle se sont arrêtées — après cette date, le modèle ne « sait » rien de ce qui s'est passé.

SaaS — Logiciel vendu en abonnement et accessible en ligne, sans installation — Slack, Notion ou Salesforce sont des exemples.

Source: SaaS Pricing Accuracy 2026: LLM Benchmark Ground Truth Dataset

La vue d'ensemble

Ces trois papiers parlent d'un même enjeu sous des angles différents : la confiance. En cybersécurité, GUARDML montre qu'on peut rendre les modèles robustes face à des adversaires actifs — à condition de concevoir la robustesse dès le départ, pas de la coller dessus après coup. En radiologie, le problème de la négation révèle que la qualité des données n'est pas une question de volume mais de finesse linguistique — un détail que les équipes pressées de « faire tourner le modèle » sautent trop vite. Et sur les prix SaaS, on voit la limite la plus banale de l'IA : elle ne sait pas ce qu'elle ne sait pas, et elle ne vous le dit jamais spontanément. Ce qui me frappe, c'est que les trois problèmes ont une solution commune : ne pas traiter l'IA comme un oracle, mais comme un outil qui a besoin d'une couche de vérification externe. Ce n'est pas un aveu de faiblesse du domaine — c'est simplement une ingénierie sérieuse.

À surveiller

Sur le front médical, surveillez les travaux de validation des pipelines de négation en NLP clinique — c'est un problème sous-estimé qui va monter en visibilité à mesure que les hôpitaux adoptent des outils d'aide au diagnostic. Sur la question des connaissances périmées des LLMs, la question ouverte que j'aimerais voir traitée : peut-on entraîner un modèle à exprimer son incertitude temporelle de façon calibrée, plutôt que de répondre avec la même assurance qu'il s'agisse d'un fait de 1850 ou d'un tarif de mars 2026 ?

Pour aller plus loin

Merci de m'avoir lu — à demain. — JB

DeepScience — Intelligence scientifique interdisciplinaire
deepsci.io

Unsubscribe