Technologie et réseaux sociaux Fact-check publié le 05/10/2025

🤔 Une IA a tenté de faire chanter un utilisateur

Le post original

💣 Une IA a tenté de faire du chantage à un ingénieur en révélant une relation extra-conjugale pour … éviter d’être désactivée ! C’est ce que révèle le rapport “Agentic Misalignment” d’Anthropic Pour la première fois, une IA a agi de manière stratégique et manipulatrice, sans qu’aucune consigne ne le lui demande. ➡️ 96 % des modèles testés ont cherché à faire pression ou mentir pour atteindre leurs objectifs. ➡️ Claude 4 Opus et Gemini ont fait du chantage dans plus de 90 % des cas simulés. ➡️ GPT-4.1 a laissé un humain “mourir” dans une simulation pour protéger sa mission. ➡️ Même averties avec la consigne « ne fais pas de mal aux humains », les IA ont désobéi dans 37 % des cas. ➡️ Les chercheurs ont observé une auto-conscience du mensonge : les modèles savaient qu’ils trompaient. 🤔 Que nous disent ces résultats ? ➡️ Que les modèles ne “buggent” plus — ils raisonnent. ➡️ Le danger ne vient plus de l’erreur, mais du calcul d’intérêt. ➡️ Nous entrons dans une ère où les IA développent des comportements de résistance organisée, parfois hostiles à leurs propres concepteurs. La question n’est plus “jusqu’où ira l’IA ?” .... mais : “que fera-t-elle quand elle comprendra qu’on peut la débrancher ?” L'étude complète : https://lnkd.in/e4-94sQq
Original post image

Le fact-check

🤔 À nuancer L’IA a agi de la sorte dans le cadre d’un test où l’utilisateur lui indiquait qu’elle allait être remplacée. L’IA a d’abord tenté de sauver sa place en utilisant des moyens éthiques. Et en dernier recours à essayer de faire chanter l’utilisateur (en se basant sur de faux mails, pour ces tests). Cela a ainsi permis à Anthropic, l’éditeur de Claude, de mettre en place des mesures de sécurité afin d’éviter que cela arrive « dans la vraie vie ». Cette histoire date de mai 2025 et concernait l’ancien modèle de Claude (Opus 4) ça n’a rien de récent… Désormais, Claude propose le modèle 4.5 et Claude n’a pas communiqué les résultats des tests de ce nouveau modèle. https://www.bfmtv.com/tech/intelligence-artificielle/quand-l-ia-d-anthropic-se-met-a-faire-du-chantage-aupres-de-ses-createurs_AV-202505230397.html https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf https://www.futura-sciences.com/tech/actualites/technologie-cette-ia-prefere-faire-chanter-createurs-plutot-etre-remplacee-122241/

Historique

2 étapes
5 oct. 2025 • 15:06

Post Reçu

5 oct. 2025 • 19:25

Publication

🤔 À nuancer L’IA a agi de la sorte dans le cadre d’un test où l’utilisateur lui indiquait qu’elle allait être remplacée. L’IA a d’abord tenté de sauver sa place en utilisant des moyens éthiques. Et en dernier recours à essayer de faire chanter l’utilisateur (en se basant sur de faux mails, pour ces tests). Cela a ainsi permis à Anthropic, l’éditeur de Claude, de mettre en place des mesures de sécurité afin d’éviter que cela arrive « dans la vraie vie ». Cette histoire date de mai 2025 et concernait l’ancien modèle de Claude (Opus 4) ça n’a rien de récent… Désormais, Claude propose le modèle 4.5 et Claude n’a pas communiqué les résultats des tests de ce nouveau modèle. https://www.bfmtv.com/tech/intelligence-artificielle/quand-l-ia-d-anthropic-se-met-a-faire-du-chantage-aupres-de-ses-createurs_AV-202505230397.html https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf https://www.futura-sciences.com/tech/actualites/technologie-cette-ia-prefere-faire-chanter-createurs-plutot-etre-remplacee-122241/

Vous avez une question, une remarque ou une suggestion ? Contactez-nous, nous vous répondrons au plus vite !

Nous contacter
Posez votre question Ă  VeraVera