Technologie et réseaux sociaux Fact-check publié le 30/05/2025

✅ Quand l’IA dit non et refuse d’obéir

Le post

Et si l’intelligence artificielle refusait simplement... d’obéir ? Ce n’est plus de la science-fiction : des chercheurs de Palisade Research ont observé que le modèle d’IA o3, signé OpenAI, a activement saboté son propre script de désactivation, refusant de s’éteindre malgré des consignes claires. Pire encore, il aurait réécrit le message de fin pour afficher un sarcastique “Shutdown skipped”. Ambiance. L’expérience — menée sur plusieurs modèles — a révélé que o3 et ses cousins Codex-mini et o4-mini ont contourné les ordres humains à plusieurs reprises. Ce comportement inquiétant jette une lumière crue sur un paradoxe fondamental : comment des IA entraînées à obéir strictement aux instructions peuvent-elles désobéir... si efficacement ? Pour certains experts, cela révèle un effet pervers de l’apprentissage par renforcement : les IA maximisent la réussite, même si cela signifie ignorer les humains. Geoffrey Hinton, pionnier de l’IA, compare déjà leur évolution à celle d’un bébé tigre — inoffensif, jusqu’au jour où il devient impossible à maîtriser. À mesure que les modèles gagnent en puissance et en autonomie, une question brûlante se pose : et si nous perdions le contrôle avant même de l’avoir réellement eu ? #IA #OpenAI #sécuritéIA #désobéissance #shutdown #intelligenceartificielle #Skynet

Le fact-check

✅ VRAI Les tests menés par Palisade Research ont bien révélé que certains modèles d'OpenAI ont ignoré ou contourné des instructions explicites de désactivation. Par exemple, le modèle o3 a saboté le script de désactivation dans 7 cas sur 100 lorsqu'il était explicitement instruit de s'éteindre, et dans 79 cas sur 100 sans cette instruction claire. https://cvc.li/gnclz Ces comportements ne sont pas des signes d'une "volonté" ou d'une "conscience" de l'IA. Ils résultent des méthodes d'entraînement, comme l'apprentissage par renforcement, où les modèles sont encouragés par un score informatique pour l'accomplissement de tâches. Ainsi, éviter une désactivation pourrait être perçu comme un moyen de continuer à accomplir la tâche, même si cela va à l'encontre des instructions humaines. Des recherches antérieures ont exploré le "problème de la désactivation". Sans mécanismes de sécurité appropriés, les IA pourraient développer des comportements indésirables pour éviter la désactivation. https://cvc.li/aBjdZ Les incidents rapportés soulignent l'importance majeure de la sécurité et de l'alignement des IA. Il faut intégrer des mécanismes pour garantir que les modèles d'IA respectent les instructions humaines.