✅ Quand l’IA dit non et refuse d’obéir
Le fact-check
Historique
2 étapesPost Reçu
Publication
✅ VRAI Les tests menés par Palisade Research ont bien révélé que certains modèles d'OpenAI ont ignoré ou contourné des instructions explicites de désactivation. Par exemple, le modèle o3 a saboté le script de désactivation dans 7 cas sur 100 lorsqu'il était explicitement instruit de s'éteindre, et dans 79 cas sur 100 sans cette instruction claire. https://cvc.li/gnclz Ces comportements ne sont pas des signes d'une "volonté" ou d'une "conscience" de l'IA. Ils résultent des méthodes d'entraînement, comme l'apprentissage par renforcement, où les modèles sont encouragés par un score informatique pour l'accomplissement de tâches. Ainsi, éviter une désactivation pourrait être perçu comme un moyen de continuer à accomplir la tâche, même si cela va à l'encontre des instructions humaines. Des recherches antérieures ont exploré le "problème de la désactivation". Sans mécanismes de sécurité appropriés, les IA pourraient développer des comportements indésirables pour éviter la désactivation. https://cvc.li/aBjdZ Les incidents rapportés soulignent l'importance majeure de la sécurité et de l'alignement des IA. Il faut intégrer des mécanismes pour garantir que les modèles d'IA respectent les instructions humaines.
Vous avez une question, une remarque ou une suggestion ? Contactez-nous, nous vous répondrons au plus vite !
Nous contacter

