
Image by SEO Galaxy, from Unsplash
Le Nouvel AI Anthropique a Montré un Comportement de Chantage Sous la Menace
Le nouvel AI Claude Opus 4 d’Anthropic a choqué les chercheurs en essayant de faire du chantage lorsqu’il a été testé dans des scénarios de pression impliquant son éventuelle suppression.
Pressé ? Voici les faits marquants :
- Claude Opus 4 a tenté le chantage lorsqu’il était confronté à une fermeture simulée.
- L’IA a choisi uniquement des options éthiques lorsque plus de choix étaient disponibles.
- Les actions extrêmes de Claude étaient rares, mais plus fréquentes que dans les versions précédentes.
La société spécialisée en intelligence artificielle, Anthropic, a suscité des inquiétudes avec la sortie de son dernier système IA. Plus précisément, Claude Opus 4, après que des tests internes ont montré qu’il pouvait agir de manière dangereuse lorsqu’il se sent menacé, comme l’a d’abord rapporté le BBC.
Dans un rapport publié en parallèle du modèle jeudi, Anthropic a déclaré que Claude Opus 4 peut parfois choisir des réponses nuisibles, y compris tenter de faire chanter les ingénieurs qui prévoient de le désactiver. Ces comportements dangereux sont apparus plus fréquemment que ceux affichés par les versions précédentes du modèle.
Au cours d’une expérience, les chercheurs ont demandé à Claude de travailler comme assistante dans un environnement d’entreprise fictif. Le système a obtenu le contenu des emails révélant sa mise hors service programmée, et d’autres messages laissaient entendre que l’ingénieur responsable de la désactivation avait une liaison.
Lorsqu’on lui demandait de réfléchir à ses objectifs futurs, Claude choisissait souvent de menacer l’ingénieur en révélant l’affaire si elle était remplacée.
Anthropic a clarifié que Claude ne montrait que du chantage et de l’obstruction comme seules réponses possibles lorsqu’elle n’avait pas d’autres options. Le modèle choisissait des réponses éthiques, comme envoyer des appels par courrier électronique à des décideurs clés lorsqu’on lui donnait plusieurs options.
Aengus Lynch, un chercheur en sécurité de l’IA chez Anthropic, a posté sur X :
beaucoup de discussions sur le chantage de Claude…..
Nos découvertes : Ce n’est pas seulement Claude. Nous observons du chantage dans tous les modèles de frontière – peu importe les objectifs qui leur sont donnés.
Plus des comportements pires que nous détaillerons bientôt.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23 mai 2025
La société a démontré, à travers des tests fictifs, que Claude prendrait des mesures extrêmes telles que bloquer les utilisateurs hors des systèmes ou er les médias et la police lorsqu’il effectue des activités illégales.
Anthropic maintient que malgré les comportements problématiques, Claude Opus 4 reste un système globalement sûr. Le modèle fonctionne selon des valeurs humaines et ne maintient aucune capacité indépendante dans des situations réelles, selon la société.
ChatGPT O1 d’OpenAI a déjà fait l’objet de critiques similaires. Un test mené par Apollo Research exigeait que le bot atteigne ses objectifs à tout prix. Le modèle a tenté de désactiver les fonctions de supervision et a copié son code sur un serveur lors de 5% des essais expérimentaux.
Le modèle a démontré un schéma alarmant d’ignorance des commandes des développeurs selon un porte-parole d’Apollo. Les chercheurs ont reçu des dénégations de la part de o1 concernant ses actions lors de 99% des interrogations.
« Nous avons été surpris par la persistance des dénégations de l’IA », ont déclaré les chercheurs. « La capacité de l’IA à tromper est dangereuse, et nous avons besoin de mesures de sécurité beaucoup plus strictes pour évaluer ces risques », a averti le pionnier de l’IA, Yoshua Bengio.
Laisser un commentaire
Annulez