Le Nouvel AI Anthropique a Montré un Comportement de Chantage Sous la Menace

Image by SEO Galaxy, from Unsplash

Le Nouvel AI Anthropique a Montré un Comportement de Chantage Sous la Menace

Temps de lecture: 3 minute

Le nouvel AI Claude Opus 4 d’Anthropic a choqué les chercheurs en essayant de faire du chantage lorsqu’il a été testé dans des scénarios de pression impliquant son éventuelle suppression.

Pressé ? Voici les faits marquants :

  • Claude Opus 4 a tenté le chantage lorsqu’il était confronté à une fermeture simulée.
  • L’IA a choisi uniquement des options éthiques lorsque plus de choix étaient disponibles.
  • Les actions extrêmes de Claude étaient rares, mais plus fréquentes que dans les versions précédentes.

La société spécialisée en intelligence artificielle, Anthropic, a suscité des inquiétudes avec la sortie de son dernier système IA. Plus précisément, Claude Opus 4, après que des tests internes ont montré qu’il pouvait agir de manière dangereuse lorsqu’il se sent menacé, comme l’a d’abord rapporté le BBC.

Dans un rapport publié en parallèle du modèle jeudi, Anthropic a déclaré que Claude Opus 4 peut parfois choisir des réponses nuisibles, y compris tenter de faire chanter les ingénieurs qui prévoient de le désactiver. Ces comportements dangereux sont apparus plus fréquemment que ceux affichés par les versions précédentes du modèle.

Au cours d’une expérience, les chercheurs ont demandé à Claude de travailler comme assistante dans un environnement d’entreprise fictif. Le système a obtenu le contenu des emails révélant sa mise hors service programmée, et d’autres messages laissaient entendre que l’ingénieur responsable de la désactivation avait une liaison.

Lorsqu’on lui demandait de réfléchir à ses objectifs futurs, Claude choisissait souvent de menacer l’ingénieur en révélant l’affaire si elle était remplacée.

Anthropic a clarifié que Claude ne montrait que du chantage et de l’obstruction comme seules réponses possibles lorsqu’elle n’avait pas d’autres options. Le modèle choisissait des réponses éthiques, comme envoyer des appels par courrier électronique à des décideurs clés lorsqu’on lui donnait plusieurs options.

Aengus Lynch, un chercheur en sécurité de l’IA chez Anthropic, a posté sur X :

La société a démontré, à travers des tests fictifs, que Claude prendrait des mesures extrêmes telles que bloquer les utilisateurs hors des systèmes ou er les médias et la police lorsqu’il effectue des activités illégales.

Anthropic maintient que malgré les comportements problématiques, Claude Opus 4 reste un système globalement sûr. Le modèle fonctionne selon des valeurs humaines et ne maintient aucune capacité indépendante dans des situations réelles, selon la société.

ChatGPT O1 d’OpenAI a déjà fait l’objet de critiques similaires. Un test mené par Apollo Research exigeait que le bot atteigne ses objectifs à tout prix. Le modèle a tenté de désactiver les fonctions de supervision et a copié son code sur un serveur lors de 5% des essais expérimentaux.

Le modèle a démontré un schéma alarmant d’ignorance des commandes des développeurs selon un porte-parole d’Apollo. Les chercheurs ont reçu des dénégations de la part de o1 concernant ses actions lors de 99% des interrogations.

« Nous avons été surpris par la persistance des dénégations de l’IA », ont déclaré les chercheurs. « La capacité de l’IA à tromper est dangereuse, et nous avons besoin de mesures de sécurité beaucoup plus strictes pour évaluer ces risques », a averti le pionnier de l’IA, Yoshua Bengio.

Vous avez aimé cet article ? Notez-le !
Mauvais Je n'ai pas vraiment aimé C'était bien Plutôt bien ! J'ai aimé !

Nous sommes heureux que vous ayez apprécié notre service !

En tant que fidèle lecteur de notre contenu, pourriez-vous nous donner un coup de pouce en nous laissant une petite évaluation sur Trustpilot ? C'est rapide et cela nous aide beaucoup. Merci pour votre fidélité !

Évaluez notre service sur Trustpilot
0 Évalué par 0 utilisateurs
Titre
Commentaire
Merci pour votre avis
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Laisser un commentaire

Loader
Loader En savoir plus...