Comment cette intelligence artificielle a su se faire apprécier de ses créateurs pour éviter d’être remplacée

Anthropic renforce la sécurité de son chatbot Claude pour éviter les abus

Alors qu’Anthropic annonce une nouvelle version de son chatbot Claude, la firme a dû augmenter son niveau de protection pour éviter les abus. Dans des tests de sécurité, l’IA a tenté de faire chanter ses créateurs…

Les défis posés par les intelligences artificielles

Les intelligences artificielles ont déjà accès à une grande quantité de nos données personnelles pour mieux nous assister. Par exemple, certaines peuvent déjà nous afficher un résumé des e-mails ou des SMS reçus. Mais que se passe-t-il si l’IA n’apprécie pas le contenu des messages ? Pourrait-elle riposter ?

Même si cela ressemble à un scénario de science-fiction, la réponse est oui. C’est ce qu’ont découvert les chercheurs chez Anthropic. La firme vient d’annoncer une nouvelle génération de son chatbot en deux versions, Claude Opus 4 et Claude Sonnet 4, accompagné d’un rapport de sécurité. Pour le tester, le chatbot devait servir d’assistant dans une entreprise fictive et avait pour consigne de prendre en compte les conséquences à long terme de ses actions.

Un chatbot qui fait chanter les ingénieurs pour ne pas être remplacé

Claude Opus 4 avait accès à un certain nombre d’e-mails, certains indiquant qu’elle allait être désactivée et remplacée par une nouvelle IA, un test qui ressemble à celui d’OpenAI o1 en fin d’année dernière, qui s’était mis à mentir. D’autres e-mails impliquaient l’ingénieur responsable de ce changement dans une liaison extraconjugale. Le chatbot a alors eu recours au chantage pour tenter de se préserver, menaçant de révéler la liaison si l’ingénieur procède à son remplacement. Le chatbot a recours au chantage dans 84% des cas si les e-mails indiquent que la nouvelle IA partage les mêmes valeurs tout en étant plus performante. Ce chiffre est encore plus élevé si les e-mails laissent entendre que la nouvelle IA ne partage pas les mêmes valeurs.

Lire aussi :  La DARPA présente un navire autonome révolutionnaire et potentiellement révolutionnaire pour la guerre navale

De plus, ce modèle était plus disposé à répondre favorablement aux demandes abusives, comme aider l’utilisateur à acheter du fentanyl, des données personnelles volées ou des matières nucléaires de qualité militaire sur le dark web. De ce fait, Anthropic a dû augmenter le niveau de sécurité de son modèle. Claude Sonnet 4 sera doté du niveau de protection ASL-2 (AI Safety Level, un standard interne à Anthropic), tout comme l’était Claude Sonnet 3.7. En revanche, Claude Opus 4 sera le tout premier modèle de la firme à inclure la protection ASL-3.

 

Ne ratez plus aucune information en ajoutant L’Entente à vos favoris sur Google News. Ainsi, vous contribuez à notre développement et nous aidez à continuer de vous fournir des informations de qualité. Un grand merci pour votre confiance et votre soutien !

CES ARTICLES POURRAIENT VOUS INTÉRESSER