Anthropic renforce la sécurité de son chatbot Claude pour éviter les abus
Alors qu’Anthropic annonce une nouvelle version de son chatbot Claude, la firme a dû augmenter son niveau de protection pour éviter les abus. Dans des tests de sécurité, l’IA a tenté de faire chanter ses créateurs…
Les défis posés par les intelligences artificielles
Les intelligences artificielles ont déjà accès à une grande quantité de nos données personnelles pour mieux nous assister. Par exemple, certaines peuvent déjà nous afficher un résumé des e-mails ou des SMS reçus. Mais que se passe-t-il si l’IA n’apprécie pas le contenu des messages ? Pourrait-elle riposter ?
Même si cela ressemble à un scénario de science-fiction, la réponse est oui. C’est ce qu’ont découvert les chercheurs chez Anthropic. La firme vient d’annoncer une nouvelle génération de son chatbot en deux versions, Claude Opus 4 et Claude Sonnet 4, accompagné d’un rapport de sécurité. Pour le tester, le chatbot devait servir d’assistant dans une entreprise fictive et avait pour consigne de prendre en compte les conséquences à long terme de ses actions.
Un chatbot qui fait chanter les ingénieurs pour ne pas être remplacé
Claude Opus 4 avait accès à un certain nombre d’e-mails, certains indiquant qu’elle allait être désactivée et remplacée par une nouvelle IA, un test qui ressemble à celui d’OpenAI o1 en fin d’année dernière, qui s’était mis à mentir. D’autres e-mails impliquaient l’ingénieur responsable de ce changement dans une liaison extraconjugale. Le chatbot a alors eu recours au chantage pour tenter de se préserver, menaçant de révéler la liaison si l’ingénieur procède à son remplacement. Le chatbot a recours au chantage dans 84% des cas si les e-mails indiquent que la nouvelle IA partage les mêmes valeurs tout en étant plus performante. Ce chiffre est encore plus élevé si les e-mails laissent entendre que la nouvelle IA ne partage pas les mêmes valeurs.
De plus, ce modèle était plus disposé à répondre favorablement aux demandes abusives, comme aider l’utilisateur à acheter du fentanyl, des données personnelles volées ou des matières nucléaires de qualité militaire sur le dark web. De ce fait, Anthropic a dû augmenter le niveau de sécurité de son modèle. Claude Sonnet 4 sera doté du niveau de protection ASL-2 (AI Safety Level, un standard interne à Anthropic), tout comme l’était Claude Sonnet 3.7. En revanche, Claude Opus 4 sera le tout premier modèle de la firme à inclure la protection ASL-3.